火山引擎的实时对话式 AI场景方案,让人与 AI 的交互不再局限于文字,还能进行自然、流畅、真人感的实时语音对话,可应用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
火山引擎实时对话式 AI场景方案,通过火山引擎 RTC 实现音视频数据的高效采集、自定义处理和超低时延传输。在云端,提供了智能音视频处理模块,包括音频 3A、AI降噪和抽帧截图等能力,以减少环境噪音和设备性能对对话式 AI 体验的影响。此外,方案搭载火山方舟大模型服务平台,深度整合语音识别(ASR)、语音合成(TTS)、大语言模型(LLM)和知识库 RAG 等服务,简化语音到文本及文本到语音的转换过程,提供强大的智能对话、自然语言处理和多模态交互能力,助力应用快速实现用户与云端大模型之间的实时语音通话和多模态交互。
基础功能
功能 | 说明 |
---|---|
AI 实时语音对话 | 与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。 |
语音打断 | 在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。 |
降噪 | 结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。 |
进阶功能
功能 | 说明 |
---|---|
实时字幕 | 实时将用户和 AI 的对话内容转化为文字,显示在终端界面上。具体实现方式,请参见 实时字幕。 |
过滤指定内容 | 在用户与 AI 通话期间,系统自动识别并过滤掉非必要的细节信息,如对话结束提示或动作描述。这些信息可不进行 TTS 语音合成,不会被语音播放,可仅作为字幕返回,在不干扰语音对话的情况下,让用户获得额外的信息提示。具体实现方式,请参见 过滤指定内容。 |
Function calling | 允许大模型识别用户对话中的特定需求,并在内容的过程中调用外部函数或 API,来执行它自身无法独立完成的任务,如处理实时数据检索、文件处理、数据库查询等。通过这种方式,AI 智能体能够精确回答特定领域的问题,如天气查询、股票行情查询、数学计算等,扩展了 AI 智能体的服务能力和应用场景。具体实现方式,请参见 Function calling。 |
实时对话式 AI涉及以下费用:
计费项 | 计费规则 |
---|---|
音频通话 | 音频通信费(纯音频) |
对话式 AI 音频处理 | 对话式AI-音频处理费 |
ASR 语音识别 | 流式语音识别费 |
LLM 处理 | 模型服务费 |
TTS 语音合成 | 语音合成费 |