借助火山引擎 RTC 的对话式 AI 实时交互能力和方舟大模型服务,您可以在您的 RTC 应用中实现与 AI 进行自然、流畅、真人感的实时语音对话,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
你可直接访问 Web Demo 快速体验对话式 AI 实时交互能力。
通过火山引擎 RTC SDK实现了音视频数据的高效采集、自定义处理和超低时延传输,在云端提供了智能音视频处理模块,包括音频 3A、AI降噪和抽帧截图等能力,以减少环境噪音和设备性能对对话式 AI 体验的影响。此外,方案深度整合RTC、ASR、LLM 以及 TTS 等产品服务,简化语音到文本和文本到语音的转换过程,提供强大的智能对话、自然语言处理以及多模态交互能力,同时结合大模型和知识库 RAG 相关产品和能力,帮助应用快速实现用户和云端大模型的实时语音通话和多模态交互。
功能 | 说明 |
---|---|
AI 实时语音对话 | 与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。 |
语音打断 | 在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。 |
降噪 | 结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。 |
功能 | 说明 |
---|---|
实时字幕 | 实时将用户和 AI 的对话内容转化为文字,显示在终端界面上。具体实现方式,请参见 实时字幕。 |
过滤指定内容 | 在用户与 AI 通话期间,系统自动识别并过滤掉非必要的细节信息,如对话结束提示或动作描述。这些信息可不进行 TTS 语音合成,不会被语音播放,可仅作为字幕返回,在不干扰语音对话的情况下,让用户获得额外的信息提示。具体实现方式,请参见 过滤指定内容。 |
Function calling | 允许大模型识别用户对话中的特定需求,并在内容的过程中调用外部函数或 API,来执行它自身无法独立完成的任务,如处理实时数据检索、文件处理、数据库查询等。通过这种方式,AI 智能体能够精确回答特定领域的问题,如天气查询、股票行情查询、数学计算等,扩展了 AI 智能体的服务能力和应用场景。具体实现方式,请参见 Function calling。 |
对话式 AI 实时交互涉及以下费用:
计费项 | 计费规则 |
---|---|
音频通话 | |
对话式 AI 音频处理 | |
ASR 语音识别 | |
LLM 处理 | |
TTS 语音合成 |