在应用中使用 RTC 实现 AI 实时对话--火山方舟大模型服务平台-火山引擎

文档中心

导航

在应用中使用 RTC 实现 AI 实时对话

最近更新时间：2025.01.16 23:13:56首次发布时间：2024.12.05 10:25:43

借助火山引擎 RTC 的对话式 AI 实时交互能力和方舟大模型服务，您可以在您的 RTC 应用中实现与 AI 进行自然、流畅、真人感的实时语音对话，适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。

Demo 体验

你可直接访问 Web Demo 快速体验对话式 AI 实时交互能力。

技术架构

通过火山引擎 RTC SDK实现了音视频数据的高效采集、自定义处理和超低时延传输，在云端提供了智能音视频处理模块，包括音频 3A、AI降噪和抽帧截图等能力，以减少环境噪音和设备性能对对话式 AI 体验的影响。此外，方案深度整合RTC、ASR、LLM 以及 TTS 等产品服务，简化语音到文本和文本到语音的转换过程，提供强大的智能对话、自然语言处理以及多模态交互能力，同时结合大模型和知识库 RAG 相关产品和能力，帮助应用快速实现用户和云端大模型的实时语音通话和多模态交互。

功能特性

基础功能

功能	说明
AI 实时语音对话	与 AI 进行自然流畅的实时语音对话，如同与真人交流，支持随时插话打断。
语音打断	在对话过程中，用户可以随时打断 AI 的语音输出，实现双向互动。
降噪	结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法，能够兼顾强降噪与高保真，确保在嘈杂的环境中有效去除背景噪音，保留清晰的人声。

进阶功能

功能	说明
实时字幕	实时将用户和 AI 的对话内容转化为文字，显示在终端界面上。具体实现方式，请参见实时字幕。
过滤指定内容	在用户与 AI 通话期间，系统自动识别并过滤掉非必要的细节信息，如对话结束提示或动作描述。这些信息可不进行 TTS 语音合成，不会被语音播放，可仅作为字幕返回，在不干扰语音对话的情况下，让用户获得额外的信息提示。具体实现方式，请参见过滤指定内容。
Function calling	允许大模型识别用户对话中的特定需求，并在内容的过程中调用外部函数或 API，来执行它自身无法独立完成的任务，如处理实时数据检索、文件处理、数据库查询等。通过这种方式，AI 应用能够精确回答特定领域的问题，如天气查询、股票行情查询、数学计算等，扩展了 AI 应用的服务能力和应用场景。具体实现方式，请参见 Function calling。

方案优势

交流自然、随时打断
- 智能打断：支持全双工通信及音频帧级别的人声检测（VAD），随时插话打断，交流更自然。
- 端上降噪：通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性。
实时秒回、通话流畅
- 超低时延：基于全链路流式处理，RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
- 抗弱网：通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢字引起大模型理解错误。
灵活扩展
- 多人交互：从 1v1 交互扩展至 1v多的 AI 实时交互。
- 视频交互：从纯音频对话扩展至音视频 AI 实时交互。
快速接入、易集成
一站式集成，企业只需调用标准的 OpenAPI 接口即可配置所需的 ASR、LLM 和 TTS 服务，快速实现 AI 实时交互应用。

计费说明

对话式 AI 实时交互涉及以下费用：

计费项	计费规则
音频通话	音频通信费（纯音频）
对话式 AI 音频处理	对话式AI-音频处理费
ASR 语音识别	流式语音识别费
LLM 处理	模型服务费
TTS 语音合成	语音合成费

开始使用

快速体验：跑通示例代码。
在 Web 应用中实现 AI 实时对话：场景搭建（Web）。
实现进阶功能：