场景介绍--实时音视频-火山引擎

文档中心

立即注册

导航

实时音视频

场景介绍

最近更新时间：2025.03.04 17:21:05首次发布时间：2024.07.17 15:35:25

火山引擎的实时对话式 AI场景方案，让人与 AI 的交互不再局限于文字，还能进行自然、流畅、真人感的实时语音对话，可应用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
alt

Demo 体验

你可直接访问 Web Demo 快速体验实时对话式 AI 交互能力。

技术架构

火山引擎实时对话式 AI场景方案，通过火山引擎 RTC 实现音视频数据的高效采集、自定义处理和超低时延传输。在云端，提供了智能音视频处理模块，包括音频 3A、AI降噪和抽帧截图等能力，以减少环境噪音和设备性能对对话式 AI 体验的影响。此外，方案搭载火山方舟大模型服务平台，深度整合语音识别（ASR）、语音合成（TTS）、大语言模型（LLM）和知识库 RAG 等服务，简化语音到文本及文本到语音的转换过程，提供强大的智能对话、自然语言处理和多模态交互能力，助力应用快速实现用户与云端大模型之间的实时语音通话和多模态交互。

功能特性

基础功能

功能	说明
AI 实时语音对话	与 AI 进行自然流畅的实时语音对话，如同与真人交流，支持随时插话打断。
语音打断	在对话过程中，用户可以随时打断 AI 的语音输出，实现双向互动。
降噪	结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法，能够兼顾强降噪与高保真，确保在嘈杂的环境中有效去除背景噪音，保留清晰的人声。

进阶功能

功能	说明
实时字幕	实时将用户和 AI 的对话内容转化为文字，显示在终端界面上。具体实现方式，请参见实时字幕。
过滤指定内容	在用户与 AI 通话期间，系统自动识别并过滤掉非必要的细节信息，如对话结束提示或动作描述。这些信息可不进行 TTS 语音合成，不会被语音播放，可仅作为字幕返回，在不干扰语音对话的情况下，让用户获得额外的信息提示。具体实现方式，请参见过滤指定内容。
Function calling	允许大模型识别用户对话中的特定需求，并在内容的过程中调用外部函数或 API，来执行它自身无法独立完成的任务，如处理实时数据检索、文件处理、数据库查询等。通过这种方式，AI 智能体能够精确回答特定领域的问题，如天气查询、股票行情查询、数学计算等，扩展了 AI 智能体的服务能力和应用场景。具体实现方式，请参见 Function calling。
集成自研或第三方大模型	如果需要实现更贴合特定需求的对话效果，可以将自研或第三方大模集成到对话式 AI 工作流中。具体实现方式，请参见对话式 AI 第三方大模型接口验证。
实时视频互动	在与 AI 进行实时交互时，除了语音互动外，还可以通过视觉理解让智能体能够感知用户周围的环境以及用户的行为，实现与 AI 进行实时视频互动。具体实现方式，请参见视觉理解能力。

方案优势

交流自然、随时打断
- 智能打断：支持全双工通信及音频帧级别的人声检测（VAD），随时插话打断，交流更自然。
- 端上降噪：通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性。
实时秒回、通话流畅
- 超低时延：基于全链路流式处理，RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
- 抗弱网：通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢字引起大模型理解错误。
灵活扩展
- 多人交互：从 1v1 交互扩展至 1v多的 AI 实时交互。
- 视频交互：从纯音频对话扩展至音视频 AI 实时交互。
快速接入、易集成
一站式集成，企业只需调用标准的 OpenAPI 接口即可配置所需的 ASR、LLM 和 TTS 服务，快速实现 AI 实时交互应用。
跨端兼容
- 多平台支持：支持 iOS、Android、Windows、Linux、macOS、Web、Flutter、Unity、Electron 和微信小程序多端，满足不同场景的应用需求。
多语种互动
- 多语种支持：支持中、英、日、西等多种语言实时对话。

计费说明