You need to enable JavaScript to run this app.
导航
场景介绍
最近更新时间:2024.12.17 17:10:35首次发布时间:2024.07.17 15:35:25

火山引擎的实时对话式 AI场景方案,让人与 AI 的交互不再局限于文字,还能进行自然、流畅、真人感的实时语音对话,可应用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
alt

技术架构

火山引擎实时对话式 AI场景方案,通过火山引擎 RTC 实现音视频数据的高效采集、自定义处理和超低时延传输。在云端,提供了智能音视频处理模块,包括音频 3A、AI降噪和抽帧截图等能力,以减少环境噪音和设备性能对对话式 AI 体验的影响。此外,方案搭载火山方舟大模型服务平台,深度整合语音识别(ASR)、语音合成(TTS)、大语言模型(LLM)和知识库 RAG 等服务,简化语音到文本及文本到语音的转换过程,提供强大的智能对话、自然语言处理和多模态交互能力,助力应用快速实现用户与云端大模型之间的实时语音通话和多模态交互。

功能特性

  • 基础功能

    功能说明
    AI 实时语音对话与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。
    语音打断在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。
    降噪结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。
  • 进阶功能

    功能说明
    实时字幕实时将用户和 AI 的对话内容转化为文字,显示在终端界面上。具体实现方式,请参见 实时字幕
    过滤指定内容在用户与 AI 通话期间,系统自动识别并过滤掉非必要的细节信息,如对话结束提示或动作描述。这些信息可不进行 TTS 语音合成,不会被语音播放,可仅作为字幕返回,在不干扰语音对话的情况下,让用户获得额外的信息提示。具体实现方式,请参见 过滤指定内容
    Function calling允许大模型识别用户对话中的特定需求,并在内容的过程中调用外部函数或 API,来执行它自身无法独立完成的任务,如处理实时数据检索、文件处理、数据库查询等。通过这种方式,AI 智能体能够精确回答特定领域的问题,如天气查询、股票行情查询、数学计算等,扩展了 AI 智能体的服务能力和应用场景。具体实现方式,请参见 Function calling

方案优势

  • 交流自然、随时打断
    • 智能打断:支持全双工通信及音频帧级别的人声检测(VAD),随时插话打断,交流更自然。
    • 端上降噪:通过 RTC SDK 实现对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,提高用户语音打断的准确性。
  • 实时秒回、通话流畅
    • 超低时延:基于全链路流式处理,RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
    • 抗弱网:通过智能接入、RTC 云端协同优化,在复杂和弱网环境下确保低延时和传输可靠性,避免因丢字引起大模型理解错误。
  • 灵活扩展
    • 多人交互:从 1v1 交互扩展至 1v多的 AI 实时交互。
    • 视频交互:从纯音频对话扩展至音视频 AI 实时交互。
  • 快速接入、易集成
      一站式集成,企业只需调用标准的 OpenAPI 接口即可配置所需的 ASR、LLM 和 TTS 服务,快速实现 AI 实时交互应用。

计费说明

实时对话式 AI涉及以下费用:

计费项计费规则
音频通话音频通信费(纯音频)
对话式 AI 音频处理对话式AI-音频处理费
ASR 语音识别流式语音识别费
LLM 处理模型服务费
TTS 语音合成语音合成费

开始使用