You need to enable JavaScript to run this app.
导航
场景介绍
最近更新时间:2024.09.06 15:10:43首次发布时间:2024.07.17 15:35:25

场景描述

在 AIGC-对话式 AI 实时交互场景下,火山引擎 AIGC-RTC Server 云端服务,通过整合 RTC 音视频流处理、ASR 语音识别、大模型接口调用集成、以及 TTS 语音生成等能力,提供基于流式语音的端到端 AIGC 能力链路。

火山引擎云端计算服务负责边缘用户接入、云端资源调度、音视频流压缩、文本与语音转换处理以及数据订阅传输等环节,简化开发流程。你只需调用基于标准的 OpenAPI 接口即可配置所需的 ASR、LLM、TTS 类型和参数,可以更专注在对大模型核心能力的训练及调试,从而快速推进 AIGC 产品应用创新。

同时火山引擎 RTC 拥有成熟的音频 3A 处理、视频处理等技术以及大规模音视频聊天能力,可支持 AIGC 产品更便捷地支持多模态交互、多人互动等场景能力,保持交互的自然性和高效性。

本场景中房间内角色及描述如下:

角色描述
用户与智能体进行对话的角色
智能体进行语音互动的 AI 角色

场景玩法

场景介绍
AI 智能助手多功能的虚拟助手,支持文字、语音等交互,同时能够智能地协助用户执行日常任务,提供即时的信息查询。
AI 陪伴模拟人类伙伴的智能系统,通过文字、语音等交互方式,提供情感支持和社交互动。
AI 口语教学专为语言学习者设计的智能应用,通过模拟对话和发音纠正帮助用户提高口语能力。
AI 游戏 NPC游戏中的智能角色,能够与玩家进行互动,提供任务和故事线索,增强游戏的沉浸感和多样性。

技术架构

alt

如上图所示,火山引擎通过 OpenAPI 的形式提供 AIGC-RTC Server 云端服务,你只需集成 RTC SDK,调用云端服务来实现对话式 AI 实时交互。具体 OpenAPI 接口描述及调用方式详见AIGC-对话式 AI 实时交互

方案优势

  • 音频前后处理及 3A 技术,实现语音打断及提高用户体验

    • 语音打断:支持语音随时打断,双全工通话使交互更加流畅、自然、人性化;
    • 端上降噪:通过 RTC SDK 对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,提高用户语音打断的准确性;
    • 人声检测:通过音频帧级别的人声检测(VAD),在确认有效人声后再启动 ASR 识别,有效降低业务整体成本。
  • 全链路交互响应延时低、体验稳定

    • 流式处理:RTC 超低时延音视频传输以及超低时延信令传输特性,通过音频流式处理算法,优化 RTC+ASR+LLM+TTS 各个环节的交互延时,将 RTS+ASR+TTS 整体时延降低至 800ms 以下;
    • 抗弱网性:通过智能接入,RTC 云端协同优化,在复杂和弱网环境下确保低延时和传输可靠性;
  • 帮助应用快速扩展玩法

    • 多人扩展: 通过 RTC 能很方便地从 1v1 模式下的 AIGC 交互拓展到 1v多的交互式场景;
    • 视频交互:通过 RTC 能无缝迅速地从纯音频对话场景拓展到音视频交互场景。