实时音视频
本文介绍如何结合火山引擎 RTC SDK 和服务端 OpenAPI,快速构建具备超低延时、实时交互能力的对话式 AI 应用。
此集成方案适用于 Android、iOS、Windows、macOS、Linux、Web、Electron、Flutter、微信小程序、Unity、抖音小游戏、React Native 平台。
AI 实时互动的实现流程如下图所示:
首先,需要在你的应用中集成 RTC SDK,实现基础的音视频通话能力,为 AI 智能体的加入创建环境。主要分为以下三个核心环节:
请根据您的客户端平台(iOS、Android、Web 等),集成 RTC SDK 实现音视频通话能力。
setAudioScenario 将手机音量类型切换为媒体音量。muteAudioCapture 静音麦克风以保证最低的切换延迟。不建议使用 stopAudioCapture,该操作可能会导致声音卡顿或变声。构建音视频通话后,在服务端调用 StartVoiceChat 接入智能体,实现用户与智能体通话。
说明
如果发起 OpenAPI 接口请求时返回 200,但是智能体未进入房间或进入房间未正常工作,可参考智能体未进房或未正常工作?。
至此,你已实现房间内真人用户和智能体的实时对话。
除了基本的 AI 对话能力,你还可以集成更多高级功能来提升用户体验,例如实时字幕、打断智能体、接收智能体状态、视觉理解等。支持的功能及具体实现,可参看进阶功能。
默认情况下,若真人用户退房,180 s 后智能体任务会自动停止,但该 180s 内仍会计费。对话结束后,为避免不必要的资源消耗和计费,你可以:
可通过降低音量增益值,减少噪音引起的 ASR 错误识别。具体参看如何提升语音识别准确性?。
可以。在发起新一轮对话时,你可以将上一轮对话的上下文信息作为 UserPrompts 参数的值传入。