火山引擎实时对话式AI

立即注册

整合大模型(LLM), 语音识别(ASR), 语音合成(TTS)等人工智能技术, 通过火山引擎RTC实现音视频数据的高效采集、处理和传输，快速实现用户与大模型间流畅、自然、真人感的实时通话功能

整合LLM, ASR, TTS技术, 通过火山引擎RTC实现音视频数据的高效采集、处理和传输，快速实现用户与大模型间的实时通话功能

方案能力

方案架构

应用场景

客户案例

接入流程

让大模型像真人一样会听会看会说

端上降噪

智能打断

超低延时

抗弱网

真人音色

灵活扩展

端上降噪

通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性

立即咨询

智能打断

支持全双工通信及音频帧级别的人声检测(VAD)，随时插话打断，交流更自然

立即咨询

超低延时

通过音频流式处理算法，优化 RTC+ASR+LLM+TTS 各个环节的交互延时，端到端整体时延低至 1 秒

立即咨询

抗弱网

通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢字引起大模型理解错误

立即咨询

真人音色

支持豆包同款音色，自然生动，善于演绎

支持声音复刻，1:1 还原，个性化定制

立即咨询

灵活扩展

多人扩展：可无缝扩展至 1v多 AI 实时交互场景

多模态扩展：可无缝扩展至音视频 AI 实时交互场景

立即咨询

端上降噪

通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性

立即咨询

智能打断

支持全双工通信及音频帧级别的人声检测(VAD)，随时插话打断，交流更自然

立即咨询

超低延时

通过音频流式处理算法，优化 RTC+ASR+LLM+TTS 各个环节的交互延时，端到端整体时延低至 1 秒

立即咨询

抗弱网

通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢字引起大模型理解错误

立即咨询

真人音色

支持豆包同款音色，自然生动，善于演绎

支持声音复刻，1:1 还原，个性化定制

立即咨询

灵活扩展

多人扩展：可无缝扩展至 1v多 AI 实时交互场景

多模态扩展：可无缝扩展至音视频 AI 实时交互场景

立即咨询

端上降噪

通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性

智能打断

支持全双工通信及音频帧级别的人声检测(VAD)，随时插话打断，交流更自然

超低延时

通过音频流式处理算法，优化 RTC+ASR+LLM+TTS 各个环节的交互延时，端到端整体时延低至 1 秒

抗弱网

通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢字引起大模型理解错误

真人音色

支持豆包同款音色，自然生动，善于演绎

支持声音复刻，1:1 还原，个性化定制

灵活扩展

多人扩展：可无缝扩展至 1v多 AI 实时交互场景

多模态扩展：可无缝扩展至音视频 AI 实时交互场景

可扩展、可定制的灵活架构

进阶体验

支持音频/图像/视频多模态实时交互

支持实时字幕、Function Call、过滤指定内容等

快速接入

开箱即用的场景化 Demo

3个 API 实现与大模型实时交互

关联产品

进阶体验

支持音频/图像/视频多模态实时交互

支持实时字幕、Function Call、过滤指定内容等

关联产品

进阶体验

支持音频/图像/视频多模态实时交互

支持实时字幕、Function Call、过滤指定内容等

关联产品

适用于不同场景的AI应用

社交陪伴

支持丰富音色和声音克隆，满足个性化情感陪伴和角色扮演需求

延时低至 1 秒，随时插话打断，交流更自然

帧级别音/字/画同步，状态词过滤，对话更沉浸

立即使用

儿童陪伴

适应儿童说话语速慢、不连贯、口齿不清等特点，语音识别准确

高品质还原各类角色音色，更具情感，符合儿童兴趣特点

支持 FC 和内容审核，为儿童提供便捷、安全的知识陪伴

立即使用

口语教学

支持多语种识别

超低延时响应，随时插话打断，模拟真实口语交流体验

支持声纹识别，家长陪伴场景不打扰教学效果

立即使用

智能硬件

适配各类硬件终端，有效处理各种回声、噪声、弱网等环境问题

支持对接 RAG 和 FC，无缝调用个性化服务

更低的 CPU 与内存资源占用，更适应各类低功耗芯片

立即使用

智能客服

实时响应、支持插话打断、逼真音色语气，让客服更具真人感

基于 RAG 和记忆能力，提供专业、个性化的服务体验

支持基于软交换技术与 PSTN 公共电话互联

立即使用

社交陪伴

支持丰富音色和声音克隆，满足个性化情感陪伴和角色扮演需求

延时低至 1 秒，随时插话打断，交流更自然

帧级别音/字/画同步，状态词过滤，对话更沉浸

立即使用

儿童陪伴

适应儿童说话语速慢、不连贯、口齿不清等特点，语音识别准确

高品质还原各类角色音色，更具情感，符合儿童兴趣特点

支持 FC 和内容审核，为儿童提供便捷、安全的知识陪伴

立即使用

口语教学

支持多语种识别

超低延时响应，随时插话打断，模拟真实口语交流体验

支持声纹识别，家长陪伴场景不打扰教学效果

立即使用

智能硬件

适配各类硬件终端，有效处理各种回声、噪声、弱网等环境问题

支持对接 RAG 和 FC，无缝调用个性化服务

更低的 CPU 与内存资源占用，更适应各类低功耗芯片

立即使用

智能客服

实时响应、支持插话打断、逼真音色语气，让客服更具真人感

基于 RAG 和记忆能力，提供专业、个性化的服务体验

支持基于软交换技术与 PSTN 公共电话互联

立即使用

社交陪伴

支持丰富音色和声音克隆，满足个性化情感陪伴和角色扮演需求

延时低至 1 秒，随时插话打断，交流更自然

帧级别音/字/画同步，状态词过滤，对话更沉浸

儿童陪伴

适应儿童说话语速慢、不连贯、口齿不清等特点，语音识别准确

高品质还原各类角色音色，更具情感，符合儿童兴趣特点

支持 FC 和内容审核，为儿童提供便捷、安全的知识陪伴

口语教学

支持多语种识别

超低延时响应，随时插话打断，模拟真实口语交流体验

支持声纹识别，家长陪伴场景不打扰教学效果

智能硬件

适配各类硬件终端，有效处理各种回声、噪声、弱网等环境问题

支持对接 RAG 和 FC，无缝调用个性化服务

更低的 CPU 与内存资源占用，更适应各类低功耗芯片

智能客服

实时响应、支持插话打断、逼真音色语气，让客服更具真人感

基于 RAG 和记忆能力，提供专业、个性化的服务体验

支持基于软交换技术与 PSTN 公共电话互联

他们的用户都在和大模型实时对话

来自客户的信任

“显眼包”是一款基于大模型开发的情感陪伴玩偶，它不仅能理解并积极回应复杂的问题，还会用鼓励的方式进行互动，内置中英文双语，不管你走到哪里，“显眼包”都会陪在你身边，为你带来大模型智能生成时代的愉悦体验

扣子是新一代 AI 应用开发平台，借助可视化设计与编排工具，开发者可以快速搭建基于大模型的各类 AI 项目；集成扣子智能语音 OpenAPI，可以使用户能够和扣子上的智能体进行低延迟、可打断的实时通话

显眼包扣子

创建你的第一个实时对话式AI应用

了解开发流程，试试无代码跑通「实时对话式AI」Demo

开通服务

注册并开通火山引擎RTC/ASR/TTS/LLM

集成SDK

集成火山引擎RTC SDK实现采集与进房通话功能

调用智能体

调用相关OpenAPI接口实现智能体实时交互能力

或者，用扣子让构建AI更容易

零代码构建智能体，3步实现和智能体实时通话

扣子：新一代AI应用开发平台

零代码快速搭建个性化智能体

拖拉拽快速编排工作流

1万+插件，拓展智能体能力边界

3步实现和扣子智能体实时通话

将扣子创建的智能体发布为Agent as API

集成对应平台的RTC SDK

创建RTC房间，并将智能体加入房间

一键开启云上增长新空间

专业的解决方案、领先的产品帮您实现业务的爆发式增长

免费试用

实时对话式 AI

更流畅 | 更自然 | 更真实

让大模型像真人一样会听会看会说

端上降噪

智能打断

超低延时

抗弱网

真人音色

灵活扩展

端上降噪

智能打断

超低延时

抗弱网

真人音色

灵活扩展

端上降噪

智能打断

超低延时

抗弱网

真人音色

灵活扩展

可扩展、可定制的灵活架构

进阶体验

快速接入

关联产品

进阶体验

关联产品

进阶体验

关联产品

适用于不同场景的AI应用

社交陪伴

儿童陪伴

口语教学

智能硬件

智能客服

社交陪伴

儿童陪伴

口语教学

智能硬件

智能客服

他们的用户都在和大模型实时对话

更多合作客户

创建你的第一个实时对话式AI应用

开通服务

集成SDK

调用智能体

或者，用扣子让构建AI更容易