火山引擎实时音视频(Volcengine Real Time Communication,veRTC)提供全球范围内高可靠、高并发、低延时的实时音视频通信能力,实现多种类型的实时交流和互动。
通过在应用中接入 RTC SDK,并调用 RTC 提供的 API,可以快速构建:音视频聊天、在线教育、直播连麦、视频会议、游戏语音、云游戏、云端渲染等丰富场景功能,覆盖互娱、教育、游戏、会议等各种行业需求。
火山引擎实时音视频提供优质、高效的音视频解决方案,主要从以下两方面来为应用实现实时音视频通信:
客户端:通过在应用中集成 Android、iOS、macOS、Windows、Web、小程序、Electron、Unity、Flutter 等客户端 SDK,可实现多种音视频功能。
服务端:
服务端 Open API 帮助你发起网络请求,从后端服务器进行创建房间、查询房间状态、云端录制、配置下发等操作,并通过 WTN 实时传输网络进行音视频和信令传输。
通过控制台功能,可以对通话的数据进行全周期质量监测、回溯和分析,帮助开发者及时发现问题、定位原因,以便及时解决问题,提升用户体验。同时,控制台还具备客户端应用管理、云端媒体处理功能配置和用量统计功能。
同时,火山引擎实时音视频还能与即时通信 IM、互动白板、视频直播、视频点播等云产品之间实现联动。产品架构如下图所示:
房间是实时音视频通话发生的场所,是一个虚拟空间。用户通过加入某个房间来参与该房间内的音视频通话,与房间内的其他用户互动,接收和发送实时音视频消息。
用户是音视频通话的参与主体,在不同业务场景中,用户可能具有不同的角色。
用户在房间内的行为受角色影响。房主具有发流、控制和管理房间等权限,观众可以发言、参与互动等。
在实时音视频通话中,房间内的用户可以根据需要切换角色。
流是指经采样和编码后,通过网络进行连续传输和播放的音视频数据。
推流是指将音视频数据流从本地推送到远端的行为,对应发布本地流。
拉流是指将音视频数据流从远端拉到本地的行为,对应订阅远端流。
转推包括单流转推和合流转推,指将一个或多个房间中的音视频内容合成一路流,通过实时消息传输协议推送至 RTMP 服务器,再由 CDN 进行分发。
指定用户之间互相发送的消息。
服务端向指定房间内所有用户发送的消息。
更多相关概念请参见基础术语。
平台 | 开发环境要求 | 支持架构 |
---|---|---|
iOS |
| |
Android |
| |
macOS |
| |
Windows |
| |
Linux |
| |
Web | 参看 浏览器兼容性 | --- |
Electron |
| --- |
抖音小程序 | 抖音 21.5.0+ | --- |
抖音小游戏 | 抖音 22.5.0+ | --- |
Flutter |
| 暂不支持 Android、iOS 模拟器 |
Unity |
|
|
微信小程序 |
| --- |
业界领先的 3A 算法。实现 48kHz 高音质全双工的回声消除。自动噪声抑制、自动增益使用超低计算量机器学习算法,更低的功耗实现更好的效果。
客户端 SDK 已经适配 40000+ 款不同的机型,根据设备的性能打分、覆盖率等进行差异化的视频采集/编码策略,实现硬编硬解的机型适配(按实际通话时长计算)比例超过 90%。
采用 H.265 编码器,效率较 H.264 显著提升。另外支持 Simulcast、SVC、ROI、自动码率等先进编码策略和超分、视频降噪、暗光增强等先进画质增强算法,可根据不同机型性能,下发不同档位的视频分辨率,移动端最高支持 1080P,PC 端最高支持 4K,VR 最高支持 8K。
支持单元化部署,分钟级急速扩容。同城双机房,多线路冗余传输。符合 SLA 服务等级协议规定的指标,服务可用性不低于 99.9%。
基于优质全球传输网络,全球端到端 400ms 延时达标率 ≥ 99.5%,服务端平均延时 < 50ms。
应用 FEC、ARQ、HARQ、自适应 Jitter Buffer、自适应码率下发等弱网策略,实现 50% 丢包无感知恢复,最高 80% 抗丢包能力。支持内容自适应编码,可基于线上视频清晰度的实时反馈来进行自动码率调整,减轻网络传输的压力。同时采用智能拥塞控制算法 VICC,能够根据不同的网络条件、业务偏好和码率特征进行自适应调整,以提升各种复杂弱网下的带宽利用率。
支持智能流控协议,可以综合考虑音视频通话中每个订阅者的个性化需求,在网络情况、终端性能发生变化的时候,自动调整音视频流的配置,提升用户体验。
支持区分不同业务场景的参数配置下发,根据不同用户规模、机型、地区、网络模型采取不同的适配策略,满足多样化的高质量音视频体验需求。
提供灵活规范的 API,支持一键配置业务最佳实践,降低开发者集成复杂度,提高开发效率,平均 2 周内即可上线。可裁剪的 SDK 包设计,CPU 内存占用更低。适用于各种平台,可以快速构建多端应用。
行业首创单房间支持超千人同时开麦,突破传统实时音视频上麦人数限制,互动人数提升 20 倍以上,观众人数无上限。
与火山引擎平台各核心产品深度融合,联动美颜特效、直播、点播、内容审核、语音识别、AI 应用等产品,为用户提供各种实时音视频场景下的全链路解决方案。
拥有完善的安全保护体系,可提供全链路音视频加密、用户业务数据隔离,且满足 ISO 等信息安全标准以及 GDPR、CCPA 等跨境安全合规要求。
功能 | 描述 | 主要场景 |
---|---|---|
语音通话 | ||
视频通话 | ||
互动直播 | 单房间支持最多 1000 名主播,10 万名观众,首帧时长中位数 <300ms |
功能 | 描述 | 主要场景 |
---|---|---|
连麦互动 | 支持主播与观众连麦、主播与主播连麦,上下麦切换体验平滑流畅 | |
将多人 RTC 流进行云端合流转码,支持合流、自定义布局,并推流到指定直播 CDN | 希望将房间内的音视频会话分发给其他观看者的场景:
| |
伴音伴奏 | 将本地背景音、伴奏等同步发送给远端用户 | 在线 KTV |
支持播放短小的氛围音和音效文件,如笑声、鼓掌、欢呼、尖叫等氛围音效果 | ||
耳返 | 支持耳返监听功能,支持调节耳返的音量,耳返延时低至 50ms | 在线 KTV |
通过 AI 算法有效抑制常见平稳噪声和非平稳噪声,为用户提供超纯净音质体验 | 对噪声敏感的场景: | |
支持同时发送高清大流和低清小流,接收端根据网络自动订阅 | ||
超分 | 支持将低分辨率视频超分成高分辨率视频,提高视频清晰度和画质 |
|
将电脑桌面、窗口、指定区域分享给其他人,支持与摄像头画面同时显示 | ||
支持自定义的视频源和渲染器,可以更灵活地处理视频 |
| |
云端录制 | 利用 OpenAPI 提交视频录制任务,云端录制服务负责录制音视频内容,并将其自动上传到客户指定的存储系统中。 | 希望存档音视频通话的场景,比如语音聊天室 |
功能 | 描述 | 主要场景 |
---|---|---|
深度融合火山引擎 CV 功能,支持美颜、滤镜、贴纸、虚拟背景等 | ||
一种能够呈现声源的空间方位的音频技术,提高用户音频体验的沉浸感 | 对立体空间听觉有需求的场景:
| |
范围语音 | 一种音频效果,开启此功能后,声音的衰减系数随距离声源的距离变大而变大 | FPS 游戏等对沉浸式体验需求高的场景 |
美声音效 | 设置变声、混响、语音变调功能 | 在线 KTV |
曲库管理 | 获取歌曲列表、搜索歌曲、获取热歌榜单等 | 在线 KTV |
支持通过 AI 算法将人物与背景分割 | 需要虚拟背景的场景:
| |
添加视频水印 | 为实时音视频通信的视频画面添加自定义水印 | 需要声明版权、品牌宣传或记录的场景 |
ASR 语音识别 | 采用业内领先的端到端算法模型,准确地将语音内容转写成文字 | 需要识别语音转换为文本的音视频场景 |
SEI 信息跟随音视频帧发送,实现 SEI 内容与音视频内容精准同步 |
| |
支持音视频敏感内容审核功能,确保内容安全 |
| |
一站式的 AI 接入服务,支持表情识别、手势识别、注意力识别、中英文开口时长等 AI 功能 |
|