You need to enable JavaScript to run this app.
导航
公有云产品简介
最近更新时间:2024.09.27 10:58:47首次发布时间:2021.02.23 10:42:33

火山引擎实时音视频(Volcengine Real Time Communication,veRTC)提供全球范围内高可靠、高并发、低延时的实时音视频通信能力,实现多种类型的实时交流和互动。
通过在应用中接入 RTC SDK,并调用 RTC 提供的 API,可以快速构建:音视频聊天、在线教育、直播连麦、视频会议、游戏语音、云游戏、云端渲染等丰富场景功能,覆盖互娱、教育、游戏、会议等各种行业需求。

产品架构

火山引擎实时音视频提供优质、高效的音视频解决方案,主要从以下两方面来为应用实现实时音视频通信:

  • 客户端:通过在应用中集成 Android、iOS、macOS、Windows、Web、小程序、Electron、Unity、Flutter 等客户端 SDK,可实现多种音视频功能。

  • 服务端:

    • 服务端 Open API 帮助你发起网络请求,从后端服务器进行创建房间、查询房间状态、云端录制、配置下发等操作,并通过 WTN 实时传输网络进行音视频和信令传输。

    • 通过控制台功能,可以对通话的数据进行全周期质量监测、回溯和分析,帮助开发者及时发现问题、定位原因,以便及时解决问题,提升用户体验。同时,控制台还具备客户端应用管理、云端媒体处理功能配置和用量统计功能。

同时,火山引擎实时音视频还能与即时通信 IM互动白板、视频直播、视频点播等云产品之间实现联动。产品架构如下图所示:

基础概念

房间 (Room)

房间是实时音视频通话发生的场所,是一个虚拟空间。用户通过加入某个房间来参与该房间内的音视频通话,与房间内的其他用户互动,接收和发送实时音视频消息。

用户 (User)

用户是音视频通话的参与主体,在不同业务场景中,用户可能具有不同的角色。

  • 用户在房间内的行为受角色影响。房主具有发流、控制和管理房间等权限,观众可以发言、参与互动等。

  • 在实时音视频通话中,房间内的用户可以根据需要切换角色。

流 (Stream)

流是指经采样和编码后,通过网络进行连续传输和播放的音视频数据。

推流 (Push)

推流是指将音视频数据流从本地推送到远端的行为,对应发布本地流。

拉流 (Pull)

拉流是指将音视频数据流从远端拉到本地的行为,对应订阅远端流。

转推 (Push to CDN)

转推包括单流转推和合流转推,指将一个或多个房间中的音视频内容合成一路流,通过实时消息传输协议推送至 RTMP 服务器,再由 CDN 进行分发。

点对点消息(Peer-to-peer Message)

指定用户之间互相发送的消息。

广播消息 (Broadcasting Message)

服务端向指定房间内所有用户发送的消息。
更多相关概念请参见基础术语

平台支持

平台开发环境要求支持架构
iOS
  • iOS 11.0+
  • Xcode 14.1+
  • arm64(真机)
  • x86_64 (模拟器)
  • Android
    • Android 4.4+(SDK API Level 19)
    • Android Studio 3.5+
  • arm64-v8a(真机)
  • armeabi-v7a(真机)
  • x86(模拟器)
  • x86_64 (模拟器)
  • macOS
    • macOS 10.13+ 的 Mac 真机
    • Xcode 9.0+
  • arm64
  • x86_64
  • Windows
    • Windows 7+
    • Visual Studio 2017
    • .Net Framework 4.0 及以上
  • x86
  • x86_64
  • Linux
    • glibc 2.27+
  • arm64
  • armhf
  • x86_64
  • Web参看 浏览器兼容性---
    Electron
    • 支持 Electron 6.1.7 以上版本,推荐使用 11.3.0 版本
    • Windows 7+、macOS 10.13+
    ---
    抖音小程序抖音 21.5.0+---
    抖音小游戏抖音 22.5.0+---
    Flutter
    • Flutter 2.0.0+
    • Dart 2.12.0+
    • Android 4.4+(SDK API Level 19+)、iOS 11.0+
    暂不支持 Android、iOS 模拟器
    Unity
    • Unity Editor 2017+
    • Android Studio 3.5+
    • XCode 14.1+
    • Windows 7+
    • macOS 10.13+
    • Android: armeabi-v7a, arm64-v8a, x86
    • iOS
    • Windows: x86_64
    微信小程序
    • 微信 App iOS 最低版本要求:6.5.21
    • 微信 App Android 最低版本要求:6.5.19
    • 小程序基础库最低版本要求:1.9.6
    ---

    产品优势

    音频 3A 处理

    业界领先的 3A 算法。实现 48kHz 高音质全双工的回声消除。自动噪声抑制、自动增益使用超低计算量机器学习算法,更低的功耗实现更好的效果。

    机型主动适配

    客户端 SDK 已经适配 40000+ 款不同的机型,根据设备的性能打分、覆盖率等进行差异化的视频采集/编码策略,实现硬编硬解的机型适配(按实际通话时长计算)比例超过 90%。

    最佳画质

    采用 H.265 编码器,效率较 H.264 显著提升。另外支持 Simulcast、SVC、ROI、自动码率等先进编码策略和超分、视频降噪、暗光增强等先进画质增强算法,可根据不同机型性能,下发不同档位的视频分辨率,移动端最高支持 1080P,PC 端最高支持 4K,VR 最高支持 8K。

    高可用

    支持单元化部署,分钟级急速扩容。同城双机房,多线路冗余传输。符合 SLA 服务等级协议规定的指标,服务可用性不低于 99.9%。

    低延时

    基于优质全球传输网络,全球端到端 400ms 延时达标率 ≥ 99.5%,服务端平均延时 < 50ms。

    弱网自适应

    应用 FEC、ARQ、HARQ、自适应 Jitter Buffer、自适应码率下发等弱网策略,实现 50% 丢包无感知恢复,最高 80% 抗丢包能力。支持内容自适应编码,可基于线上视频清晰度的实时反馈来进行自动码率调整,减轻网络传输的压力。同时采用智能拥塞控制算法 VICC,能够根据不同的网络条件、业务偏好和码率特征进行自适应调整,以提升各种复杂弱网下的带宽利用率。

    性能动态适配

    支持智能流控协议,可以综合考虑音视频通话中每个订阅者的个性化需求,在网络情况、终端性能发生变化的时候,自动调整音视频流的配置,提升用户体验。

    场景化策略

    支持区分不同业务场景的参数配置下发,根据不同用户规模、机型、地区、网络模型采取不同的适配策略,满足多样化的高质量音视频体验需求。

    高效集成开发

    提供灵活规范的 API,支持一键配置业务最佳实践,降低开发者集成复杂度,提高开发效率,平均 2 周内即可上线。可裁剪的 SDK 包设计,CPU 内存占用更低。适用于各种平台,可以快速构建多端应用。

    超大规模互动

    行业首创单房间支持超千人同时开麦,突破传统实时音视频上麦人数限制,互动人数提升 20 倍以上,观众人数无上限。

    多样化产品融合

    与火山引擎平台各核心产品深度融合,联动美颜特效、直播、点播、内容审核、语音识别、AI 应用等产品,为用户提供各种实时音视频场景下的全链路解决方案。

    安全合规

    拥有完善的安全保护体系,可提供全链路音视频加密、用户业务数据隔离,且满足 ISO 等信息安全标准以及 GDPR、CCPA 等跨境安全合规要求。

    功能和场景

    基础功能

    功能描述主要场景

    语音通话

    支持 1v1 语音聊天多人语音群聊,48kHz 全频带采样,先进 3A 处理算法,还原高音质

    视频通话

    支持 1v1 视频聊天多人视频群聊,VR 最高支持 8K 高清画质,采用行业领先的编解码算法策略

    互动直播

    单房间支持最多 1000 名主播,10 万名观众,首帧时长中位数 <300ms

    进阶功能

    功能描述主要场景

    连麦互动

    支持主播与观众连麦、主播与主播连麦,上下麦切换体验平滑流畅

    合流转推

    将多人 RTC 流进行云端合流转码,支持合流、自定义布局,并推流到指定直播 CDN

    希望将房间内的音视频会话分发给其他观看者的场景:

    伴音伴奏将本地背景音、伴奏等同步发送给远端用户在线 KTV

    氛围音

    支持播放短小的氛围音和音效文件,如笑声、鼓掌、欢呼、尖叫等氛围音效果

    耳返支持耳返监听功能,支持调节耳返的音量,耳返延时低至 50ms在线 KTV

    AI 音频降噪

    通过 AI 算法有效抑制常见平稳噪声和非平稳噪声,为用户提供超纯净音质体验

    对噪声敏感的场景:

    推送多路流

    支持同时发送高清大流和低清小流,接收端根据网络自动订阅

    超分

    支持将低分辨率视频超分成高分辨率视频,提高视频清晰度和画质

    屏幕共享

    将电脑桌面、窗口、指定区域分享给其他人,支持与摄像头画面同时显示

    自采集自渲染

    支持自定义的视频源和渲染器,可以更灵活地处理视频

    • 音视频应用中已有音频采集和渲染模块
    • 希望对采集到的音视频数据进行一些传输前处理
    • 某些音频采集设备被占用
    云端录制利用 OpenAPI 提交视频录制任务,云端录制服务负责录制音视频内容,并将其自动上传到客户指定的存储系统中。希望存档音视频通话的场景,比如语音聊天室

    扩展功能

    功能描述主要场景

    美颜特效

    深度融合火山引擎 CV 功能,支持美颜、滤镜、贴纸、虚拟背景等

    空间音频

    一种能够呈现声源的空间方位的音频技术,提高用户音频体验的沉浸感

    对立体空间听觉有需求的场景:

    范围语音一种音频效果,开启此功能后,声音的衰减系数随距离声源的距离变大而变大FPS 游戏等对沉浸式体验需求高的场景
    美声音效设置变声、混响、语音变调功能在线 KTV
    曲库管理获取歌曲列表、搜索歌曲、获取热歌榜单等在线 KTV

    背景分割

    支持通过 AI 算法将人物与背景分割

    需要虚拟背景的场景:

    • 互动直播
    • 视频会议
    • 在线授课
    添加视频水印为实时音视频通信的视频画面添加自定义水印需要声明版权、品牌宣传或记录的场景
    ASR 语音识别采用业内领先的端到端算法模型,准确地将语音内容转写成文字需要识别语音转换为文本的音视频场景

    发送和接收媒体补充增强信息(SEI)

    SEI 信息跟随音视频帧发送,实现 SEI 内容与音视频内容精准同步

    • 在线 KTV 歌词同步
    • 游戏 PK 血条放置

    音频内容审核

    支持音视频敏感内容审核功能,确保内容安全

    AI 应用

    一站式的 AI 接入服务,支持表情识别、手势识别、注意力识别、中英文开口时长等 AI 功能

    • 互动直播
    • 音视频通话