AI视频时代，音视频全链路如何智能升级--资讯动态-火山引擎

文档中心

AI视频时代，音视频全链路如何智能升级

最近更新时间：2024.10.21 18:28:15首次发布时间：2024.10.21 18:28:15

大语言模型的飞速发展，为视频生成大模型的演进打下了良好的基础，然而视频生成大模型，仍然面临着训练成本居高不下、样本数据质量参差不齐、性能资源瓶颈的挑战。

10月15日，在2024火山引擎视频云技术大会上，火山引擎正式发布大模型训练视频预处理方案，该方案能够有效解决视频大模型训练的成本、质量和性能等方面的技术挑战，并已应用于豆包·视频生成模型中。

火山引擎总裁谭待在会上指出：“在AIGC、多模态等技术的共同推动下，用户体验在多个维度上经历着深刻转变，基于抖音业务实践和与行业客户共创，火山引擎视频云正积极探索AI大模型与视频技术的深度融合，在技术底座、处理链路和业务增长层面为企业寻找解法。”

01.
自研多媒体处理框架BMF，有效解决成本、质量、算力挑战

训练视频预处理，是保障大模型训练效果的前提，预训练能够统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

抖音集团视频架构负责人王悦表示：“对于大模型厂商而言，预训练面临着超大规模数据导致的训练和处理激增、数据样本数据参差不齐、处理链路环节、工程复杂带来的多团队协作挑战、以及对GPU、CPU、ARM等多种异构算力资源的调度部属等难题。”

抖音集团视频架构负责人王悦

火山引擎与英特尔携手，打造BMF大模型训练视频预处理，依托火山引擎在音视频领域的前沿技术和英特尔CPU等所提供的强劲算力资源支持，有效解决了大模型视频训练预处理在成本、质量、性能等方面的难点与挑战：

面对成本挑战，火山引擎本次发布的大模型训练视频预处理方案依托于自研的多媒体处理框架BMF，能有效应对模型训练的算力成本挑战；
面对质量挑战，该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。
面对性能挑战，火山引擎的大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。

Bytedance Research 负责人李航，以豆包·视频生成模型PixelDance为例，介绍了相关的思路和成果，他表示：“火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。”

alt
ByteDance Research 负责人李航

豆包·视频生成模型PixelDance，是火山引擎在9月发布的豆包大模型家族新成员，其能遵从复杂 prompt，解锁时序性多拍动作指令与多个主体间的交互能力，该模型采用 DiT 架构，通过高效的DiT融合计算单元和全新设计的扩散模型训练方法，突破了多主体运动的复杂交互、多镜头切换的内容一致性难题，目前豆包视频生成模型已通过火山引擎面向企业开启邀测。

02.
多项音视频技术方案其发，开始AIGC时代下创作新篇章

此外，在本次视频云技术大会上，火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案，从音视频的生产端、交互端到消费端，全链路进行全面升级。

火山引擎视频云负责人Yongyuan 指出，在AI视频时代，用户体验也将经历全方位全链路的变革，火山引擎视频云为应对这些变革和挑战，将豆包大模型和AI能力与音视频全链路处理相结合，实现了在生产、交互和消费端的全面升级。

alt
火山引擎视频云负责人 Yongyuan

通过火山引擎视频云技术大会的中英双频道直播，用户可以直观的感受到“母语级”跨语言同声复刻直播方案带来的高度还原、更自然的视听感受。该方案借助豆包大模型ASR能力，可以将垂直领域识别错误率降低50%以上；利用豆包自研声音复刻大模型，对演讲者的人声特点和说话风格进行高度还原，并通过视频云自研的虚拟人口型生成算法技术根据输出语言，调整演讲者口型同步，最大程度的还原演讲本身的效果。目前，该方案已支持英语、日语、西班牙语、印尼语、葡萄牙语等多国语言。

以对话式AI实时交互方案为例，依托豆包大模型和火山引擎视频云自研的多项算法，火山引擎为用户提供了智能对话和自然语言处理的强大能力，可实现毫秒级人声检测和打断响应，以及丝滑稳定的端到端响应体验。

在沉浸式消费体验方面，火山引擎通过AI生成3D内容和大场景重建方案，为山西高平二郎庙和北京正乙祠两座珍贵的历史建筑生成了3D数字资产，并以虚拟直播间的形式应用于抖音的戏曲直播场景。

大会上，王悦还介绍了字节跳动自研视频编解码芯片的最新进展，他表示：“经过内部的实践验证，该芯片在同等视频压缩效率下，成本节省了95%以上，还在2024MSU世界编码器大赛中一举夺得了最佳ASIC编码器。”

该芯片将于近期正式对外开放测试，火山引擎希望与业界一道，共同探索商业价值的可复制性。

面对大模型加持下的音视频技术进一步升级革新，火山引擎视频云团队，将持续探索音视频技术的前沿应用场景，助力企业降低音视频大模型的训练处理成本，提升终端用户体验，开启AIGC时代下的音视频创作新篇章。