视频点播大模型视频理解功能基于豆包多模态大模型和语音识别 (ASR) 产品的大模型流式语音识别服务,通过对视频内容的深度分析与理解,帮助用户从海量视频数据中快速提取有价值的信息,将视频从简单的数据资产转化为可支持业务决策的知识资产。
大模型视频理解会产生以下费用:
Doubao-vision 模型是豆包推出的多模态大模型,具备强大的图片理解与推理能力,以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上有展现出了强大的性能,能够应用于更复杂、更广泛的视觉问答任务。视频点播使用 API/SDK 调用 Doubao-vision 模型。因此,您需要开通 Doubao-vision 模型,创建推理接入点(方舟基于模型及其配置抽象的概念),并获取推理接入点 ID(Endpoint ID)。具体步骤如下:
视频理解处理过程中会使用火山引擎语音识别 (ASR) 产品的大模型流式语音识别服务,将视频中的音频内容转译为文字,从而辅助大模型更全面地理解视频内容。因此,您需要在语音识别控制台创建应用,开通大模型流式语音识别服务并获取 APP ID。步骤如下:
通过控制台、客户端上传 SDK、视频点播服务端 SDK 等方式将待处理的视频上传至视频点播服务。具体介绍和操作步骤请见媒资上传概述。
调用 StartExecution 接口提交大模型视频理解任务。您可基于 Vid
或 FileName
提交审核任务,并设置 Vision
参数配置大模型视频理解任务。您需要传入大模型提示词、流式语音识别大模型服务的 APP ID 和 Doubao-vision 模型的 Endpoint ID。通过 Vid 提交大模型视频理解任务的示例如下:
{ "Input": { "Type": "Vid", "Vid": "v0d25cg10001cu7jcvqljht8dj05mde0" }, "Operation": { "Type": "Task", "Task": { "Type": "Vision", "Vision": { "Prompt": "基于输入的视频抽帧图片信息和音频转译文本,深度理解视频内容。首先,撰写一段视频总结,需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感;其次,抽取能精准概括视频内容、突出视频特色的主要标签。", "Model": { "DoubaoVisionEndpoint": "ep-202412***175335-cg2p7", "AsrAppId": "3500***054", "AsrAppType": "volc.bigasr.sauc.duration" } } } } }
调用 GetExecution 接口传入 StartExecution
接口返回的 RunId
获取大模式视频理解结果。接口调用成功后,通过返回参数 Output.Task.Vision
获取到大模式视频理解结果。示例如下:
{ "Output": { "Type": "Task", "Task": { "Type": "Vision", "Vision": { "Duration": 152.085, "SnapshotsNumber": 50, "Model": { "DoubaoInputTokens": 7037, "DoubaoOutputTokens": 574, "DoubaoTotalTokens": 7611 }, "Content": "这是一个关于火山引擎视频云的宣传视频,主要介绍了其功能、特点以及所带来的便利和优势。以下是详细的视频总结和主要标签:\n\n### 视频总结\n- **核心主题**\n 视频主要介绍了火山引擎视频云的功能、技术优势及其在各个领域的应用和带来的便利。通过展示其强大的技术支持和多样化的服务,强调其在数字化转型中的重要性。\n\n- **主要情节**\n 1. **数字化转型背景**\n - 视频从传统的车马邮路发展到视频直播的时代背景入手,展示了技术的飞速发展和对人们生活的巨大影响。\n 2. **火山引擎视频云的功能与特点**\n - **广泛应用**:支持抖音、头条、西瓜等业务,还面向各行各业用户提供视频化服务,全面升级客户的视频使用体验。\n - **技术优势**\n - **高稳定性**:亿级DAU,每天数千亿次播放,具有1/100,000崩溃率和“0”首帧播放延迟,体现了其强大的稳定性和性能。\n - **顶尖技术**:融合视频云技术和AI能力架构矩阵,全面赋能视频创作,提供极致性能体验。\n - **智能应用**:具备国际领先的VQScore算法、BVC等,提供滤镜等智能应用套件,带来趣味互动体验。\n - **全球覆盖**:覆盖全球的RTC网络,让每次视频通话毫秒间抵达。\n - **高清画质与互动体验**:提供HD高清画质,带来身临其境的大片质感和尽情超清震撼,以及丰富的互动体验。\n 3. **未来展望**\n - 视频最后提到火山引擎视频云持续打磨,深挖新技术,将超流畅的极致视频体验带到各处,打开云服务的新格局,让远方不再遥远。\n\n- **关键人物及关系**\n 视频中未涉及具体人物,主要以动画和文字信息展示技术和服务内容。\n\n- **核心观点或情感**\n 视频传达的核心观点是火山引擎视频云凭借其强大的技术实力和丰富的功能,为用户提供了卓越的视频体验,助力各行各业的数字化转型,并且不断创新和进步,带来更多的便利和可能。\n\n### 主要标签\n- **火山引擎视频云**\n- **数字化转型**\n- **高稳定性**\n- **顶尖技术**\n- **智能应用**\n- **全球覆盖**\n- **高清画质**\n- **互动体验**\n- **极致性能**\n- **云服务新格局**\n\n\n\n ", "Prompt": "基于输入的视频抽帧图片信息和音频转译文本,深度理解视频内容。首先,撰写一段视频总结,需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感;其次,抽取能精准概括视频内容、突出视频特色的主要标签。 \n\n# 限制\n 输出的长度不要超过2000字" } } } }