大模型视频理解--视频点播-火山引擎

文档中心

立即注册

导航

大模型视频理解

最近更新时间：2025.04.16 14:17:50首次发布时间：2025.03.21 17:28:36

视频点播大模型视频理解功能基于豆包多模态大模型和语音识别 (ASR) 产品的大模型流式语音识别服务，通过对视频内容的深度分析与理解，帮助用户从海量视频数据中快速提取有价值的信息，将视频从简单的数据资产转化为可支持业务决策的知识资产。

优势特性

支持在视频点播内一键调用火山方舟豆包视觉理解大模型的能力，批量对视频内容进行理解。
对视频内容进行语音和图像的多模态融合理解，全面理解视频内容，不忽略视频中每一处细节。
客户可自定义提示词，使大模型遵循复杂的指令，完成期望的视频内容的分析工作。
对任意分辨率和长宽比的视频，模型都能实现精准的特征提取。

适用场景

内容梗概：适用于需要快速了解视频核心内容的场景，例如用户快速浏览视频摘要或视频编辑人员对视频内容进行初步筛选。
爆点分析：适用于分析爆款视频的传播机制，帮助内容创作者、营销团队或平台运营人员理解视频爆火的原因，以优化内容策略。
情节解析：适用于需要对视频内容进行详细分析的场景，例如教育培训视频的内容拆解或短剧的情节分析。
标签提取：适用于视频内容的分类、标签化和检索场景，例如视频库的管理、内容推荐系统的优化或用户通过标签快速查找相关视频。

工作原理

费用说明

大模型视频理解会产生以下费用：

截图费用：视频理解处理过程中会对视频进行截图，产生截图费用，具体价格请见视频截图计费。
大模型流式语音识别费用：视频理解处理过程中会将音频转译为文字，产生大模型流式语音识别服务费用，具体价格请见流式语音识别服务计费。
豆包视觉理解模型费用：豆包会将输入的信息（包括图片）转化为 token 后进行计费，具体价格见视觉理解计费。

前提条件

已注册火山引擎账号。如果您是首次登录火山引擎控制台，请先完成实名认证。
已开通视频点播服务。
已创建空间。
上传视频：通过控制台、客户端上传 SDK、服务端 SDK 等方式将待处理的视频上传至视频点播服务。具体介绍和操作步骤请见媒资上传概述。

开通相关服务

开通豆包 Doubao-vision 模型并获取 Endpoint ID

Doubao-vision 模型是豆包推出的多模态大模型，具备强大的图片理解与推理能力，以及精准的指令理解能力。模型在图像文本信息抽取、基于图像的推理任务上有展现出了强大的性能，能够应用于更复杂、更广泛的视觉问答任务。视频点播使用 API/SDK 调用 Doubao-vision 模型。因此，您需要开通 Doubao-vision 模型，创建推理接入点（方舟基于模型及其配置抽象的概念），并获取推理接入点 ID（Endpoint ID）。具体步骤如下：

前往火山方舟控制台在线推理页面。
在自定义推理接入点页签下，单击创建推理接入点。
根据页面提示完成以下配置：
1. 填写接入点名称。
2. 选择以下 Doubao-vision 模型：
  - （推荐）Doubao-1.5-vision-pro-32k
  - Doubao-vision-pro-32k
  - Doubao-vision-lite-32k
说明
- Doubao-vision 模型介绍详见视觉理解。
- 如页面出现“该模型未开通，开通后可创建推理接入点”的提示，单击立即开通，前往开通相应的模型。
- 更多信息，请见配置参数说明。
配置完成后，单击页面右侧确认接入按钮。
推理接入点创建完成后，返回在线推理页面，保存 Endpoint ID，如下图所示。

开通大模型流式语音识别服务并获取 APP ID

视频理解处理过程中会使用火山引擎语音识别 (ASR) 产品的大模型流式语音识别服务，将视频中的音频内容转译为文字，从而辅助大模型更全面地理解视频内容。因此，您需要在语音识别控制台创建应用，开通大模型流式语音识别服务并获取 APP ID。步骤如下：

前往语音识别控制台应用管理页面。
单击创建应用。
在创建应用弹窗中，填写应用名称和简介，并勾选流式语音识别大模型服务，如下图所示。
应用创建完成后，返回应用管理页面，保存 APP ID，如下图所示。

使用流程

触发视频理解任务

控制台

登录视频点播控制台，进入指定空间。
在视频管理页面，勾选您上传的视频后，单击豆包视频理解。
在豆包视频理解处理弹窗中，进行以下操作：
1. 确认您已开通并授权相关服务。若您为首次使用，需要开通流式语音识别大模型服务和 Doubao-vision 模型并获取 APP ID 和 Endpoint ID。具体操作请见开通相关服务。开通完毕后，单击已完成，继续。
2. 配置模型参数。您需要填写您在上一步获取到的 Endpoint ID 和 APP ID。配置完毕后，单击已完成，继续。
3. 填写大模型指令 Prompt。您可以自定义 Prompt 或选择系统提供的模板。
单击开始处理。可前往媒体处理 > 媒体处理任务页面查看视频理解任务。

OpenAPI

调用 StartExecution 接口提交大模型视频理解任务。您可基于 Vid 或 FileName 提交审核任务，并设置 Vision 参数配置大模型视频理解任务。您需要传入大模型提示词、流式语音识别大模型服务的 APP ID 和 Doubao-vision 模型的 Endpoint ID。通过 Vid 提交大模型视频理解任务的示例如下：

{
    "Input": {
        "Type": "Vid",
        "Vid": "v0d25cg10001cu7jcvqljht8dj05mde0"
    },
    "Operation": {
        "Type": "Task",
        "Task": {
            "Type": "Vision",
            "Vision": {
                "Prompt": "基于输入的视频抽帧图片信息和音频转译文本，深度理解视频内容。首先，撰写一段视频总结，需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感；其次，抽取能精准概括视频内容、突出视频特色的主要标签。",
                "Model": {
                    "DoubaoVisionEndpoint": "ep-202412***175335-cg2p7",
                    "AsrAppId": "3500***054",
                    "AsrAppType": "volc.bigasr.sauc.duration"
                }
            }
        }
    }
}

查看视频理解结果

控制台

登录视频点播控制台，进入指定空间。
单击左侧导航栏媒体处理 > 媒体处理任务。
查看视频理解任务状态。任务状态变为处理完成后，单击操作列的查看详情按钮。
在媒体处理任务详情页面查看视频理解结果。

OpenAPI

调用 GetExecution 接口传入 StartExecution 接口返回的 RunId 获取大模式视频理解结果。接口调用成功后，通过返回参数 Output.Task.Vision 获取到大模式视频理解结果。示例如下：

{
    "Output": {
        "Type": "Task",
        "Task": {
            "Type": "Vision",
            "Vision": {
                "Duration": 152.085,
                "SnapshotsNumber": 50,
                "Model": {
                    "DoubaoInputTokens": 7037,
                    "DoubaoOutputTokens": 574,
                    "DoubaoTotalTokens": 7611
                },
                "Content": "这是一个关于火山引擎视频云的宣传视频，主要介绍了其功能、特点以及所带来的便利和优势。以下是详细的视频总结和主要标签：\n\n### 视频总结\n- **核心主题**\n  视频主要介绍了火山引擎视频云的功能、技术优势及其在各个领域的应用和带来的便利。通过展示其强大的技术支持和多样化的服务，强调其在数字化转型中的重要性。\n\n- **主要情节**\n  1. **数字化转型背景**\n     - 视频从传统的车马邮路发展到视频直播的时代背景入手，展示了技术的飞速发展和对人们生活的巨大影响。\n  2. **火山引擎视频云的功能与特点**\n     - **广泛应用**：支持抖音、头条、西瓜等业务，还面向各行各业用户提供视频化服务，全面升级客户的视频使用体验。\n     - **技术优势**\n       - **高稳定性**：亿级DAU，每天数千亿次播放，具有1/100,000崩溃率和“0”首帧播放延迟，体现了其强大的稳定性和性能。\n       - **顶尖技术**：融合视频云技术和AI能力架构矩阵，全面赋能视频创作，提供极致性能体验。\n       - **智能应用**：具备国际领先的VQScore算法、BVC等，提供滤镜等智能应用套件，带来趣味互动体验。\n       - **全球覆盖**：覆盖全球的RTC网络，让每次视频通话毫秒间抵达。\n       - **高清画质与互动体验**：提供HD高清画质，带来身临其境的大片质感和尽情超清震撼，以及丰富的互动体验。\n  3. **未来展望**\n     - 视频最后提到火山引擎视频云持续打磨，深挖新技术，将超流畅的极致视频体验带到各处，打开云服务的新格局，让远方不再遥远。\n\n- **关键人物及关系**\n  视频中未涉及具体人物，主要以动画和文字信息展示技术和服务内容。\n\n- **核心观点或情感**\n  视频传达的核心观点是火山引擎视频云凭借其强大的技术实力和丰富的功能，为用户提供了卓越的视频体验，助力各行各业的数字化转型，并且不断创新和进步，带来更多的便利和可能。\n\n### 主要标签\n- **火山引擎视频云**\n- **数字化转型**\n- **高稳定性**\n- **顶尖技术**\n- **智能应用**\n- **全球覆盖**\n- **高清画质**\n- **互动体验**\n- **极致性能**\n- **云服务新格局**\n\n\n\n ",
                "Prompt": "基于输入的视频抽帧图片信息和音频转译文本，深度理解视频内容。首先，撰写一段视频总结，需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感；其次，抽取能精准概括视频内容、突出视频特色的主要标签。 \n\n# 限制\n 输出的长度不要超过2000字"
            }
        }
    }
}