You need to enable JavaScript to run this app.
导航
快速部署 DeepSeek-R1-Distill 模型
最近更新时间:2025.02.08 18:17:16首次发布时间:2025.02.08 17:05:39

本文介绍如何在火山引擎容器服务集群中,快速部署 DeepSeek-R1-Distill 模型推理服务,满足您的业务需求。

背景信息

DeepSeek-R1-Distill:基于 DeepSeek-R1 生成的 800K 样本对原开源模型进行微调得到的新模型,旨在以更小参数规模保留 DeepSeek-R1 发现的强大推理能力。

前提条件

在容器服务创建容器集群,需要注意以下列举的参数配置,详细的操作说明参见 创建集群

  • 容器网络模型:选择 VPC-CNI
    alt

  • 计算规格:推荐使用不同的机型部署不同的模型,以发挥最大性价比。以下为常用的蒸馏模型机型配置推荐,请供参考。
    alt

    模型名称参数量基础模型上下文窗口机型推荐
    DeepSeek-R1-Distill-Qwen-7B7BQwen2.5-Math-7B32kecs.xni3c.5xlarge
    ecs.gni3cg.5xlarge/ecs.gni3cl.5xlarge
    DeepSeek-R1-Distill-Qwen-32B32BQwen2.5-32B32kecs.pni3l.11xlarge(上架中)
    ecs.gni3cg.22xlarge/ecs.gni3cl.22xlarge
    ecs.xni3c.22xlarge
    DeepSeek-R1-Distill-Llama-70B70BLlama-3.3-70B-Instruct32kecs.pni3l.11xlarge(上架中)
    ecs.pni3l.22xlarge
  • 组件配置:安装 csi-tosnvidia-device-plugin 两个组件。

操作步骤

本文介绍通过火山引擎持续交付产品,完成 DeepSeek-R1-Distill 在已创建的容器服务中的快速部署。

第一步:创建部署集群

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台
  2. 在左侧导航栏选择 资源管理
  3. 在资源管理页面,切换至 部署资源 页签。
  4. 在 部署资源 页签,单击 创建部署资源 。
  5. 在 创建部署资源 对话框,按要求配置部署资源信息。重点注意以下参数配置,其他参数说明参见 接入 VKE 集群

alt

配置项说明
接入类型选择 容器服务 VKE
地域选择已创建容器服务集群所在的地域。
共享范围选择 所有工作区

第二步:创建 AI 应用

说明

邀测·申请试用】AI 应用当前邀测开放。如需体验,请联系您的售前经理或解决方案经理。

在持续交付的 AI 应用 模块,部署大模型应用。

  1. 登录 持续交付控制台
  2. 在左侧导航栏选择 AI 应用
  3. 在 AI 应用页面,单击 创建应用
  4. 选择 自定义创建 模板,并单击 下一步:应用配置
  5. 按要求填写应用的相关配置信息。配置完成后单击 确定,应用将开始创建并部署。重点注意以下参数配置,其他参数说明参见 创建和部署 AI 应用(自定义创建)
    • 部署集群
      alt

      配置项说明
      部署资源选择已创建的容器服务集群。
    • 模型配置
      alt

      配置项说明
      镜像选择选择 预置镜像 > SGLang
      模型选择选择 官网模型 类型中选择 DeepSeek-R1-Distill 的相关模型。 挂载路径/model
      启动命令默认配置启动命名。请根据实际推理服务的需要,修改默认启动命令。
    • 推理服务规格
      alt

      配置项说明
      实例数选择 1
      弹性容器实例本示例不选择该功能。
      资源配置类型根据不同的 DeepSeek-R1-Distill 模型,参考下表选择相应配置。
      模型名称CPU 请求/上限内存请求/上限
      DeepSeek-R1-Distill-Qwen-1.5B12Core60GiB
      DeepSeek-R1-Distill-Qwen-7B14Core60GiB
      DeepSeek-R1-Distill-Qwen-32B20Core110GiB
      DeepSeek-R1-Distill-Llama-70B40Core220GiB

第三步:创建负载均衡

部署完成后,创建工作负载以支持应用在私网和公网中的访问。创建完成后支持通过负载均衡 IP 地址调用大模型。

alt

  1. 登录当前应用。

    1. 登录 持续交付控制台
    2. 在左侧导航栏选择 AI 应用
    3. 在 AI 应用页面,选择目标 AI 应用,单击应用卡片,进入当前应用的基本信息页签。
  2. 在 基本信息 > 访问设置 页签,配置应用的访问方式。详情操作说明参见 访问设置

    alt

    • 容器端口 和之前应用的端口保持一致。
      alt
    • 在创建负载均衡时,私有网络 配置必须与之前创建 VKE 集群使用的私有网络相同。
      alt

操作结果

通过本地 curl 命令和已创建的负载均衡 IP 调用大模型 API,即可以成功和 DeepSeek-R1-Distill 模型对话。

curl -X POST http://您的负载均衡IP/v1/chat/completions -H "Content-Type: application/json" -d '{  \
     "model": "/models",                    \
     "messages": [                          \
         {                                  \
             "role": "user",                \
             "content": "您对 DeepSeek 的提问"      \     
         }                                  \
     ],
     "stream": false,
     "temperature": 0.7
}'

alt