You need to enable JavaScript to run this app.
导航
基于 VKE 快速部署 DeepSeek-R1-Distill 模型
最近更新时间:2025.02.08 21:19:24首次发布时间:2025.02.08 21:19:24

本文介绍如何在火山引擎容器服务(VKE)集群中,快速部署 DeepSeek-R1-Distill 模型推理服务,满足您的业务需求。

背景信息

DeepSeek-R1-Distill:基于 DeepSeek-R1 生成的 800K 样本对原开源模型进行微调得到的新模型,旨在以更小参数规模保留 DeepSeek-R1 发现的强大推理能力。

前提条件

在容器服务中创建集群,需要注意以下列举的参数配置。详细的操作步骤和参数说明,请参见 创建集群

  • 容器网络模型:选择 VPC-CNI
    alt

  • 计算规格:推荐使用不同的机型部署不同的模型,以发挥最大性价比。以下为常用的蒸馏模型机型配置推荐,供参考。
    alt

    模型名称参数量基础模型上下文窗口机型推荐
    DeepSeek-R1-Distill-Qwen-7B7BQwen2.5-Math-7B32kecs.xni3c.5xlarge
    ecs.gni3cg.5xlarge/ecs.gni3cl.5xlarge
    DeepSeek-R1-Distill-Qwen-32B32BQwen2.5-32B32kecs.pni3l.11xlarge(上架中)
    ecs.gni3cg.22xlarge/ecs.gni3cl.22xlarge
    ecs.xni3c.22xlarge
    DeepSeek-R1-Distill-Llama-70B70BLlama-3.3-70B-Instruct32kecs.pni3l.11xlarge(上架中)
    ecs.pni3l.22xlarge
  • 组件配置:安装 csi-tosnvidia-device-plugin 两个组件。

操作步骤

下文通过火山引擎持续交付(CP)产品,快速部署在 VKE 中创建的 DeepSeek-R1-Distill

第一步:创建部署集群

将已创建的 VKE 集群接入持续交付平台。

  1. 登录 持续交付控制台

  2. 在左侧导航栏选择 资源管理

  3. 在资源管理页面,切换至 部署资源 页签。

  4. 部署资源 页签,单击 创建部署资源

  5. 创建部署资源 对话框,按界面提示配置部署资源信息。重点注意以下参数配置,其他参数说明请参见 接入 VKE 集群
    alt

    配置项说明
    接入类型选择 容器服务 VKE
    地域选择已创建容器服务集群所在的地域。
    共享范围选择 所有工作区

第二步:创建 AI 应用

说明

邀测·申请试用】AI 应用在持续交付产品侧处于邀测阶段。如需体验,请联系您的售前经理或解决方案经理。

在持续交付的 AI 应用 模块,部署大模型应用。

  1. 登录 持续交付控制台
  2. 在左侧导航栏选择 AI 应用
  3. 在 AI 应用页面,单击 创建应用
  4. 选择 自定义创建 模板,并单击 下一步:应用配置
  5. 按界面提示填写应用的相关配置信息。配置完成后单击 确定,应用将开始创建并部署。重点注意以下参数配置,其他参数说明请参见 创建和部署 AI 应用(自定义创建)
    • 部署集群
      alt

      配置项说明
      部署资源选择已创建的容器服务集群。
    • 模型配置
      alt

      配置项说明
      镜像选择选择 预置镜像 > SGLang
      模型选择选择 官网模型 类型中选择 DeepSeek-R1-Distill 的相关模型。 挂载路径/model
      启动命令默认配置启动命名。请根据实际推理服务的需要,修改默认启动命令。
    • 推理服务规格
      alt

      配置项说明
      实例数选择 1
      弹性容器实例本示例不选择该功能。
      资源配置类型根据不同的 DeepSeek-R1-Distill 模型,参考下表选择相应配置。
      模型名称CPU 请求/上限内存请求/上限
      DeepSeek-R1-Distill-Qwen-1.5B12Core60GiB
      DeepSeek-R1-Distill-Qwen-7B14Core60GiB
      DeepSeek-R1-Distill-Qwen-32B20Core110GiB
      DeepSeek-R1-Distill-Llama-70B40Core220GiB

第三步:创建负载均衡

部署完成后,创建工作负载以支持应用在私网和公网中的访问。创建完成后支持通过负载均衡 IP 地址调用大模型。

alt

  1. 登录当前应用。

    1. 登录 持续交付控制台
    2. 在左侧导航栏选择 AI 应用
    3. 在 AI 应用页面,选择目标 AI 应用,单击应用卡片,进入当前应用的基本信息页签。
  2. 基本信息 > 访问设置 页签,配置应用的访问方式。详情操作说明参见 访问设置

    alt

    • 容器端口 和之前应用的端口保持一致。
      alt
    • 在创建负载均衡时,私有网络 配置必须与之前创建 VKE 集群使用的私有网络相同。
      alt

操作结果

通过本地 curl 命令和已创建的负载均衡 IP 调用大模型 API,即可成功与 DeepSeek-R1-Distill 模型对话。

curl -X POST http://xxxx/v1/chat/completions -H "Content-Type: application/json" -d '{
    "model": "/model",
    "messages": [
        {
            "role": "user",
            "content": "你好,你是谁?"
        }
    ],
    "stream": false,
    "temperature": 0.7
}'

alt