一键部署 LLaMA Factory 大语言模型微调服务--持续交付-火山引擎

文档中心

导航

一键部署 LLaMA Factory 大语言模型微调服务

最近更新时间：2025.04.03 10:51:55首次发布时间：2024.08.28 14:53:17

AI 应用是针对大模型在线推理场景推出的一站式开发部署运维平台。本文为您介绍如何通过模板快速部署一个 LLaMA Factory 服务，用于大语言模型微调。

应用介绍

LLaMA Factory 是一个开源的 LLMs 微调的框架，支持通过 Web UI 界面微调大模型。它提供了一套完整的工具和接口，旨在简化大型语言模型的微调过程，使得用户能够轻松地对预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

支持多种模型，包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen 和 ChatGLM 等，这些模型涵盖了自然语言处理领域的多个应用场景。
支持多种微调技术，包括增量预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练和 ORPO 训练等。
支持多种精度调整，如 32 比特全参数微调、16 比特冻结微调、16 比特 LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8 的 2/4/8 比特 QLoRA 微调。
集成了多种先进算法，如 GaLore、DoRA、LongLoRA、LLaMA Pro、LoRA+、LoftQ 和 Agent 微调等。

前提条件

容器服务 VKE
- 已创建 VKE 集群，具体操作可参见创建集群。
- （可选）如需挂载对象存储 TOS，请提前安装 csi-tos 组件。具体操作请参见安装组件。
- （可选）如需以弹性容器实例方式部署，仅适用于网络模型为 VPC-CNI 的 VKE 集群，且集群中需提前安装 vci-virtual-kubelet 组件。具体操作请参见安装组件。
- （可选）如需使用 GPU 资源，请提前安装 nvidia-device-plugin 组件。具体操作请参见安装组件。
持续交付 CP
- 已接入部署资源。部署资源必须为容器服务 VKE 集群。具体操作请参见接入部署资源。
（可选）如需挂载模型文件，请完成以下准备工作，任选一种存储即可。
- 对象存储 TOS
  - 已将模型上传至 TOS Bucket 存储。具体操作请参见对象存储快速入门。
  - 已获取当前账号的访问密钥 AK & SK。建议使用最小化授权的 IAM 用户的访问密钥，要求已授权对应文件的访问权限。具体操作请参见 AI 仓库挂载和存储加速。
- 文件存储 NAS
  - 已将模型上传至 NAS 存储，要求 NAS 与待部署的 VKE 集群处于相同的 VPC。具体操作请参见文件存储快速入门。
- 制品仓库
  - 已将模型上传至制品仓库存储。具体操作请参见上传和下载 AI 格式制品快速入门。
  - 已获取当前账号的访问密钥 AK & SK。建议使用最小化授权的 IAM 用户的访问密钥，要求该 IAM 用户已授权仓库挂载权限。
（可选）如需配置外部访问方式，请完成以下准备工作，任选一种方式即可。
- API 网关：已创建网关实例，要求网关实例与待部署的 VKE 集群处于相同的 VPC。具体操作请参见创建实例。
- 负载均衡 CLB：已创建负载均衡实例，要求负载均衡实例与待部署的 VKE 集群处于相同的 VPC。具体操作请参见创建负载均衡实例。

操作步骤

登录持续交付控制台。
在左侧导航栏选择 AI 应用。
在 AI 应用页面，单击 创建应用。
选择 LLaMA Factory 大语言模型微调 模板，并单击 下一步：应用配置。
按要求填写应用的相关配置信息。配置完成后单击确定，应用将开始创建并部署。

基本信息

配置项	说明
应用标识	根据界面提示填写应用标识。应用标识是应用的唯一标识，创建后不可更改。
应用显示名	自定义应用的显示名称。
描述	填写当前应用的备注信息，可以为空。

部署集群

配置项	说明
部署资源	选择前提条件中接入的 VKE 部署集群。注意如需以弹性容器实例方式部署，仅适用于网络模型为 VPC-CNI 的 VKE 集群，且集群中需提前安装 vci-virtual-kubelet 组件。
命名空间	选择或输入要部署的命名空间。输入的命名空间不存在时会自动创建。
环境标识	自定义当前环境的唯一标识。环境标识创建成功后不支持修改。

模型配置

配置项	说明
镜像选择	本模板使用预置镜像 Llama factory。
模型	支持官方模型和自持模型，请按需选择。官方模型：内置 LLaMA Factory 常用官方模型，帮助您快速拉起服务。自持模型：支持通过以下方式配置您自己的模型文件，请按需选择。 TOS 挂载：通过火山引擎对象存储 TOS 挂载模型文件。选择模型文件所在的地域，Bucket，并填写具体路径。 AK & SK：输入当前账号的访问密钥 AccessKey ID（AK）和 Secret Access Key（SK）。建议使用最小化授权的 IAM 用户的访问密钥，要求已授权对应文件的访问权限。制品库挂载：通过火山引擎制品仓库挂载模型文件。制品库：选择模型文件所在的地域、实例、仓库、命名空间、模型名称、版本。仅支持选择 AI 制品仓库。 AK & SK：输入当前账号的访问密钥 AccessKey ID（AK）和 Secret Access Key（SK）。建议使用最小化授权的 IAM 用户的访问密钥，要求该 IAM 用户已授权仓库挂载权限。 NAS 挂载：通过火山引擎文件存储 NAS 挂载模型文件。文件系统类型：选择文件系统类型，支持极速型和容量型。要求 NAS 与待部署的 VKE 集群处于相同的 VPC。挂载点：选择要挂载的文件系统和挂载点。子目录：输入待挂载的文件系统的子目录信息，默认为根目录`/`。挂载路径：挂载到 LLaMA Factory 中的目标路径。请根据实际业务配置模型的挂载路径。
数据集	可选配置。将微调应用需要用到的数据集挂载到服务中。支持以下挂载方式，请按需选择。一个服务可添加多个数据集。 TOS 挂载：通过火山引擎对象存储 TOS 挂载数据集。选择数据集所在的地域，Bucket，并填写具体路径。 AK & SK：输入当前账号的访问密钥 AccessKey ID（AK）和 Secret Access Key（SK）。建议使用最小化授权的 IAM 用户的访问密钥，要求已授权对应文件的访问权限。 NAS 挂载：通过火山引擎文件存储 NAS 挂载数据集。文件系统类型：选择文件系统类型，支持极速型和容量型。要求 NAS 与待部署的 VKE 集群处于相同的 VPC。挂载点：选择要挂载的文件系统和挂载点。子目录：输入待挂载的文件系统的子目录信息，默认为根目录`/`。挂载路径：挂载到 LLaMA Factory 中的目标路径。请根据实际业务需求配置数据集的挂载路径。
模型输出位置	如果您希望对输出的模型进行持久化存储，需要对模型输出目录进行挂载。支持以下挂载方式，请按需选择。 TOS 挂载：通过火山引擎对象存储 TOS 挂载模型输出目录。选择模型输出目录所在的地域，Bucket，并填写具体路径。 AK & SK：输入当前账号的访问密钥 AccessKey ID（AK）和 Secret Access Key（SK）。建议使用最小化授权的 IAM 用户的访问密钥。 NAS 挂载：通过火山引擎文件存储 NAS 挂载模型输出目录。文件系统类型：选择文件系统类型，支持极速型和容量型。要求 NAS 与待部署的 VKE 集群处于相同的 VPC。挂载点：选择要挂载的文件系统和挂载点。子目录：输入待挂载的文件系统的子目录信息，默认为根目录`/`。挂载路径：挂载到 LLaMA Factory 中的目标路径。请根据实际业务需求配置模型输出的挂载路径。
HF Token	可选配置。如需下载 Hugging Face 模型，需在此处配置 HF Token。
启动命令	设置应用的启动命令和监听的容器端口。默认为`llamafactory-cli webui`，支持根据业务需求修改启动命令。

服务规格

勾选 以弹性容器实例方式部署

配置项	说明
实例数	根据业务规模，设置应用的副本数。
弹性容器实例	保持勾选以弹性容器实例方式部署。使用该方式部署应用，无需管理底层云服务器等基础设施，只需提供镜像即可运行容器，并为实际消耗的资源付费。计费详情，请参见弹性容器计费说明。说明如果您在 VCI 侧申请了镜像缓存的邀测功能，AI 应用创建时将默认开启镜像缓存，加速镜像拉取。
日志采集	是否通过火山引擎日志服务 TLS 采集 VCI 容器日志，对日志进行持久化存储。勾选，开启日志采集。不勾选，不开启日志采集。注意开启日志采集后，请确保已在 VKE 集群的日志中心中完成相关日志采集规则的配置，保证日志可正常投递至您配置的项目和主题中。具体操作请参见采集容器日志。
资源配置类型	根据业务需求选择要使用的实例规格。不同计算规格提供的虚拟化能力不同，详情请参见 VCI 实例规格介绍。通用型：搭配多种 vCPU、内存配比的通用型规格族。 GPU 计算型：基于多种 NVIDIA Tesla 显卡提供的 GPU 计算型实例规格族。
系统盘	设置系统盘容量。系统盘主要用于缓存镜像，容量必须大于镜像大小。说明如果您在 VCI 侧申请了手动指定系统盘大小的邀测功能，支持在此处自定义系统盘的容量。

不勾选 以弹性容器实例方式部署

配置项	说明
实例数	根据业务规模，设置应用的副本数。
资源配置类型	CPU：定义每个实例的 CPU 规格。其中，CPU 请求 ≤ CPU 上限。内存：定义每个实例的内存规格。其中，内存请求 ≤ 内存上限。 GPU 资源类型：是否使用 GPU 资源。不开启：使用传统 CPU 计算资源。开启：使用 GPU 计算资源，当前提供 Nvdia 卡型，支持自定义 GPU 算力。

访问配置（可选）

配置 AI 应用的访问方式。详细内容可参见访问设置。

结果验证

验证应用是否部署成功
在应用的 基本信息 > 资源配置 页签，查看应用的部署进度。支持通过实例的 运行状态、实时日志 和事件，查看应用详细的启动和运行信息。
- 查看实时日志：单击 实时日志，可查看应用的运行信息，方便运维和排障。
- 查看事件：单击事件，可查看应用的启动信息。最多可查看最近 1 小时内发生的事件信息。
访问 LLaMA Factory
应用部署成功后，可在 访问设置 区域复制应用的访问地址。通过该地址去访问 LLaMA Factory Web UI。
配置参数，开始模型微调。