You need to enable JavaScript to run this app.
导航
创建模型精调任务
最近更新时间:2024.11.13 19:08:33首次发布时间:2023.06.27 23:50:07

模型精调入口

入口1:在模型广场进入模型详情页面中,点击右上角的 模型精调 按钮。
图片
入口2:在模型精调页面,点击左上角 创建精调任务 按钮。
图片

创建精调任务

填写模型精调任务表单,包括任务名称、任务描述,选择希望精调的基座模型、训练方式、精调使用的数据集等,具体填写说明见下表。
alt
模型精调表单配置字段填写说明

字段名是否必填描述及填写规范
任务名称给本次精调任务命名,方便记录检索;支持1~200位可见字符,且只包含大小写字母、中文、数字、中划线、下划线
任务描述给本次精调任务添加除名称以外的其他描述信息,方便多次迭代版本,重要信息记录;包含大小写字母、中文、数字、中划线、下划线
标签为精调任务创建标签,一个任务可添加多个标签。在任务列表中,支持对标签进行编辑。
训练类型平台提供2种训练方法:SFT精调和继续预训练
模型选择下拉选择精调基于的基础模型,目前平台仅开放了豆包模型
参数配置具体参数见精调任务页面表单,平台有提供默认值作为推荐,用户可根据具体需求进行调整
产出数量训练完成后保存的模型数量,产出模型将自动导出至模型仓库
训练集Train Set,用于训练模型以及确定参数;精调数据集格式可参考页面格式说明,支持上传训练集文件、从TOS中导入和选择数据集3种方式。数据集创建及管理详情可见数据集介绍

混入预置数据集

在用户上传的训练集数据中混入豆包模型的SFT(Supervised Fine Tuning,有监督微调)数据,混入比例表示混合后SFT数据占总数据量的比例,可调节范围:1-99%;平台默认关闭,用户可根据自己需求选择打开;
混入比例计算公式:假设用户训练集的样本数量为a,混入比例设置为X(X取值范围1-99%),要混入的SFT数据量为b, 则满足:b/(a+b)=X

验证集Validation Set,模型训练过程中,用于确定网络结构以及调整模型的超参数;平台默认关闭,用户可根据自己需求选择打开,可以从训练集中随机分割一定比例作为验证集,也可以上传独立于训练集的数据集,数据格式可参考页面格式说明,数据集支持从本地上传或从TOS导入

注意

  1. 打开「混入预置SFT数据」功能会增加训练数据量,可能会产生额外的训练费用,具体请见右上角训练费用预估。
  2. 打开「验证集」后,会跟训练集一起计算总 tokens ,来计算训练费用,若验证集选择从训练集中按比例分割,则不会增加总 tokens 。

数据集导入成功大约5秒后,右侧栏会显示本次模型精调任务所需的训练费用预估。确认无误后,点击“提交精调任务”按钮创建精调任务。

数据安全

为保障数据安全,平台默认使用火山引擎密钥管理服务(KMS)创建并托管密钥,以加密用户的精调数据和模型。此外平台也支持用户使用自定义密钥 CustomKeyring 进行数据加密。
要了解更多的数据加密信息,请查看安全信任-数据加密