You need to enable JavaScript to run this app.
导航
模型精调数据集格式说明
最近更新时间:2024.11.13 19:08:52首次发布时间:2023.06.27 23:50:07

当前模型精调数据集支持jsonl格式,以下为详细格式说明:

注:仅Pretrain模型(预训练模型)支持上传未标注文本数据进行Continue Pretraining(继续预训练);非Pretrain模型请使用已标注文本数据

已标注文本数据

适用于大部分模型的格式

适用于除了function call外的所有模型,例如Doubao-pro-32k/240515、Doubao-pro-32k/character-240528等

格式说明:

{"messages": [{"role": "user", "content": "孤灯照不寐,风雨满西林。下一句是?"}, {"role": "assistant", "content": "多少关心事,书灰到夜深。"}]}
{"messages": [{"role": "system", "content": "请根据古诗内容,仅回复作者的名字。"}, {"role": "user", "content": "孤灯照不寐,风雨满西林。多少关心事,书灰到夜深。"}, {"role": "assistant", "content": "李群玉", "loss_weight": 1.0}]}

每行一条JSON格式的数据:

  • messages (list, required): 描述一个对话列表。
    • role (str, required): 角色,system、user、assistant中的一个。
    • content (str, required): 对话内容文本。
    • loss_weight (float, optional): 对于内容的loss训练权重。当role=system/user,loss_weight默认值为0.0且不可修改;当role=assistant,loss_weight默认值为1.0。通过loss_weight字段,可以在训练数据中修改默认值,取值范围是[0.0, 1.0]。

适用于“直接偏好学习”模型的格式(当前该训练方式暂未公开)

适用于支持“直接偏好学习”模型,例如Doubao-lite-4k/240328等

格式说明:

{"messages": [{"role": "user", "content": "孤灯照不寐,风雨满西林。下一句是?"}, {"role": "assistant", "content": [{"text": "多少关心事,书灰到夜深。", "score": 1.0}, {"text": "明月照大地,花香飘满园。", "score": 0.0}]}]}
{"messages": [{"role": "system", "content": "请根据古诗内容,仅回复作者的名字。"}, {"role": "user", "content": "孤灯照不寐,风雨满西林。多少关心事,书灰到夜深。"}, {"role": "assistant", "content": [{"text": "李群玉", "score": 1.0}, {"text": "李白", "score": 0.0}]}]}

每行一条JSON格式的数据:

  • messages (list, required): 描述一个对话列表。
    • role (str, required): 角色,system、user、assistant中的一个。最后一个message的role必须是assistant。
    • content (str | list, required): 对话内容文本或者一个list对象。前n-1个message的content为str类型;最后一个message的content必须为list类型,且list长度在2~5之间。list的元素为dict,包含以下字段:
      • text (str, required):文本内容。
      • score (float, required):偏好值,范围在0~1的浮点数。

未标注文本数据

格式说明:

{"text":"火山引擎机器学习平台是面向机器学习应用开发者,提供【开发机】和【自定义训练】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。"}
{"text":"支持运行超大规模的分布式任务,包含多种预置算法框架和自定义算法框架。提供稳定、灵活、高性能的机器学习训练环境。"}
{"text":"支持多种框架的模型在异构硬件上的一键部署,具有高吞吐、低延时、实时扩缩容等特点,使推理服务更具弹性和容错性。"}

每行一条JSON格式的数据:

  • text (str, required): 想要训练的字符串文本。不限制text长度,自动根据模型最大能支持的token拆成多个样本,因此样本总数可能会超过数据的行数。