可以在自动评测处新建自动评测任务。
您可以在模型精调任务完成后,在精调任务详情页中查看精调模型的评测指标。数据集介绍如下表:
数据集 | 任务类别 | 语言 | 来源 | 指标 |
---|---|---|---|---|
MultiRC-zh | 语言能力 | 中文 | 公开 | Accuracy, Recall等 |
ARC-easy | 知识能力 | 英文/中文 | 公开 | Accuracy等 |
PIQA | 知识能力 | 英文/中文 | 公开 | Accuracy等 |
ARC-challenge | 知识能力 | 英文/中文 | 公开 | Accuracy等 |
MGSM | 推理能力 | 中文 | 公开 | exam_match等 |
GSM8K | 推理能力 | 英文 | 公开 | exam_match等 |
Chid | 语言能力 | 中文 | 公开 | Accuracy等 |
您可以在任务详情页中点击“效果指标”来查看评测结果。
其中评测结果,可以查看整个模型评测任务的综合得分,以及各个垂直领域的评测分数。