You need to enable JavaScript to run this app.
导航
模型评测方案介绍
最近更新时间:2023.11.06 22:47:30首次发布时间:2023.06.27 23:50:07
1 模型评测入口

可以在自动评测处新建自动评测任务。
alt

2 模型评测结果查看

您可以在模型精调任务完成后,在精调任务详情页中查看精调模型的评测指标。数据集介绍如下表:

数据集任务类别语言来源指标
MultiRC-zh语言能力中文公开Accuracy, Recall等
ARC-easy知识能力英文/中文公开Accuracy等
PIQA知识能力英文/中文公开Accuracy等

ARC-challenge

知识能力

英文/中文

公开

Accuracy等

MGSM推理能力中文公开exam_match等
GSM8K推理能力英文公开exam_match等
Chid语言能力中文公开Accuracy等

您可以在任务详情页中点击“效果指标”来查看评测结果。alt

其中评测结果,可以查看整个模型评测任务的综合得分,以及各个垂直领域的评测分数。


我们会持续增加更多评测数据集,覆盖更多任务类别,敬请期待!