在模型评测任务列表中,选择希望查看的评测模型,点击「任务名称」进行评测详情页。每个模型有单条对应的评测任务。
进入任务详情页,查看该次任务的基础信息和参与评测的能力维度。 点击「评测报告」,可以查看当前模型在选择的能力维度下的单项得分和综合得分。每个能力维度下,可分别查看该能力项中各个数据集的得分。
平台提供样本分析能力,可以根据 评测能力 和 数据集 查看评测的问题、答案以及模型回答,便于对比答案的偏差。