方舟平台汇集了时下主流的基础大模型,同时也支持用户基于这些先进模型训练出更加符合自身场景的精调模型。为帮助用户能更加快速高效的选择到一款合适的模型,或准确评估基于自身数据精调出的模型效果,方舟设计了一套评测体系,帮助用户全方位量化模型各个维度能力。该评测体系具备以下特性:
便捷性:以自动测试为主导,方便用户一键评测,快速看到结果。
权威性:集成了业界高度认可的公开数据集,以便能和各大公开榜单中的不同模型进行对比;同时辅以方舟平台自身积累的非公开数据集,降低了完全公开的数据可能存在的刷榜影响,使评测结果更具可信度。
灵活性:模型评测按不同能力维度进行划分,用户可以自由选择,生成符合自身场景需求的评测结果。
评测维度
我们从人的基本能力出发,将评测数据组合出不同维度,以便或全面或针对性考察模型能力。
360评测 - 横向进行跨学科、跨能力维度的评测,用于快速衡量模型是否具有广泛的世界知识和各类问题解决能力。
基础能力评测 - 为更专业解决某种场景的问题,模型需要在某些类别中体现更加突出的能力。因此方舟还提供不同侧重的,基于能力维度的模型评测选项。
语言创作 - 理解与生成文本的能力,与人类语言考试的读、写对应
推理数学 - 逻辑推理与数学计算,及延伸的对复杂规则的学习能力
知识能力 - 记忆与理解各行各业知识,如常识、生活、社会文化等
其他能力维度逐步拓展中,以便支持更多场景的模型评测需求。敬请期待。
评测数据
评测类型 | 能力维度 | 评测数据 |
---|
预置评测 | 360评测 | - MMLU: MMLU 是业界评测大模型最常用的综合数据集,由各种学科的多项选择题组成。其涵盖了人文学科、社会科学、自然科学和其他重要的学科领域。其中包括57个任务,包括初等数学、历史、计算机科学、法律等等。为了在这个测试中达到高准确度,模型必须具有广泛的世界知识和问题解决能力。
|
| 基础能力评测 | 语言创作 高考语文: 高考是中国最具权威性和全面性的标准化考试之一,该数据集包含246道从2010年到2022年的高考语文试题。 高考英语: 高考是中国最具权威性和全面性的标准化考试之一,该数据集包含306道从2010年到2022年的高考英语试题。 LSAT阅读理解: LSAT(Law School Admission Test),法学院入学考试,由阅读理解、逻辑推理、分析推理三个部分组成。该数据集是其中的阅读理解部分,由269道包含文章和问题的选择题组成,主要测试模型准确阅读并理解复杂文章,组织有关信息并得出合理结论的能力。 Hellaswag: HellaSwag 是一个用于评估常识自然语言理解的挑战性数据集,它对于目前的最先进的模型来说非常困难,但是对于人类来说却很容易(>95%的准确率)。它包含了10042个多选问题,每个问题都有一个场景和四个可能的结局,要求模型选择最合理的结局。 BoolQ: BoolQ 是一个阅读理解数据集,包含3千多个问题和相关的维基百科段落,模型需要依据维基百科段落中的信息针对问题回答是/否。
推理数学 BBH(Big-bench Hard): BBH从BIG-Bench数据集中选择了23个最难的任务,要求模型根据给定的问题,生成正确的回答。该数据集涉及不同的领域,主要涵盖数学,常识推理,软件开发等。 GSM8K: GSM8K是由OpenAI发布的,包含1千多道需要2到8个步骤解决,主要涉及基本算术运算的小学数学题数据集。 WinoGrande: WinoGrande是一个用于常识推理的大规模数据集,包含1千多个问题,每个问题都是由一个句子和一个代词组成,要求根据上下文判断代词指代的是哪个名词。 LSAT分析推理: LSAT(Law School Admission Test),法学院入学考试,由阅读理解、逻辑推理、分析推理三个部分组成。该数据集是其中的分析推理部分,由230道需要模型根据给定条件和限制关系进行推理的选择题组成,主要测试模型理解复杂关系结构并推出结论的能力。 LSAT逻辑推理: LSAT(Law School Admission Test),法学院入学考试,由阅读理解、逻辑推理、分析推理三个部分组成。该数据集是其中的逻辑推理部分,由510道包含短文或对话的选择题组成,主要测试模型从已知事实或前提推理得出合理结论的能力。
知识能力 Natural Questions: Natural Questions是一个问答数据集,包含3600多个问题,每个问题都是从google查询而来。 TriviaQA: TriviaQA 是一个现实的基于文本的问答数据集,内容主要来自维基百科。 高考文理综: 高考是中国最具权威性和全面性的标准化考试之一,该数据集包含1千多道从2010年到2022年的高考文综和理综试题。
|
垂直能力评测 | 方舟在持续进行评测数据的构建,近期将提供专项能力相关的评测。敬请期待。 |
自定义数据评测 | 可选择以上能力或创建新维度 | 用户可自行上传评测数据,通过方舟预置的评测方法进行效果评测。评测数据准备方式可参考评测数据集格式说明 |
评测得分
- 评测得分由综合评分+各能力维度评分组成。综合评分来自模型在全部能力维度上评分的均分,能力维度评分来自各能力维度下所有数据集评测后得分的均分。
评测指标
各数据集根据自身特性不同需要相应的评估方法,主要依据评测集中提供的标准答案的类型选择相应的评测指标。方舟支持以下几种指标:
评估指标 | 适用评测题目类型 | 预置数据集举例 |
---|
正确率(Accuracy) | 常用于判断题(是/否)以及选择题(ABCD),这类问题的数据集占比最大,有MMLU, 高考数据集等。 | MMLU, 高考, LSAT, Hellaswag, BoolQ, AQUA-RAT, WinoGrande, BBH |
匹配率(Exact Match) | 常用于问答题以及阅读理解任务,判断模型输出的文本与标准答案是否一致。这类数据集主要包括Natural Questions, TriviaQA等。 | GSM8K, Natural Questions, TriviaQA |
pass@k | 常用于代码生成的任务,数据集主要包括Humaneval,MBPP等。 | HumanEval, MBPP |