机器学习平台支持对【AutoML】模块训练得到的分类及回归多种模型进行效果评估,针对不同的任务场景对不同的效果指标做可视化,从而让用户对模型的推理效果有充分的了解。
AutoML
。登录机器学习平台,单击左侧导航栏中的【模型服务】-【模型管理】进入列表页面。
单击待查看模型的名称进入详情页面,并在模型版本列表中选中待查看的版本,在右侧的【效果指标】标签页下即可查看到该模型的效果指标。
分类模型:【效果指标】页面包含一个标签列表,默认选中 全部
以展示模型在所有类别上的预测效果,包含一些数值和图表类型的指标。单击标签列表中的某个类别将展示模型在该类别上的预测效果,会额外展示部分错误预测的样本示例。
回归模型:因为不存在 “类别”,所以回归模型的【效果指标】页面不存在标签列表,仅包含评估指标的数值及图表。
每种场景的模型支持哪些效果指标详见下文中的效果指标列表。
机器学习平台目前支持图像分类、文本分类、表格分类及回归的效果指标,每种指标的含义、使用方法如下。
含义:准确率。分类正确的样本数占总样本数的比例,该指标越接近 1 则模型质量越高。
使用场景:图像分类、文本分类、表格分类。
含义:召回率。该指标越接近 1 则模型质量越高。该指标描述在所有正例中有多少被预测出来(预测的是否完整)。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景:图像分类、文本分类、表格分类。
含义:精确率。该指标越接近 1 则模型质量越高。该指标反映了在预测成正例的结果中预测正确的比例(预测的是否准确)。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景:图像分类、文本分类、表格分类。
含义:Precision-Recall 曲线。通过该曲线可查看 Precision 随 Recall 变化的趋势,曲线越靠近右上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景:图像分类、文本分类、表格分类。
含义:Receiver Operating Characteristic 曲线。通过该曲线可查看 True Positive Rate 随 False Positive Rate 变化的趋势,曲线越靠近左上角则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景:图像分类、文本分类、表格分类。
含义:F1 分数。Recall 和 Precision 共同作用下的指标,该指标越接近 1 则模型质量越高。多分类的场景下分别以 Micro、Macro、Weighted 三种方式计算该指标。
使用场景:图像分类、文本分类、表格分类。
含义:混淆矩阵。展示样本被预测成各类别的数量或比例。矩阵中对角线的数值越大模型质量越高。当模型预测的类别数量不超过 20 时可直接在网页上查看,否则需要下载 .csv 到本地查看效果。
使用场景:图像分类、文本分类、表格分类。
含义:特征重要性。该指标描述每个特征对模型的影响程度,特征对应的值越大则影响越强。默认展示前 20 个特征。
使用场景:表格分类、表格回归。
含义:Mean Absolute Error,平均绝对误差。该指标用于描述目标值与预测值之间的平均绝对差,值越接近 0 则模型质量越高。MAE 能较好衡量回归模型的好坏,对异常点有更好的鲁棒性。
使用场景:表格回归。
含义:Mean Squared Error,均方误差。值越小表示模型质量越高。MSE 因为取了平方,所以能够放大数据中异常点的误差。
使用场景:表格回归。
含义:均方根误差。该指标用于描述目标值与预测值之间均方差的平方根,值越接近 0 则模型质量越高。由于 MSE 与目标变量的量纲不一致,为了保证量纲一致性,我们需要对 MSE 进行开方 。RMSE 对离群值比 MAE 更敏感,因此如果担心大的误差,那么 RMSE 可能是一个更有用的评估指标。
使用场景:表格回归。
含义:均方根对数误差。该指标用于描述预测值和目标值加 1 的自然对数(目标值和预测值需要非负),值越接近 0 则模型质量越高。RMSLE 与 RMSE 类似,但前者对预测不足的惩罚比过度预测更重。如果不希望对大预测值误差的惩罚比对小预测值的更重,则此指标也非常合适。
使用场景:表格回归。
含义:决定系数。该指标用于描述目标值与预测值之间的皮尔逊相关系数的平方,值越接近 1 则模型质量越高。
使用场景:表格回归。
含义:Mean Absolute Percentage Error,平均绝对百分比误差。 该指标用于描述目标值与预测值之差的绝对百分比的平均值(目标列需要非 0),值越接近 0 则模型质量越高。
使用场景:表格回归。