机器学习--客户数据平台-火山引擎

文档中心

立即注册

导航

机器学习

最近更新时间：2024.03.28 11:23:42首次发布时间：2024.03.28 11:23:42

1.功能概述

机器学习，是指可视化建模支持机器学习算子，对数据进行加工处理，以便用户基于数据进行模型训练、深度分析、预测分析等。本文将为您介绍机器学习算子的功能。

2.算子介绍

2.1 预测

将机器学习算子训练生成的模型应用于预测数据的数据上，一般链接在机器学习算子后面。

说明

字段设置 特征列映射：设置模型中的特征列和数据中的特征列的映射关系。
标签列： 标签列，分类训练的依据。
参数设置 预测的列名：预测的列的名字。

2.2 one-hot 模型应用

one-hot 模型应用算子链接在 one-hot 编码算子之后。one-hot 算子除了支持将 string 类型的列用数组表示，还支持将转换过程以模型的方式保存，结合 one-hot 模型应用算子，可以将类似的列再进行编码转换。

说明

特征列映射： 设置模型中的特征列和数据中的特征列的映射关系。

2.3 分类

支持以下模型，详情参见功能页面。

模型名称	模型简介
逻辑回归	逻辑回归是经典的统计学习分类模型，是在线性回归的映射中加一层非线性函数映射，先把该样本的特征线性求和，然后使用逻辑斯蒂函数将值映射到 0 到 1 之间,表示该样本隶属于各类别的概率大小，取概率值较大的对应类别作为该样本最终预测类别。本算子支持二分类和多分类问题，支持连续和类别特征，但类别特征在字符串索引后需要进行 one-hot 算子处理。
Xgboost	Boosting轮数：训练时的boosting迭代次数。使用最好的模型：会根据最优模型选择的评估指标来选择最好的模型。标签索引排序方法：frequency表示根据频数排序，alphabet表示根据字符串比大小排序。
Catboost	一种基于对称决策树（oblivious trees）算法的参数少、支持类别型变量和高准确性的GBDT框架，主要解决的痛点是高效合理地处理类别型特征，CatBoost是由catgorical和boost组成，另外是处理梯度偏差（Gradient bias）以及预测偏移（Prediction shift）的问题，提高算法的准确性和泛化能力。 CatBoost主要有以下五个特性： 1.无需调参即可获得较高的模型质量，采用默认参数就可以获得非常好的结果，减少在调参上面花的时间。 2.支持类别型变量，无需对非数值型特征进行预处理。 3.快速、可扩展的GPU版本，可以用基于GPU的梯度提升算法实现来训练你的模型，支持多卡并行。 4.提高准确性，提出一种全新的梯度提升机制来构建模型以减少过拟合。 5.快速预测，即便面对延时非常苛刻的任务也能够快速高效部署模型。
朴素贝叶斯	朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法，朴素贝叶斯分类器容易构建且适合大数据集，但是它的缺点是需要对先验分布作出假设。本算子支持二分类和多分类问题，支持分类和非负连续特征，但类别特征需要提前做字符串索引处理。
支持向量机	一种统计学习分类模型，其基本思想是求解能够正确划分训练数据集并且使得几何间隔最大的分离超平面
多层感知器	它模拟生物神经网络，是一类模式匹配算法，每一层是一个线性变换加sigmoid激活函数，输出层做softmax变换。本算子支持二分类和多分类问题，支持类别和连续特征，但类别特征需要提前做字符串索引处理。
决策树	常用的分类算法之一，其对于探索式的知识发现往往有较好的表现。决策树原理十分简单，可处理大维度的数据，不用预先对模型的特征有所了解，这些特性使得决策树被广泛使用。决策树采用贪心算法，其建立过程同样需要训练数据。决策树的核心问题是决策树分支准则的确定，以及分裂点的确定。
随机森林	在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由单棵树输出的类别的众数而定。随机森林中每棵树的训练数据是从原训练数据集中有放回的抽取出的部分数据，并且从全部特征中随机抽取出一个子集，从这个子集中选择最优特征进行分裂，而不是总选全局最优点进行分裂，这有助于防止单个决策树过拟合。
梯度提升树	梯度提升树是一个集成学习(ensemblemodel)模型，内部的模型使用决策树。与随机森林不同的是，它一次只训练一棵树，后面每一棵新的决策树逐步矫正前面决策树产生的误差。随着树的添加，模型的表达力也愈强。

2.4 聚类

支持以下模型，详情参见功能页面。

模型名称	模型简介
K-means聚类	K-means(K均值)算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标。指定K个初始聚类中心(初始簇均值中心)后，计算每个样本与K个簇均值中心的距离，将它划分到与之最近的簇均值中心所属的簇内，每一次划分后更新簇均值中心，重新计算各个样本与簇均值中心的距离，直到所给的样本已经聚类到K个簇上且簇均值中心不再发生变化。
高斯混合	高斯混合聚类是用高斯概率密度函数(正态分布曲线)精确地量化事物，可以将样本点聚簇为若干的基于高斯概率密度函数(正态分布曲线)形成的簇集。理论上可以拟合任何连续函数，缺点是计算量较大。
二分K均值	二分K均值聚类算法是K均值聚类算法的一个变体，主要是为了改进K均值算法随机选择初始质心的随机性造成聚类结果不确定性的问题，而二分K均值算法受随机选择初始质心的影响比较小。

2.5 回归

支持以下模型，详情参见功能页面。

模型名称	模型简介
线性回归	线性回归是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。下图所示，上方为基本原理公式，为各特征的线性求和。
决策树回归	决策树可以用于连续值的预测，其对于探索式的知识发现往往有较好的表现。决策树原理十分简单，可处理大维度的数据，不用预先对模型的特征有所了解，这些特性使得决策树被广泛使用。决策树采用贪心算法，其建立过程同样需要训练数据。决策树的核心问题是决策树分支准则的确定，以及分裂点的确定
随机森林回归	随机森林是一个组合(ensemblemodel)模型，内部的模型使用决策树，并且在训练过程中引入了随机属性选择。具体来讲，传统决策树在选择划分属性时，在当前节点的属性集合(假设有d个属性)中选择一个最优属性;而在随机森林中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。本算子支持连续型label，也支持连续特征和类别特征。
梯度提升树回归	一个组装(ensemble model)模型，内部的模型使用决策树。与随机森林不同的是，它一次只训练一棵树，后面每一棵新的决策树逐步矫正前面决策树产生的误差。随着树的添加，模型的表达力也愈强。
保序回归	保序回归是一类回归算法。保序回归是这样一个问题:给定有限实数集Y = {y_1, y_2, ..., y_n},Y表示已知观察数据，X = {x_1, x_2, ..., x_n} 代表未知的值，我们的目的是找到函数f(x)=sum_{i=1}^n w_i(y_i - x_i)^2的极小值,并且保证x_1到x_n递增。

2.6 时间序列

ARIMA模型 将预测对象随时间推移而形成的数据序列视为一个随机序列，用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。可以帮助企业对未来进行预测，从而指导企业进行下一步决策。

应用场景：股票市场涨跌预测及分析、超市的市场营业额预测及分析、房价涨跌预测及分析、员工离职预测及分析、产品的销售量预测及分析、天气情况预测及分析等等。

2.7 评估

支持以下评估模型，详情参见功能页面。

模型名称	模型简介
二分类评估	此性能评估算子应被用于分类任务,即当标签属性具有二分变量值类型时。此算子的输入为一个测试样本集,这个样本集包含一个具有label角色的属性以及一个具有预测角色的属性。该算子会基于这两个属性计算并输出包含性能标准值的性能矢量。
多分类评估	此性能评估算子应被用于分类任务，即当标签属性具有(多分)字符型值类型时。此算子的输入为一个测试样本集,这个样本集包含一个具有label角色的属性以及一个具有预测角色的属性。该算子会基于这两个属性计算并输出包含性能标准值的性能矢量。
聚类评估	此性能评估算子用于评估聚类模型性能。此算子希望输入一个测试样本集,这个样本集包含一个具有预测 (prediction)角色的列以及一个具有所有特征的列。
回归评估	此性能评估算子应被用于分类任务，即当标签属性具有数字型值类型时。此算子的输入为一个测试样本集, 这个样本集包含一个具有label角色的属性以及一个具有预测角色的属性。该算子会基于这两个属性计算并输出包含性能标准值的性能矢量。