概览

AutoML

简介

AutoML 简化了将机器学习应用于数据集的过程，能够自动寻找最佳的算法和超参数配置。

只需提供数据集并指定机器学习问题的类型，AutoML 就会执行以下操作：

数据预处理，包括数据清洗以及训练测试数据集划分。
在多个算法之间分布式协调模型训练和超参数调优。
使用来自 scikit-learn、xgboost、LightGBM、Prophet 和 ARIMA 的开源评估算法找到最佳模型。
展示结果，AutoML 会为每个实验生成源代码笔记本，同时将每次实验记录在 MLflow 中，并对最佳实验进行筛选。

要求

无需在集群上安装除 Runtime for Machine Learning 预安装库以外的其他库。
对现有库版本的任何修改（移除、升级或降级）都会因不兼容导致运行失败。

AutoML 算法

AutoML 基于以下表格中的算法对模型进行训练和评估。

注意：

对于分类和回归模型，决策树、随机森林、逻辑回归和基于随机梯度下降的线性回归算法是基于 scikit-learn 实现的。

分类	回归	预测
决策树	决策树	Prophet
随机森林	随机森林	Auto-ARIMA
逻辑回归	线性回归
XGBoost	XGBoost
LightGBM	LightGBM

实验笔记本生成

AutoML 会生成实验背后的源代码笔记本，便于查看、复现和根据需要修改代码。

对于 AutoML 每次实验，会在 Mlflow 中记录若干次运行，第一次运行记录了数据预处理过程以及数据预处理笔记本，每次超参搜索运行的代码会保存在运行工件中，可以通过点击每个 MLflow 运行来找到这些笔记本。

分析和存储训练数据笔记本
模型训练笔记本