概览
AutoML
简介
AutoML 简化了将机器学习应用于数据集的过程,能够自动寻找最佳的算法和超参数配置。
只需提供数据集并指定机器学习问题的类型,AutoML
就会执行以下操作:
- 数据预处理,包括数据清洗以及训练测试数据集划分。
- 在多个算法之间分布式协调模型训练和超参数调优。
- 使用来自
scikit-learn、xgboost、LightGBM、Prophet
和ARIMA
的开源评估算法找到最佳模型。 - 展示结果,
AutoML
会为每个实验生成源代码笔记本,同时将每次实验记录在 MLflow 中,并对最佳实验进行筛选。
要求
- 无需在集群上安装除
Runtime for Machine Learning
预安装库以外的其他库。 - 对现有库版本的任何修改(移除、升级或降级)都会因不兼容导致运行失败。
AutoML 算法
AutoML
基于以下表格中的算法对模型进行训练和评估。
注意:
- 对于分类和回归模型,决策树、随机森林、逻辑回归和基于随机梯度下降的线性回归算法是基于
scikit-learn
实现的。
分类 | 回归 | 预测 |
---|---|---|
决策树 | 决策树 | Prophet |
随机森林 | 随机森林 | Auto-ARIMA |
逻辑回归 | 线性回归 | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
实验笔记本生成
AutoML 会生成实验背后的源代码笔记本,便于查看、复现和根据需要修改代码。
对于 AutoML 每次实验,会在 Mlflow 中记录若干次运行,第一次运行记录了数据预处理过程以及数据预处理笔记本,每次超参搜索运行的代码会保存在运行工件中,可以通过点击每个 MLflow 运行来找到这些笔记本。
分析和存储训练数据笔记本
模型训练笔记本