快速开始
快速开始
欢迎使用算算场 Data+AI 平台,本教程旨在帮您了解和熟悉平台的基本使用流程,包括
- 创建数据库
- 上传并加载数据
- 如何利用SQL进行查询分析
- 仪表盘生成以及查看
登录/主界面
- 使用用户名和密码登录到算场数据AI平台界面。
- 登陆后可以看到主界面以及左侧导航栏。导航栏介绍:
- 工作 : 使用工作表 (Worksheet) 或笔记本 (Notebook) 创建计算任务,通过工作流实现工作任务的调度和编排
- 看板 : 数据可视化和仪表盘的管理
- 数据 : 湖仓数据的管理、控制和分享
- 模型 : 机器学习和 AI 的训练、管理和推理服务
- 算力 : 算力集群的创建和管理
- 市场 : 数据的流通和获取
- 管理 : 账号管理、费用管理等
- AI 助手 : 对话式的数据查询、系统使用的交互问答等
数据
数据模块是算场数据AI平台的元数据和结构化、非结构化数据等处理基底。算场通过两层结构来组织和管理数据库对象:数据库 以及数据库下的表、卷、视图、函数、模型等。用户可以通过多种方式将数据上传并导入到平台上,接下来,我们将介绍如何通过页面上传的方式将csv数据导入到算场平台并创建数据表。
上传数据
- 准备工作:下载orders附件表格。稍后我们会将此表格上传并生成数据表。
- 进入数据模块,点击导航栏数据-数据库标签。在此页面可以看到目前有权限的所有数据库列表。
- 创建一个数据库,点击
按钮
- 输入数据库名称,点击创建。
- 在新建好的数据库中导入我们想要创建的表格,选择新创建的数据库,选择右上角
按钮,并选择导入数据创建表格。
- 输入表名称,并选择orders附件表格,点击下一步。
- 检查文件并填入导入数据的文件格式,分隔符,有无表头,内容引号等,点击下一步。
- 检查导入后数据的字段名、类型等,点击导入。
- 等待导入和创建表成功后,可以点击查看orders表,数据预览、列信息等。
算力
算力是算场数据AI平台计算资源的核心和基础。工作表,笔记本,以及工作流中所有的计算任务最终都要依靠创建的算力集群来完成。算力包括湖仓算力以及ML算力,每种类型的算力下又包含不同规格参数的算力集群,用户需要根据不同的使用场景创建不同的集群。接下来,我们将根据本教程的场景创建算力集群。
新建集群
- 进入算力模块,点击导航栏算力标签,可以看到目前的算力集群列表以及各个集群的类型、状态等信息。
- 点击
按钮创建算力。
- 输入算力名称,选择类型为
湖仓
,规格X-Small
,点击创建。 - 等待集群创建成功。
工作
工作模块是用户进行数据计算、查询分析、机器学习等任务的交互系统。在创建计算资源之后,用户可以通过工作表 或笔记本 运用SQL、 Python、 Scala 或 Java 脚本提交计算任务,包括数据查询、处理或分析等。同时,用户也可以使用工作流实现计算任务的调度和编排,以实现定时的或者事件触发的数据加载、数据转换、数据处理、数据监控、模型训练等。下面,我们将用刚才创建的计算集群对新导入的orders表做一些简单的数据查询。
分析数据
- 进入工作模块,点击导航栏工作-工作表,这里可以看到当前已经创建的工作表列表。
- 创建一个新的工作表,点击
按钮。
- 在新创建的工作表右上角选择刚刚创建的计算集群。
- 我们用刚导入的orders表格进行一些分析,比如我想看1998年的所有订单数据,输入如下代码:
select * from new_database.orders where o_orderdate >= "1998-01-01" and o_orderdate < "1999-01-01";
- 运行工作表,点击右上角
按钮,并等待查询结果。
- 可以看到查询出来的数据。
数据看板
看板是用来组织、管理可视化图表,监控查询结果的磁贴图表排列仪表板。下面我们将刚刚查询的结果生成图表并展示在看板里。
在工作表结果下面图表栏里对查询出来的数据可以做进一步分析,比如我想汇总一下这些订单每个优先级(priority)下各有多少订单,分别选择好轴为
o_orderpriority
和值o_orderkey
并选择计算方式为Count
进行查看。点击确定以后可以看到这些订单在每个优先级下各有多少笔订单数。
接下来我们想要把刚才生成的图表展示在看板里,进入看板模块,点击导航栏工作-看板,这里可以看到当前已经创建的看板列表。
创建一个新的看板,点击
按钮,并输入看板名称点击确定。
回到刚才的工作表,在生成的图表的又上方点击
按钮,并选择刚才添加的看板
my_dashboard
将此图表添加到新创建的看板中。页面会自动跳转到新创建的看板,并且展示我们已经添加的所有图表。