算场 Data+AI 平台
您可以在算场上通过统一的界面和工具完成各种数任务:
- 数据集成和处理以及数据管理
- 数据的安全治理、高可用性和灾难恢复
- 数据湖仓一体和数据洞见
- 数据可视化和商务智能(BI)
- 机器学习(Machine Learning)训练、大模型微调、跟踪和模型推理服务
- 预测性、诊断性和生成式 AI 解决方案
- 数据分享、流通和数据市场
算场的访问方式
您可以通过工作区 UI 与算场交互:
- 工作 : 使用工作表 (Worksheet) 或笔记本 (Notebook) 创建计算任务,通过工作流实现工作任务的调度和编排
- 看板 : 数据可视化和仪表盘的管理
- 数据 : 湖仓数据的管理、控制和分享
- 模型 : 机器学习和 AI 的训练、管理和推理服务
- 算力 : 算力集群的创建和管理
- 市场 : 数据和模型的流通和获取
- 管理 : 账号管理、费用管理等
- AI 助手 : 对话式的数据查询、系统使用的交互问答等
除了工作区 UI 之外,您可以通过以下工具以方式与算场交互:
- Rain Client shell终端工具,实现数据上传与下载、sql交互式执行
- CDC Tool 用于数据库增量提取和同步(CDC)
- Java SDK Java库, 可以上传下载数据、执行SQL查询或计算任务、查询计算状态
算场的常见用例
算场可以支撑各种数据处理、分析、商业智能和 AI 学习等多种多样的任务。下面介绍一部分数据驱动的企业智能的典型用例。
企业数据湖仓
数据湖仓结合了数据仓库和数据湖的优势,形成了企业一体化的灵活的数据解决方案,可以有效的管理和整合各种规模的结构化数据和非结构数据。企业的各类人员包括数据工程师、数据分析师、数据科学家、算法工程师、业务生产系统等都可以使用湖仓作为企业的统一数据源,实现数据的一致性访问并支持各种灵活的数据分析处理,降低维护和同步多个数据和 AI 系统的困难度和复杂度。 请参阅数据湖仓。
数据整合和清洗
算场将 Apache Spark 的分布式计算能力与 Rain Lake 湖仓相结合, 支持各类数据源的数据集成,通过灵活的处理逻辑产生商务智能和人工智能应用需要的高可用的、干净的、统一管理的数据, 驱动企业的数据智能化。结合提供的增量数据提取工具,算场提供了优秀的 ETL(提取、转换、加载)方案。同时算场也支持 ELT(提取、加载、转换)实现高效的简化的复杂企业系统的数据整合,兼容源系统的数据演进。您可以使用多用语言包括 SQL, Python, Java 和 Scala 实现灵活的数据处理和转换逻辑,在结合工作流实现任务的编排、部署和监控。
机器学习和人工智能
算场提供了各种嵌入的人工智能模型,包括预测模型、分类模型和诊断模型,可以直接使用或通过简单的操作使用企业自身的数据进行模型训练 (AutoML)。算场也支持机器学习全生命周期管理,包括模型训练的实验跟踪、结果比较, 模型注册和集中化存储,以及模型服务提供 AI 模型的统一接口 (MLFlow)。通过算场提供的一系列工具,针对数据科学和算法工程师的需求, 实现从企业数据到企业人工智能模型的全流程。此外, 借助预置的各种预训练基础大语言模型和 MLFlow 功能, 可以轻松的使用自己的数据实现大语言模型的微调、注册和部署服务。
数据分析和商务智能
算场将经济的无限空间的云存储、可自动化伸缩的弹性云算力以及友好的 UI 交互结合, 提供了统一的功能强大的数据查询分析能力。用户可以使用工作表进行各种复杂的 SQL 查询,也支持 Python, Java 和 Scala 多种语言的脚本处理,而无需担心系统层面的任何复杂性。用户可以对查询处理后的结果进行可视化,并结合业务逻辑使用看板对可视化结果进行管理、分享和监控。除了工作表,用户也可以通过笔记本使用 Python 脚本获得交互式的数据分析和处理, 以及使用 Markdown 编写的注释和链接等。
安全数据共享和数据市场
算场支持组织内的、跨组织的以及跨数据中心的安全数据共享,集合平台灵活的数据处理转换成立,建立了安全灵活的数据共享机制。用户可以在数据分享时可以选定保持数据同步一致或维持数据当时状态。如果在一个数据中心之内,借助于零拷贝实现了数据的一键共享;同时平台也支持跨数据中心的一致性的数据同步。
借助于算场的数据市场,用户可以方便的一键获取数据,或者将自身处理后的数据安全地发布,加快数据要素流通。
任务编排和监控
借助于工作流 (WorkFlow), 可以轻松的将 ETL/ELT 管道、数据源、工作任务、可视化看板等机型编排、任务调度和监控,实现可靠的自动化的生产任务部署。工作流可以使用工作表、笔记本和其他任意代码,调度配置任务,使其在指定的计算环境中按指定的时间表运行, 可以减少重复工作并提升数据治理的鲁棒性。
流式数据上传和处理
用户可以使用平台提供的数据接入工具在不启用算力的情况下实现不间断的大规模流式数据接入,也可以通过弹性算力使用湖仓 API 实现数据的接入和处理。除了支持 Spark 的静态数据批处理计算,也支持通过结构化流式处理引擎以增量方式执行数据计算,实现批流一体。