数据接入概览
下面列举各种数据源的数据接入方法。
数据接入方式 | 类别 | 是否使用算力集群 |
---|---|---|
从云对象存储导入 | 全量/增量导入 | ✔ |
Hadoop文件 | 全量导入 | ✔ |
数据库增量同步 | 全量/增量导入 | ❌ |
Kafka数据加载 | 增量导入 | ✔ |
本地文件导入 | 全量导入 | ❌ |
通过SDK加载数据 | 全量/增量导入 | ❌ |
使用Web界面加载数据 | 全量导入 | ❌ |
连接到外部数据源 (JDBC) | 连接 | ✔ |
其中一部分数据接入方法需要通过工作表或者笔记本,使用算力集群通过"拉”数据的方式进行数据导入。其他一部分接入方法不需要
使用算力集群,使用客户端或者SDK将数据通过直接"推"的方式进入平台。
算场平台默认采用 ELT (提取-加载-转换) 的数据加载方式,可以更好的兼容数据源的变化和整合。请参阅ETL数据集成。
云对象存储
可以使用 UI 或在工作区通过 COPY INTO 命令将数据从云对象存储的数据以全量或增量方式导入湖仓,请参阅云对象存储。
COPY INTO 支持多种源文件格式 CSV、JSON、Avro、ORC、Parquet 以及他们的压缩格式导入数据表 (Table), 也支持将任意文本或二进制文件导入到卷 (Volume)。
COPY INTO 当前支持的云对象存储服务包括 AWS、阿里云、华为云、天翼云、腾讯云。
可以指定将特定的文件夹里指定类型的所有文件以全量或增量的方式载入,实现大批量文件载入或对云存储数据的监控。
Hadoop文件
也可以通过 COPY INTO 命令将数据从Hadoop导入湖仓, 请参阅hadoop文件。
数据库增量同步
使用基于开源CDC工具DebeziumServer开发的Debezium-server-rain,实现将MySQL、PostgreSQL、MongoDB、SQL Server、Oracle等数据库数据同步到用户湖仓中。请参阅数据库增量同步。
Kafka数据加载
可以与流式消息队列服务结成,将近实时数据从Kafka导入湖仓, 请参阅Kafka数据加载。
本地数据文件
可以将本地数据文件使用客户端脚本工具上传到湖仓,请参阅本地数据文件。
通过SDK加载数据
可以通过Java库上传下载数据、执行SQL查询或计算任务、查询计算状态, 请参阅通过SDK加载数据。
使用Web界面加载数据
可以通过页面导入数据到湖仓的指定的表格或文件卷, 请参阅使用Web界面加载数据。
连接到外部数据源 (JDBC)
可以使用可扩展 JDBC 支持来连接到其他数据系统, 支持对外部数据系统中单个表的连接,也可以使用一些驱动程序将数据写回到外部系统, 请参阅连接到外部数据源(JDBC)。