查询流式数据

算场为多种内部和外部数据源提供了流式查询能力。

从流式处理系统查询数据

您可以从以下流式处理系统Kafka读取流式输出数据。以下示例演示从 Kafka 读取的交互式流式处理，并将读取的数据写入数据表：

# 增量数据加载成DataFrame
df = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "<server:ip>")
  .option("subscribe", "<topic>")
  .option("startingOffsets", "latest")
  .load()
# DataFrame添加到表中
df.write.insertInto(("<table identifier>"))

加载云对象存储中的增量数据

通过 COPY INTO 命令将数据从云对象存储的数据以全量或增量方式导入湖仓。请参阅云对象存储增量数据导入。

对于创建的物化视图 (Materialized View) 或流处理表 (Streaming Table), 如果存在多个源数据表的join查询情况, 默认每次触发增量刷新的时候获取第一张表的增量数据以及其他所有表的全量数据，在进行join查询后将结果进行物化保存。您也可以在指定源表名上添加"(stream)"后缀来指定获取该表的增量数据，这时候没有添加后缀的表会获取其全量数据。请参阅物化视图和流处理表。

查询流式数据

从流式处理系统查询数据

查询表的增量数据

加载云对象存储中的增量数据

指定物化视图或流处理表的增量表