hudi数据查询总览

肖钟城
  • 大数据技术栈
  • Hudi
大约 2 分钟

hudi数据查询总览

基本概述

从概念上讲,一旦Hudi在DFS上物理地存储数据,那么可以同时提供3种不同的查询方式。一旦表被同步到Hive metastore,那么它提供了由Hudi的自定义输入格式支持的外部Hive表。一旦安装了合适的hudi bundle,就可以通过Hive、Spark SQL、Spark Datasource API和PrestoDB等流行的查询引擎查询该表。

不同的hudi表再hive中会有不同的注册形式。

  1. 如果table_name = hudi_trips、table_type = COPY_ON_WRITE,那么我们会在hive中得到一个同样名称为hudi_trips的表,并且这个表是支持快照查询以及增量查询的。

  2. 如果table_name = hudi_trips、table_type = READ_ON_MERGE,那么我们可以在hive中得到两个表,一个名称为:hudi_trips_ro,另一个为:hudi_trips_rt。hudi_trips_ro支持读优化查询;hudi_trips_rt支持快照查询以及增量查询。

正如概念部分所讨论的,增量处理所需的一个关键功能是从表中获取更改流/日志。Hudi表可以被增量查询,这意味着你可以得到ALL和ONLY的更新和新行自指定的即时时间。这与upserts一起,对于构建数据管道特别有用,其中1个或多个源Hudi表被增量查询(streams/facts),与其他表(tables/dimensions)连接,将增量写入目标Hudi表。增量查询是通过查询上述所描述的表来实现的,使用特殊配置来指示查询规划,只需要从表中提取增量数据。

MOR表支持的查询引擎及其查询类型

COW表支持的查询引擎及其查询类型

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.14.1