使用hive查询从hudi同步的表需要注意的问题

肖钟城
  • 大数据技术栈
  • Hudi
小于 1 分钟

使用hive查询从hudi同步的表需要注意的问题

设置 hive.input.format

在hive cli或者beeline执行查询任务时,需要做如下指定:

set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

如果没有做如下指定,有可能会得到错误结果或者执行错误。例如,有100000条数据,用flink查返回正确结果, 但是在hive中,如果不做上述指定,返回了162766的结果,明显这个结果是错误的。

hive中的ro和rt表

在0.9.0版本中,在使用flink将数据写入hudi mor表并同步到hive时,hive中默认情况下会有两张表,一张是rt表,另一张是ro表。 在做count操作时,ro表可以查询到正确结果,rt表目前还不支持此操作。

在同步时候,可以设置hive_sync.skip_ro_suffix参数为true,不生成ro表。

flink写hudi表开启hive同步,隔多久能在hms中看到该表?

checkpoint interval

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.14.1