Apache Hudi 0.12.2发布
长期支持版本 我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。 迁移指南 此版本 (0.12.2) 没有引入任何新的表版本,因此如果您使用的是 0.12.0,则无需迁移。 如果从旧版本迁移,请查看之前发行说明中的迁移指南,特别是0.6.0 (https:...

肖钟城
  • 大数据技术栈
  • Hudi
大约 7 分钟
Flink写hudi报datanode异常以及解决办法
问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 基于上述异常日志,可以看出是datanode问题导致。 查看上述日志中,两个主要节点datanode的日志,在该时间段上下,其日志报错如下: 关键报错信息 原因分析 参考:https://cloud.t...

肖钟城
  • 大数据技术栈
  • Hudi
大约 4 分钟
Apache Hudi 0.12.1发布
Release Notes - Apache Hudi - Version 0.12.1 Sub-task [HUDI-4488] - Improve S3 File listing efficiency Bug [HUDI-1275] - Incremental TImeline Syncing causes compaction to fail w...

肖钟城
  • 大数据技术栈
  • Hudi
大约 12 分钟
Apache Hudi数据湖存储格式介绍
总览 在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变得越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库是伴随着企业信息化发展起来的,从1990年 Inmon 提出数据仓库概念到今天,其架构经历了最初的经典数仓架构、离线数仓架构、Lambda 架构、Kappa 架构、混合架构、实时数仓以及数据湖。 ...

肖钟城
  • 大数据技术栈
  • Hudi
大约 6 分钟
hudi cli savepoint与rollback使用指南(表数据回滚)
hudi-cli是hudi官方提供的以spring shell为基础构建的、操作hudi表的命令行工具。 hudi-cli内的命令以spark为引擎进行配置执行。具体可以参考hudi-cli代码。 savepoint和rollback是hudi cli提供的hudi表快照与回滚方法,通过hudi cli命令行可快速实现。 当我们编译完hudi时,进入h...

肖钟城
  • 大数据技术栈
  • Hudi
大约 2 分钟
Spark SQL操作HUDI表实践
HUDI表相关概念 表类型; cow; mor; 分区表/不分区表; 用户可以在Spark SQL中创建分区表和非分区表。要创建分区表,需要使用partitioned by语句指定分区列来创建分区表。当没有使用create table命令进行分区的by语句时,table被认为是一个未分区的表。 内部表和外部表; 一般情况下,Spark SQL支持两种表...

肖钟城
  • 大数据技术栈
  • Hudi
大约 7 分钟
Apache Kyuubi + Hudi在 T3 出行的深度实践
T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。如果能将平台的能力统合,并不断地优化和迭代,让用户能够通过 JDBC 和 SQL 这种最普遍最通用的技术来使用...

肖钟城
  • 大数据技术栈
  • Hudi
大约 9 分钟
字节跳动基于 Apache Hudi 的多流拼接实践
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实时场景下多流 JOIN 遇到的一系列问题。接下来,本文会详细介绍多流拼接方案的背景以及实践经验。 业务面临的挑战 字节跳动存在较多业务场景需要基于具有相同主键的多个数据源实时...

肖钟城
  • 大数据技术栈
  • Hudi
大约 9 分钟
Flink SQL Client实战CDC数据入湖
总览 本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。 与此同时,在将数据写入到hudi中时,同步进行查询。 组件版本与依赖 datafaker 0.6.3; mysql 5.7; zookeeper 3.6.3; kafk...

肖钟城
  • 大数据技术栈
  • Hudi
大约 6 分钟
spark-shell操作hudi并使用hbase作为索引
前言 接上一篇文章,上篇文章说到hudi适配hbase 2.2.6,这篇文章在spark-shell中操作hudi,并使用hbase作为索引。要完成以下实验,请先确保你已经按照文章步骤对hudi进行适配。并且得到了hudi-spark3-bundle_2.12-0.9.0.jar 当然,如果你想先做一个实验,那么可以从这里以下链接下载我已经编译好的ja...

肖钟城
  • 大数据技术栈
  • Hudi
大约 4 分钟
hudi 0.9.0适配hbase 2.2.6
总览 在hudi中,hbase可以作为索引数据的存储,hudi默认使用的hbase版本为1.2.3。 在hbase从1.x升级到2.x之后,其api发生了较大的变化,直接修改hudi中hbase的版本是不合适的,即会发生编译错误。 本文对部分源码进行修改以使hbase 2.2.6适配hudi 0.9.0 编译报错 如果我们直接修改hbase的版本为2....

肖钟城
  • 大数据技术栈
  • Hudi
大约 5 分钟
hudi数据查询总览
基本概述 从概念上讲,一旦Hudi在DFS上物理地存储数据,那么可以同时提供3种不同的查询方式。一旦表被同步到Hive metastore,那么它提供了由Hudi的自定义输入格式支持的外部Hive表。一旦安装了合适的hudi bundle,就可以通过Hive、Spark SQL、Spark Datasource API和PrestoDB等流行的查询引擎...

肖钟城
  • 大数据技术栈
  • Hudi
大约 2 分钟
使用presto查询同步到hive的hudi数据
温馨提示 要完成如下任务,请确保已经使用其他方法将hudi数据同步到hive中。 如果没有同步hive数据,可参考文章:使用flink SQL Client将mysql数据写入到hudi并同步到hive (use-flink-to-transport-data-from-mysql-to-hudi-and-hive.md)。并且,以下内容中的prest...

肖钟城
  • 大数据技术栈
  • Hudi
大约 3 分钟
使用prometheus监控hudi相关指标
前提 首先请安装好prometheus、pushgateway以及grafana,如果还没安装请参考: Prometheus与pushGateway安装与使用 (../../../tools/software/prometheus-and-pushgateway-install.md); Grafana安装指南 (../../../tools/soft...

肖钟城
  • 大数据技术栈
  • Hudi
大约 2 分钟
Zeppelin结合Flink查询hudi数据
关于Zeppelin Zeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。 Zeppelin支持多种语言后端,Apache Zeppelin 解释器允许将任何语言/数据处理后端插入 Zeppelin。 目前 Apache Zeppelin 支持 A...

肖钟城
  • 大数据技术栈
  • Hudi
大约 3 分钟
Apache Hudi meets Apache Flink
Apache Hudi (Hudi for short) is a data lake framework created at Uber. Hudi joined the Apache incubator for incubation in January 2019, and was promoted to the top Apache projec...

肖钟城
  • 大数据技术栈
  • Hudi
大约 7 分钟
Hudi异步Clustering 🌊
在之前的一篇博客 (hudi-clustering.md)文章中,我们引入了一种新的名为clustering的表服务,它可以重组数据,从而在不影响写入速度的情况下提高查询性能。 我们学习了如何设置inline clustering。 在这篇文章中,我们将讨论自那以后发生的变化,并看看如何使用HoodieClusteringJob和DeltaStream...

肖钟城
  • 大数据技术栈
  • Hudi
大约 6 分钟
flink写入数据到hudi的四种方式
总览 bulk_insert 用于快速导入快照数据到hudi。 基本特性 bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要保证数据的唯一性。 bulk_insert在批量写入模式中是更加有效率的。默认情况下,批量执行模式按照分区路径对输入记录进行排序,并将这些记录写入Hudi,该方式可以避免频繁...

肖钟城
  • 大数据技术栈
  • Hudi
大约 7 分钟
Hudi: Hadoop上的增量处理框架
温馨提示 本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing Framework on Apache Hadoop》,随着Hudi的发展其架构发生了变化,但是对于了解Hudi的起源和演变还是非常有帮助的! 随着ApacheParque...

肖钟城
  • 大数据技术栈
  • Hudi
大约 11 分钟
2
3