构建大数据知识体系

hudi
apache hudi从入门到进阶
flink
apache flink指南
Spark RDD编程指南
前言 在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),它是跨集群节点分区的元素集合,可以并行操作。 RDD 是通过从 Hadoop 文件系统(或任何其他 Hadoop 支持的文件系统)中的文件或驱动程序中现有的 Scala 集合...

肖钟城
  • 大数据技术栈
  • Spark
大约 31 分钟
Alluxio监控系统
指标提供了对集群中正在发生的事情的洞察力。 它们是用于监视和调试的宝贵资源。 Alluxio 有一个基于 Coda Hale 指标库的可配置指标系统。 在度量系统中,源生成度量,汇使用这些度量。 度量系统定期轮询源并将度量记录传递给接收器。 Alluxio 的指标被划分为对应于 Alluxio 组件的不同实例。 在每个实例中,用户可以配置一组向其报告指...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 7 分钟
Alluxio性能调优
本文档介绍了各种调优 Alluxio 性能的技巧和配置。 常见性能问题 以下是在调整性能时用于解决常见问题的清单: 所有节点都在工作吗? 检查 Alluxio 集群是否健康。 您可以在 http://\:19999 检查 web 用户界面,看看是否可以从浏览器访问 master。 类似地,可以通过单击 Alluxio master UI 的“worke...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 17 分钟
Alluxio on K8s使用MinIO作为底层存储
k8s部署MinIO 使用30013端口进入minio, 1. 创建alluxio桶以及新建alluxio-root目录 2. 创建access key 下载alluxio helm chart与修改配置 alluxio helm chart修改properties配置,新增 也就是: 除此之外,还需要修改storageClass等配置,可参考文章。 ...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 1 分钟
hudi 0.13.0版本发布
Apache Hudi 0.13.0引入了一系列新特性,包括Metaserver (https://hudi.apache.org/releases/release-0.13.0/#metaserver), Change Data Capture (https://hudi.apache.org/releases/release-0.13.0/#cha...

肖钟城
  • 大数据技术栈
  • Hudi
大约 19 分钟
docker 中的 Java:您必须知道的不失败的知识
许多开发人员都(或应该)意识到,当我们让 JVM 设置垃圾收集器、堆大小和运行时编译器的默认值时,在 Linux 容器(docker、rkt、runC、lxcfs 等)中运行的 Java 进程不会按预期运行。 当我们执行一个没有任何调优参数的Java应用程序时,如“java -jar mypplication-fat.jar”,JVM会自行调整几个参数...

肖钟城
  • Java基础
  • Java实现
大约 8 分钟
Alluxio核心功能之缓存
Alluxio存储概述 本文档的目的是向用户介绍Alluxio存储和 在Alluxio存储空间中可以执行的操作背后的概念。 与元数据相关的操作 例如同步和名称空间,请参阅 有关命名空间管理的页面 (https://docs.alluxio.io/os/user/stable/cn/core-services/Unified-Namespace.html...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 20 分钟
Alluxio核心功能之统一命名空间
本页总结了如何在Alluxio文件系统名称空间中管理不同的底层存储系统。 介绍 Alluxio通过使用透明的命名机制和挂载API来实现有效的跨不同底层存储系统的数据管理。 统一命名空间 Alluxio提供的主要好处之一是为应用程序提供统一命名空间。 通过统一命名空间的抽象,应用程序可以通过统一命名空间和接口来访问多个独立的存储系统。 与其与每个独立的存...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 15 分钟
Alluxio系统架构
架构概览 Alluxio作为大数据和机器学习生态系统中的新增数据访问层,可位于任何持久化存储系统(如Amazon S3、Microsoft Azure 对象存储、Apache HDFS或OpenStack Swift)和计算框架(如Apache Spark、Presto或Hadoop MapReduce)之间,但是Alluxio本身并非持久化存储系统。...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 14 分钟
作业服务器
架构概览 Alluxio 作业服务器是负责将各种不同类型的操作分配给Job Worker的任务调度框架。 Master负责将作业分配为更小的任务,供Job Worker执行并管理作业的完成状态。 Job Worker将来自Job Master的任务排列(queue),并通过管理可配置的固定线程池(alluxio.job.worker.threadpoo...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 2 分钟
Alluxio基本应用场景
世界上许多头部企业都在生产中部署Alluxio,以从数据中获取价值。我们在 Powered-By (https://www.alluxio.io/powered-by-alluxio) 页面中列出了部分企业。下面我们将介绍一些最常见的 Alluxio 应用场景。 应用场景1:加速云上分析和AI 作业 许多企业都在公有云(AWS S3、Google Cl...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 4 分钟
hdfs集群安装(单namenode和HA模式)
本方案配置cdh通过互信配置访问hdp集群。 1. 查看cdh的kdc配置文件信息: cat /var/kerberos/krb5kdc/kdc.conf 得到 找出supported_enctypes配置并记录下来。 2. 配置KDC之间的信任principal 基于上述的supported_enctypes,在两个集群的kdc注册中心分别执行以下命...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 1 分钟
Spark Shuffle 详解
定义 有些运算需要将各节点上的同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则汇集到一起的过程称为 Shuffle。 下面用一组图例说明什么时候需要 Shuffle —— 下图是 Spark Job 的依赖图: 将对应的 RDD 标注上去后: 对于这一过程,我们分析其中的 Shuffle: 这其中就涉及到 Shuffle 过程...

肖钟城
  • 大数据技术栈
  • Spark
大约 7 分钟
10分钟搞定Alluxio监控
总览 Alluxio 提供了一个全面的指标系统来监控 Alluxio 的 master、worker 和 client 的状态。 Alluxio 的指标系统支持各种指标,例如 嵌入式 JSON 接收器和 Prometheus 接收器。 用户和开发者可以通过实现 Sink 接口轻松地创建一个 Alluxio 的自定义 sink。 此外,Alluxio 在...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 7 分钟
Alluxio概览
什么是Alluxio Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术 (https://www.alluxio.io/blog/data-orchestration-the-missing-piece-in-the-data-world) 。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 5 分钟
Alluxio 提高 HDFS 集群性能和一致性
Alluxio 是世界上第一个内存速度的虚拟分布式存储系统,它连接了应用程序和底层存储系统,提供比现有解决方案快几个数量级的统一数据访问。 Hadoop分布式文件系统(HDFS)是一种用于存储大量数据的分布式文件系统。 HDFS 普及了将计算带入数据的范式以及位于同一位置的计算和存储架构。 在这篇博客中,我们重点介绍了 Alluxio 为与 HDFS ...

肖钟城
  • 大数据技术栈
  • Alluxio
大约 6 分钟
JavaCC命令行使用指南
您只需键入以下内容即可获得命令行语法的概要: 输出: 任何选项都可以在命令行上设置,如上所示,或在 JavaCC 语法中描述的语法文件中设置。 效果是完全一样的。 如果在命令行和语法文件中都设置了相同的选项,那么命令行中的选项设置优先。

肖钟城
  • 大数据技术栈
  • JavaCC
大约 1 分钟
JavaCC概览
Java Compiler Compiler(JavaCC)是用于 Java 应用程序的最流行的解析器生成器。 解析器生成器是一种读取语法规范并将其转换为可以识别与语法匹配的 Java 程序的工具。 除了解析器生成器本身之外,JavaCC 还提供与解析器生成相关的其他标准功能,例如树构建(通过 JavaCC 附带的名为 JJTree 的工具)、操作和调...

肖钟城
  • 大数据技术栈
  • JavaCC
大约 6 分钟
如何实现一个SQL解析器
一、背景 随着技术的不断的发展,在大数据领域出现了越来越多的技术框架。而为了降低大数据的学习成本和难度,越来越多的大数据技术和应用开始支持SQL进行数据查询。SQL作为一个学习成本很低的语言,支持SQL进行数据查询可以降低用户使用大数据的门槛,让更多的用户能够使用大数据。 本篇文章主要介绍如何实现一个SQL解析器来应用的业务当中,同时结合具体的案例来介...

肖钟城
  • 大数据技术栈
  • SQL
大约 43 分钟
如何编写一个yarn应用
本文档在高层次上描述了为 YARN 实现新应用程序的方法。 相关概念和流程 在应用的提交流程中,是应用客户端将应用提交到 YARN ResourceManager。这可以通过设置YarnClient来完成。YarnClient启动后,客户端可以设置应用程序环境,准备好包含应用程序的第一个容器ApplicationMaster(AM),然后提交申请。您需...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 14 分钟
2
3
4
5
...
13