如何编写一个yarn应用
本文档在高层次上描述了为 YARN 实现新应用程序的方法。 相关概念和流程 在应用的提交流程中,是应用客户端将应用提交到 YARN ResourceManager。这可以通过设置YarnClient来完成。YarnClient启动后,客户端可以设置应用程序环境,准备好包含应用程序的第一个容器ApplicationMaster(AM),然后提交申请。您需...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 14 分钟
Uber是如何在大规模集群中有效提高HDFS I/O利用率
以更低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。为了适应Uber数据存储和分析计算的指数级增长,数据基础设施团队通过重新架构软件层和硬件重新设计,对Apache Hadoop数据文件系统(HDFS)的扩展方法进行了大规模改革 HDFS 联合、温存储、YARN 在 HDFS 数据节点上的并置以及 YARN 利用率的提高提高了系...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 6 分钟
自定义分布式shell对应的ApplicationMaster
ResourceManager在container中启动ApplicationMaster,Applicationmaster第一件需要做的事就是向ResourceManager注册自己。注册信息包括ApplicationMaster提供给外部访问的端口,但是在这边的分布式shell中,没有设置该端口信息。 与此同时,ApplicationMaster...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 7 分钟
使用yarn实现分布式shell
代码地址:https://github.com/xiaozhch5/hadoop-yarn-applications-distributedshell.git (https://github.com/xiaozhch5/hadoop-yarn-applications-distributedshell.git) 总览 在运行和理解该应用之前你首先需要对...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 10 分钟
YARN基本架构
YARN 的基本思想是将资源管理和作业调度/监控的功能拆分为单独的守护进程。这个想法是有一个全局 ResourceManager ( RM ) 和每个应用程序 ApplicationMaster ( AM )。应用程序是单个作业或作业的 DAG。 ResourceManager 和 NodeManager 构成了数据计算框架。ResourceManag...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 3 分钟
hdfs集群安装(单namenode和HA模式)
单namenode节点 准备 文件下载: jdk-8u241-linux-x64.tar.gz hadoop-3.2.0.tar.gz 节点安排: hadoop1 → 从节点 hadoop2 → 主节点 首先确保hadoop1能够免密登录hadoop1以及hadoop2 将文件下载到/data目录下,并解压、建立软连接,最终状态如下: hadoop相关...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 3 分钟
hdfs配额管理
1. 创建测试目录 2. 设置创建的目录的名称配额 3. 查看目录配额信息 得到结果: 在上述结果中,各个结果的含义如下: (1) 表示文件数限额 (2) 表示可用文件数 (3) 表示空间限额大小(字节) (4) 表示可用空间大小(字节) (5) 表示目录数 (6) 表示文件数 (7) 表示总大小 (8) 表示文件、目录名 4. 设置创建的目录的空间配...

肖钟城
  • 大数据技术栈
  • Hadoop
小于 1 分钟
hdfs命令行基本操作指南
Hadoop包括各种shell类命令,它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。 此外,命令bin/hdfs dfs -help command-name可以显示命令的更详细的帮助。 这些命令支持大多数普通的文件系统操作,如复制文件、更改文件权限等。 它还支持...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 14 分钟
hadoop yarn安装
上篇文章讲到如何安装hdfs,那本文继续安装yarn。 如何安装hdfs (../hdfs/hdfs-cluster-install-single-namenode-ha.md) 修改mapred-site.xml,如下所示 修改yarn-site.xml,如下所示: /etc/profile新增 hadoop1和hadoop2两个节点配置完全相同。 ...

肖钟城
  • 大数据技术栈
  • Hadoop
大约 2 分钟