基于kcat将TPC-DS数据快速导入kafka集群
在大数据领域,TPC-DS是一个常用的基准测试框架。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及给定硬件、操作系统和数据处理系统配置在受控、复杂、多用户决策支持工作负载下的数据维护性能。 本文以centos 7机器为例,介绍如何使用kcat将TPC-DS生成的测试数据快速导入kafka集群。 TPC-DS下载与测试数据生成 ...

肖钟城
  • 大数据技术栈
  • Kafka
大约 3 分钟
centos7源码安装kafkacat
```bash yum install librdkafka-devel make gcc git clone https://github.com/edenhill/kcat cd kcat ./configure --prefix=/usr make make install ```

肖钟城
  • 大数据技术栈
  • Kafka
小于 1 分钟
kafka集群性能测试
生产者写入测试 向一个只有3个分区和3个副本的Topic主题perf-producer-test 中发送 100 万条消息,并且每条消息大小为 1024B 生产者,对应的 acks 参数为1 测试结果 消费者性能测试 测试结果 ```Bash start.time, end.time, data.consumed.in.MB, MB.sec, data...

肖钟城
  • 大数据技术栈
  • Kafka
大约 11 分钟
调整 Apache Kafka 集群规模以优化性能和成本的最佳实践
本文翻译自AWS博客文章,原文见参考文献,作者为Steffen Hausmann,AWS的首席流架构师。文章从多角度分析如何确定集群规模以最大化成本和性能效益,对于集群部署与应用调优等方面具有极大价值。 Apache Kafka 以其针对各种用例进行优化的性能和可调性而闻名。 但有时要找到既能满足您的特定性能要求又能最大限度地降低基础设施成本的正确基础...

肖钟城
  • 大数据技术栈
  • Kafka
大约 32 分钟
Kafka JMX配置账号密码访问
进入kafka安装目录,假如我的kafka安装路径为/home/xiaozhongcheng/kafka 新增账号密码文件 在/home/xiaozhongcheng/kafka目录下新增如下文件,并添加如下内容 jmxremote.access jmxremote.password 修改jmxremote.password文件权限为600 修改启动文...

肖钟城
  • 大数据技术栈
  • Kafka
小于 1 分钟
深入理解Kafka Consumer内部机制
本文为深入理解kafka producer/consumer系列文章,前面我们讲到《深入理解Kafka producer内部机制 (kafka-prodocuer-internal.md)》,本片则从Consumer角度深入理解Kafka Consumer内部机制。 Kafka Consumer 是一个从 Kafka 消费消息的客户端。 基本组件: C...

肖钟城
  • 大数据技术栈
  • Kafka
大约 5 分钟
深入理解Kafka Producer内部机制
总的来说,Kafka Producer是将数据发送到kafka集群的客户端。其组成部分如下图所示: 基本组件: Producer Metadata——管理生产者所需的元数据:集群中的主题和分区、充当分区领导者的代理节点等。; Partitioner——计算给定记录的分区。; Serializers——记录键和值序列化器。 序列化程序将对象转换为字节数组...

肖钟城
  • 大数据技术栈
  • Kafka
大约 4 分钟
Kafka基础与核心概念
本文,我们将试图回答什么是apache kafka。 kafka是一个分布式流平台或者分布式消息提交日志 分布式 Kafka 由一个或多个节点组成的工作集群,这些节点可以位于不同的数据中心,我们可以在 Kafka 集群的不同节点之间分布数据/负载,并且它天生具有可扩展性、可用性和容错性。 流平台 Kafka 将数据存储为可以用不同方法处理的连续记录流。...

肖钟城
  • 大数据技术栈
  • Kafka
大约 12 分钟
k8s快速部署kafka 3.3.1
在平常开发测试中,使用docker或者k8s快速部署某个组件会是一个不错的选择。kafka 3.3.1作为kraft第一个生产可用版本,本文介绍使用k8s快速部署基于kraft运行的kafka 3.3.1。 构建kafka镜像 首先我们要构建kafka 3.3.1镜像,简单地,我们只需要配置文件、启动脚本以及Dockerfile。 server.pro...

肖钟城
  • 大数据技术栈
  • Kafka
大约 7 分钟
kafka中为什么 ZooKeeper 被 KRaft 取代——所有日志的日志
为什么要用 Apache Kafka® 元数据管理的内部日志替换 ZooKeeper? 这篇文章探讨了替代背后的基本原理,研究了为什么使用像 Raft 这样的基于群体的共识协议并将其更改为 KRaft,并描述了构建在 KRaft 协议之上的新的群体控制器。 为什么替代Zookeeper 2012 年,开始实施当前现有的用于集群内复制的 Kafka 控制...

肖钟城
  • 大数据技术栈
  • Kafka
大约 19 分钟
kafka log4j日志级别修改
kafka的log4j日志默认配置中,有如下配置: 这有什么问题呢,虽然说我们用一天一次的滚动日志,但是我们配置的DataPattern为小时级别的,所以只要每个小时有日志生成,那么每个小时都会生成日志,简单来说就是一个小时一个。 这个对于我们日志记录和问题排查都不太方便,所以我们需要对其进行修改,修改为一天一次。 将上述配置修改为 也就是去掉-HH ...

肖钟城
  • 大数据技术栈
  • Kafka
大约 2 分钟
kafka中的Sticky分区方法
消息在系统中传输所需的时间对 Apache Kafka® 等分布式系统的性能起着重要作用。 在 Kafka 中,生产者的延迟通常定义为客户端生成的消息被 Kafka 确认所需的时间。 正如一句老话所说,时间就是金钱,为了让系统运行得更快,最好尽可能减少延迟。 当生产者能够更快地发送消息时,整个系统都会受益。 每个 Kafka 主题包含一个或多个分区。 ...

肖钟城
  • 大数据技术栈
  • Kafka
大约 8 分钟
构建kafka镜像进行开发测试
前言 平常在开发的时候经常需要使用某些软件协同进行功能调试,比如说,在做基于Flink CDC的时候,需要将数据从mysql binlog导入到kafka,然后再导入到hudi数据湖。 那么问题就来了,要做这么一件事情,我需要先起一个mysql,一个kafka,一个yarn集群、一个hdfs集群,让整体环境都运行起来了,我才能够使用Flink进行测试和...

肖钟城
  • 大数据技术栈
  • Kafka
大约 4 分钟
kafka集群硬件与操作系统部署建议
内存估算 您需要足够的内存来缓冲活动的读取器和写入器。 您可以通过假设您希望能够缓冲 30 秒并将您的内存需求计算为 write_throughput*30 来对内存需求进行粗略估计。 操作系统 Kafka 可以在任何 unix 系统上运行良好,并且已经在 Linux 和 Solaris 上进行了测试。 我们已经看到在 Windows 上运行的一些问题...

肖钟城
  • 大数据技术栈
  • Kafka
大约 10 分钟
kafka集群管理指南
本指南使用的工具为kafka/bin目录下相关脚本。 添加/删除topics 可以使用如下命令进行新增topics: 其中,—topic表示主题名称,—partitions表示分区数,—replication-factor表示副本数,—config表示主题配置,会覆盖默认的配置项。 可以使用下述命令删除topic: 修改topics配置 可以使用kaf...

肖钟城
  • 大数据技术栈
  • Kafka
大约 20 分钟
kafka-2.8.0单节点安装与启动
主机环境与依赖 操作系统:centos7 CPU架构:x86_64 软件依赖:jdk1.8以及zookeeper3.6.3 kafka下载与解压 配置文件修改 kafka启动 kafka停止 ```bash cd /data/kafka && bin/kafka-server-stop.sh -daemon config/server.properti...

肖钟城
  • 大数据技术栈
  • Kafka
小于 1 分钟
Presto on Kafka 在 Uber的应用
优步的目标是通过让世界运转来激发机遇,而大数据是其中非常重要的一部分。 Presto® 和 Apache Kafka® 在 Uber 的大数据堆栈中发挥着关键作用。 Presto 是查询联合的事实标准,已用于交互式查询、近实时数据分析和大规模数据分析。 Kafka 是支持许多用例的数据流的骨干,例如发布/订阅、流处理等。在接下来的文章中,我们将讨论我们...

肖钟城
  • 大数据技术栈
  • Kafka
大约 10 分钟
kafka架构之Producer、Consumer详解
Producer 负载均衡 生产者将数据直接发送到作为分区领导者的broker,而没有任何干预路由层。 为了帮助生产者做到这一点,所有 Kafka 节点都可以在任何给定时间回答有关哪些服务器处于活动状态以及主题分区的领导者在哪里的元数据请求,以允许生产者适当地引导其请求。 客户端控制将消息发布到哪个分区。 这可以随机完成,实现一种随机负载平衡,或者可以...

肖钟城
  • 大数据技术栈
  • Kafka
大约 9 分钟
kafka基础入门
Apache Kafka是一个事件流平台,其结合了三个关键的功能,使你可以完成端到端的事件流解决方案。 1. 发布(写)和订阅(读)事件流,包括从其他系统连续导入/导出数据。 2. 事件流存储具有持久性和可靠性。 3. 可以处理当前时刻或者以往的事件流。 所有这些功能都是以分布式、高度可伸缩、弹性、容错和安全的方式提供的。Kafka是一个分布式系统,由...

肖钟城
  • 大数据技术栈
  • Kafka
大约 6 分钟
kafka简介
概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。 主要应用场景是:日志收集系统和消息系统。 Kafka主要设计...

肖钟城
  • 大数据技术栈
  • Kafka
大约 11 分钟
2