高水位与LeaderEpoch

[toc] 前言 你可能听说过高水位,但不一定听说过Leader Epoch。前者是Kafka中非常重要的概念。而后者是0.11版本中新推出的。主要是为了...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

函数

[toc] 条件函数 assert_true(BOOLEAN condition) 解释 如果condition不为true,则抛出异常,否则返回null 使用案例 select assert_true(1<2) -- 返回null select assert_true(1>2) -- 抛出异常 coalesce(T v1, T v2, …) 解释 返回...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

基础语法

整体类型架构图(待替换) iterable类型架构图 def lazyFunc(x: Int, y: => Int) = 1 // 表示接受的是一个变量 // x 参数为传值(call by value), y 参数是传名称(call...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

简介及原理

[toc] 1. 前言 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark是用Scala程序设计语言 编写而成,运行于Java虚拟机(JVM...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

简述分区分配策略

[toc] 在kafka原理中介绍,kafka在消费组分配分区时,有两种算法: range 和 round-robin和Sticky(0.11.x版本),前两种都存...

创建: 2023-08-22 · 更新: 2024-10-13 · xkj  | 分类:   | 访问: 1

简述幂等性

[TOC] 一. 什么是幂等性? 幂等性其实是消息的一致性,分为生产者幂等性和消费者幂等性. 使用Kafka时,需要保证exactly-once语义。要知道...

创建: 2023-08-22 · 更新: 2024-10-19 · xkj  | 分类:   | 访问: 1

简述选举机制

[TOC] 前言 Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下两种情况之一时,需要进入Leader选...

创建: 2023-08-22 · 更新: 2024-10-11 · xkj  | 分类:   | 访问: 1

介绍及原理

1.hadoop: lucene (全文检索) –>Nutch(搜索引擎) GFS(谷歌文件系统) —>HDFS hadoop分布式文件系统 MapReduce(数据的处理...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

介绍及原理

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

介绍及原理

[toc] 1. 前言 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级...

创建: 2023-08-22 · 更新: 2023-11-08 · xkj  | 分类:   | 访问: 1

介绍及原理

[toc] 1.介绍 ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组...

创建: 2023-08-22 · 更新: 2024-10-13 · xkj  | 分类:   | 访问: 1

介绍与原理

[toc] 1. flume是什么? flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

注:Flume框架对hadoop和zookeeper的依赖只是在jar包上,并不要求flume启动时必须将hadoop和zookeeper服...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

hdfs namenode -format #第一次启动需要格式化namenode jps 可以查看java进程,以此来确定hadoop是否启动成功 sbin/start-dfs.sh # 启动hadoop分布式存储进程 启动...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

[toc] 1. 大纲 启动hbase服务: start-hbase.sh 停止hbase服务: stop-hbase.sh 启动shelll: hbase shell hbase shell命令 描述 alter 修改列族(column family)模式 count 统...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1