Hadoop生态圈

StartRocks介绍及原理

介绍 StarRocks 是一款极速统一的Lakehouse产品，具备水平在线扩缩容，金融级高可用，兼容 MySQL 5.7 协议和 MySQL 生态，提供全面向量化引擎与多种数据源联邦查询...

equals 比较的是值 , 和java一样,利用hashcode()方法进行比较例如("he"+"llo") eq 比较...

Scribe是Facebook开源的分布式日志搜集系统，架构简单，日志格式灵活，且支持异步发送消息和队列对比项 Flume-NG Scribe 使用语言 Java c/c++ 容错性 Agen...

[toc] 1. 为何HBase速度很快？ HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的，即由LSM-Tree(Log-Struct...

[toc] 1.介绍一句话(官方):分布式存储系统HDFS( Hadoop Distributed File System)。其实就是一个文件系统，类似于linux的文件系统。有目录，目录下可以...

[toc] 1. Hive 的 sort by 和 order by 的区别 order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导...

（1）功能 Zeppelin和Hue都能提供一定的数据可视化的功能，都提供了多种图形化数据表示形式。单从这点来说，个人认为功能类似，大同小异，...

[toc] 1.Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着im...

[TOC] 1.kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成head...

[toc] 1.1. 目标本快速入门指南的目标是提供与KafkaStreams的第一个应用程序示例。我们将演示在你的第一个示例程序中，如果使用Kafka Str...

[TOC] 1.前言: 对于整个选举算法的详情需要先了解Raft选举算法，kafka是基于该算法来实现leader选举的。有兴趣的读者可以参考之前的文章...

[TOC] 1、Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题： a.我们想分析下用户行为（pagevie...

[toc] 注:kafka依赖zookeeper,所以启动kafka前需开启zookeeper,kafka依赖zookeeper来分发消息,并会在zo...

[toc] 1. RowKey的作用 1.1 介绍 Rowkey是每一行的主键,在每行的开头, 也是可以存储数据的,只是它具有索引的作用,一般不是存在业务数据,而是发...

[toc] 1. spark shuffle过程 spark中管理shuffle的过程有一个shuffleManage负责管理, 在spark 2.X 之后,主要负责的是sor...