spark_shuffle

[toc] 1. 介绍 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

SparkSQL

[toc] 1.前言: SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,但是Shark对H...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

SparkStreaming

[toc] 1.概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

sql优化

[toc] 1.少用count(distinct) count(distinct)是由一个reduce task来完成的,这一个reduce需要处理的数据...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

Storm与SparkStreaming

Spark Streaming与Storm的优劣分析 事实上,Spark Streaming绝对谈不上比Storm优秀。这两个框架在实时计算领域中,都很优...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

StructuredStreaming

[toc] 1. 介绍 Structured Streaming是Spark2.0版本提出的新的实时流框架(2.0和2.1是实验版本,从Spark2.2开始为稳定版本),相比于...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

YARN

[toc] 1.YARN 概述 YARN YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

1. 安装 解压即可,可配置单机和集群版,将配置后的文件夹发到 从机 即可. 说是集群版,不是flume自己配的,几乎所有配置在自己写的配置文件中,自己...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

[TOC] 来自 :https://www.aboutyun.com/forum.php?mod=viewthread&tid=20620 这节开始讲解集群搭建: 这儿选用的linux环境是CentOS-7.0-1406-x86_64-GnomeLive.iso GNOME桌...

创建: 2023-08-22 · 更新: 2024-09-04 · xkj  | 分类:   | 访问: 1

安装与配置

[toc] 一.Hive安装包下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到st...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

[toc] 注:配置环境时,$SPARK_HOME/sbin一定放在hadoop的sbin前面,因为这两个文件夹中都含有start-all.sh和st...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

一: 修改zoo.cfg配置: tickTime=2000 initLimit=5 syncLimit=2 dataDir=/opt/zookeeper/server1/data dataLogDir=/opt/zookeeper/server1/dataLog clientPort=2181 server.1=192.168.2.101:2888:3888 server.2=192.168.2.102:2889:3889 server.3=192.168.2.103:2890:3890 参数描述: tickTime:zookeeper中使用的基本时间单位, 毫秒值。 initLimit...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

错误合集

[toc] 1.Datanode denied communication with namenode because hostname cannot be resolved( nameNode找不到dateNode**)** 大意是nameNode找不到dateNode, 原因: 暂未知 其表现: 1....

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

搭建数仓

来源: https://mp.weixin.qq.com/s/PwnQl6uji85m7BGALmOVrw 数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

端口

组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.http.address http服务的端口 HDFS DataNode 50475 dfs.datanode.https.address https服务的端口 HDFS DataNode 50020 dfs.datanode.ipc.address ip...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1