Spark

spark_shuffle

[toc] 1. 介绍 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁...

[toc] 1.前言: SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，但是Shark对H...

[toc] 1.概述 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、...

Spark Streaming与Storm的优劣分析事实上，Spark Streaming绝对谈不上比Storm优秀。这两个框架在实时计算领域中，都很优...

[toc] 1. 介绍 Structured Streaming是Spark2.0版本提出的新的实时流框架（2.0和2.1是实验版本，从Spark2.2开始为稳定版本），相比于...

[toc] 注:配置环境时,$SPARK_HOME/sbin一定放在hadoop的sbin前面,因为这两个文件夹中都含有start-all.sh和st...

[toc] 1. 前言 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark是用Scala程序设计语言编写而成，运行于Java虚拟机（JVM...

注:使用spark时,需要开启HDFS,(如果运行在yarn上还需开YARN) 启动Spark: (hadoop这个命令不起作用了) start-all.sh 启动后主机...

[toc] 1.介绍,原理,原因见 hive中的数据倾斜 2. 解决方案 ++自定义分区++,这需要用户自己继承partition类,指定分区策略,这种方式效果...