Hadoop生态圈

命令

create database [IF NOT EXISTS] userdb; 创建数据库 user userdb; 使用userdb数据库客户端的链接: Cli的方式 hive(jdbc方式) web方式 jdbc方式 hive --service hiveserver2 & //先后台运...

命令

注:使用spark时,需要开启HDFS,(如果运行在yarn上还需开YARN) 启动Spark: (hadoop这个命令不起作用了) start-all.sh 启动后主机...

命令

启动服务 : zkServer.sh start 打开客户端: zkCli.sh -server slave01:2181

数据倾斜

[toc] 1.什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了集群中的一台或者几台机器上计算，而集...

数据倾斜

[toc] 1.介绍,原理,原因见 hive中的数据倾斜 2. 解决方案 ++自定义分区++,这需要用户自己继承partition类,指定分区策略,这种方式效果...

通用

[toc] 1.假如我有 100亿条数据，但是我们的内存只有1M，但是我们磁盘很大我们现在要对这100亿条数据进行排序，是没法把所有的数据一次性的loa...

小文件

哪里会产生小文件 ? 源数据本身有很多小文件动态分区会产生大量小文件 reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件...

一张很牛逼的图

链接：https://www.zhihu.com/question/26568496/answer/224439650 a.组件蓝色部分:是H...

原理及介绍

[toc] 1.什么是hive 1. Hive 由 Facebook 实现并开源 2. 是基于 Hadoop 的一个数据仓库工具 3. 可以将结构化的数据映射为一张数据库表 4. 并提供 HQL(Hive SQL)查询功能 5. 底层数据...

自定义函数

[toc] 1. 介绍 Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min UDTF(User-Defined Table-Generating Functions) 一进多出，...

airflow

[TOC] 1. 简介 Airflow是一个可编程，调度和监控的工作流平台，基于有向无环图(DAG)，airflow可以定义一组有依赖的任务，按照依赖依次执...