命令

create database [IF NOT EXISTS] userdb; 创建数据库 user userdb; 使用userdb数据库 客户端的链接: Cli的方式 hive(jdbc方式) web方式 jdbc方式 hive --service hiveserver2 & //先后台运...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

注:使用spark时,需要开启HDFS,(如果运行在yarn上还需开YARN) 启动Spark: (hadoop这个命令不起作用了) start-all.sh 启动后主机...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

启动服务 : zkServer.sh start 打开客户端: zkCli.sh -server slave01:2181

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

数据倾斜

[toc] 1.什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几台机器上计算,而集...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

数据倾斜

[toc] 1.介绍,原理,原因 见 hive中的数据倾斜 2. 解决方案 ++自定义分区++,这需要用户自己继承partition类,指定分区策略,这种方式效果...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

通用

[toc] 1.假如我有 100亿条数据,但是我们的内存只有1M,但是我们磁盘很大 我们现在要对这100亿条数据进行排序,是没法把所有的数据一次性的loa...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

小文件

哪里会产生小文件 ? 源数据本身有很多小文件 动态分区会产生大量小文件 reduce个数越多, 小文件越多 按分区插入数据的时候会产生大量的小文件, 文件...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

一张很牛逼的图

链接:https://www.zhihu.com/question/26568496/answer/224439650 a.组件 蓝色部分:是H...

创建: 2023-08-22 · 更新: 2024-10-11 · xkj  | 分类:   | 访问: 1

原理及介绍

[toc] 1.什么是hive 1. Hive 由 Facebook 实现并开源 2. 是基于 Hadoop 的一个数据仓库工具 3. 可以将结构化的数据映射为一张数据库表 4. 并提供 HQL(Hive SQL)查询功能 5. 底层数据...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

自定义函数

[toc] 1. 介绍 Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-Generating Functions) 一进多出,...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

airflow

[TOC] 1. 简介 Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执...

创建: 2022-08-22 · 更新: 2024-09-04 · xkj  | 分类:   | 访问: 1