sql优化

[toc] 1.少用count(distinct) count(distinct)是由一个reduce task来完成的,这一个reduce需要处理的数据...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

安装与配置

[toc] 一.Hive安装包下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到st...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

函数

[toc] 条件函数 assert_true(BOOLEAN condition) 解释 如果condition不为true,则抛出异常,否则返回null 使用案例 select assert_true(1<2) -- 返回null select assert_true(1>2) -- 抛出异常 coalesce(T v1, T v2, …) 解释 返回...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

命令

create database [IF NOT EXISTS] userdb; 创建数据库 user userdb; 使用userdb数据库 客户端的链接: Cli的方式 hive(jdbc方式) web方式 jdbc方式 hive --service hiveserver2 & //先后台运...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

数据倾斜

[toc] 1.什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几台机器上计算,而集...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

小文件

哪里会产生小文件 ? 源数据本身有很多小文件 动态分区会产生大量小文件 reduce个数越多, 小文件越多 按分区插入数据的时候会产生大量的小文件, 文件...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

原理及介绍

[toc] 1.什么是hive 1. Hive 由 Facebook 实现并开源 2. 是基于 Hadoop 的一个数据仓库工具 3. 可以将结构化的数据映射为一张数据库表 4. 并提供 HQL(Hive SQL)查询功能 5. 底层数据...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1

自定义函数

[toc] 1. 介绍 Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-Generating Functions) 一进多出,...

创建: 2023-08-22 · 更新: 2023-08-29 · xkj  | 分类:   | 访问: 1