[toc]

1. Hive 的 sort by 和 order by 的区别

order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

sort by不是全局排序，其在数据进入reducer前完成排序.

因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

2. Hbase 和 hive

有什么区别hive 与 hbase 的底层存储是什么？hive是产生的原因是什么？habase是为了弥补hadoop的什么缺陷？

答案

共同点：

　区别：

　　　6. hive借用hadoop的MapReduce来完成一些hive中的命令的执行

　　　7. hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。

　　　8. hbase是列存储。

　　　9. hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。

　　　10. hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

命令：

hive –service metastore 启动元数据

hive：本地运行hive命令

hiveserver2：远程服务，开放默认端口 10000

内部表：内部表删除表时，数据也会被删除，

外部表：外部表在创建时需要加external，删除表时，表中的数据仍然会存储在hadoop中，不会丢失

分区：分文件夹：分目录，把一个大的数据集根据业务需要分割成小的数据集

分桶：分数据：分桶是将数据集分解成更容易管理的若干部分

原文链接：https://blog.csdn.net/pingsha_luoyan/article/details/97750251

数据类型：

6个基本类型：整数，布尔类型，浮点数，字符，时间类型。字节数组

2个集合数据类型： struct，map，array