Hive- 大数据仓库Hive

牛肉丸没牛肉

什么是 Hive？

Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。

构建在Hadoop之上的数据仓库：

使用 HQL 作为查询接口

使用 HDFS 存储

使用 MapReduce 计算

本质是：将 HQL 转化成 MapReduce 程序

Hive架构

用户接口:Client

CLI（hive shell）、JDBC/ODBC（Java访问hive），WEBUI（浏览器访问hive）

元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

默认存储在自带的derby数据库中，推荐采用MySQL存储Metastore

Hadoop

使用HDFS进行存储，使用MapReduce进行计算

驱动器：Driver

包含：解析器、编译器、优化器、执行器

解析器：将SQL字符串转换成抽象语法AST，这一步地般用第三方工具完成，比如antlr，对AST进行语法分析，比如表是否存在、字段是否存在、主义是否有误（比如select 中被判定为聚合的字段在group by中是否出现）

编译器：将AST编译生成逻辑执行计划

优化器：对逻辑执行语计划进行优化

执行器:把逻辑执行计划转换成可以运行的物理计划。对于Hive 来说，就是MR/TEZ/Spark

Hive的使用场景

数据的离线处理：比如：日志分析，海量结构化数据离线分析…

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合

Hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高

Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。

{{userData.name}}已认证

Hive- 大数据仓库Hive

什么是 Hive？

Hive架构

Hive的使用场景

Hadoop- DistCp(分布式拷贝)

Hive- Hive 的基本操作

《世界金融史泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

{{userData.name}}已认证

什么是 Hive？

Hive架构

Hive的使用场景

推荐阅读:

Hadoop- DistCp(分布式拷贝)

Hive- Hive 的基本操作

Hive- Hive安装

Hive- Hive Web Interface

Hive- Hive 的基本操作

Hive- 表

《世界金融史 泡沫、战争与股票市场》

《会计简史：从结绳记事到信息化》

《千年金融史——金融如何塑造文明，从5000年前到21世纪》

《数字货币新论》

读懂Libra

《基于Python的金融分析与风险管理》

《世界金融史泡沫、战争与股票市场》