【地面控制源码】【so逆向出源码】【php后端云源码】hive mapreduce源码-皮皮网

【地面控制源码】【so逆向出源码】【php后端云源码】hive mapreduce源码

2024-11-27 20:26:04 来源：react调度器源码

1.Hive底层原理：explain执行计划详解
2.Hive最终都会转化成什么程序来执行？
3.7.11、Hive 元数据表结构详解
4.Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç

hive mapreduce源码

Hive底层原理：explain执行计划详解

理解 Hive 中的 EXPLAIN 命令对于优化查询和理解底层逻辑至关重要。EXPLAIN 命令能展示一个查询的执行计划，对于调优、排查数据倾斜等任务很有帮助。

使用语法为：`EXPLAIN [参数] 查询语句`。地面控制源码常见参数有但不限于：

查看一个 Hive 查询转换为的执行计划，包含由一个或多个 stage 组成的序列，这些 stage 可以是 MapReduce、元数据存储或文件系统操作。

执行计划由两部分组成：stage dependencies 和 stage plan。stage dependencies 展示了查询中各个 stage 之间的依赖关系。stage plan 展示了每个 stage 的执行流程，如 MapReduce 的执行计划分为多个操作，包括：

Select Operator：选取操作，例如：GROUP BY、JOIN、so逆向出源码FILTER 等。

Group By Operator：分组聚合操作。

Reduce Output Operator：输出到 reduce 操作。

Filter Operator：过滤操作。

Map Join Operator：join 操作。

File Output Operator：文件输出操作。

Fetch Operator：客户端获取数据操作。

了解这些操作有助于解析和优化查询。

在生产实践中，EXPLAIN 命令能解决多种问题，如：

1. **过滤 null 值**：确认 join 语句是否自动过滤 null 值，例如：

`EXPLAIN SELECT * FROM table1 JOIN table2 ON table1.id = table2.id WHERE table1.id IS NOT NULL`。

查询结果中如出现 `predicate: id is not null` 表示会过滤 null 值。

2. **分组排序**：查看 group by 语句是否自动排序，例如：

`EXPLAIN SELECT id FROM table GROUP BY id`。

结果中 `keys: id (type: int)` 和 `sort order: +` 表示按 id 正序排序。php后端云源码

3. **比较查询性能**：评估不同 SQL 语句的执行效率，例如：

比较 `EXPLAIN SELECT * FROM table WHERE condition1;` 和 `EXPLAIN SELECT * FROM (SELECT * FROM table WHERE condition1) subquery;`。

结果表明，底层会自动优化，两条语句执行效率相同。

EXPLAIN 还能用于查看 stage 依赖情况、排查数据倾斜和调优等。通过实践和探索，用户能更深入地理解 Hive 查询执行流程和优化策略。

Hive最终都会转化成什么程序来执行？

hive最终都会转化为mapreduce的job来运行。

用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是 Cli，Cli 启动的时候，会同时启动一个 hive 副本。Client 是全套指标公式源码 hive 的客户端，用户连接至 hive Server。

在启动 Client 模式的时候，需要指出 hive Server 所在节点，并且在该节点启动 hive Server。 WUI 是通过浏览器访问 hive。

扩展资料：

hive 并不适合那些需要高实时性的应用，例如，联机事务处理（OLTP）。hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，hive 将用户的hiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上。

Hadoop 监控作业执行过程，然后返回作业执行结果给用户。hive 并非为联机事务处理而设计，hive 并不提供实时的查询和基于行级的数据更新操作。hive 的最佳使用场合是大数据集的批处理作业，例如，信息发布app 源码网络日志分析。

百度百科-hive

7.、Hive 元数据表结构详解

Hive维护一套元数据，支持通过HQL查询时将HQL翻译为MapReduce执行。本文详解Hive元数据中关键表结构及其用途，以Hive 0.为例。

版本表（VERSION）

该表记录Hive版本信息，包含版本ID、版本号和版本说明，确保系统正确初始化。

版本ID：主键

版本号：Hive版本

版本说明：版本描述

版本表存在问题时，Hive-Cli无法启动，若表不存在，启动Hive-Cli将报错“Table ‘hive.version’ doesn’t exist”。

数据库元数据表（DBS、DATABASE_PARAMS）

DBS

存储数据库基本信息，如数据库ID、描述、HDFS路径、名称和所有者等。

数据库ID：主键

描述：数据库说明

HDFS路径：数据库在HDFS的存储位置

名称：数据库名

所有者：数据库所有者用户名

所有者角色：所有者角色

DATABASE_PARAMS

存储数据库参数，如创建用户等，关联数据库ID。

数据库ID：主键

参数名：指定参数

参数值：参数值

表和视图元数据表（TBLS、TABLE_PARAMS、TBL_PRIVS）

TBLS

存储表、视图、索引的基本信息，包括创建时间、数据库ID、上次访问时间、所有者、保留字段等。

TABLE_PARAMS

存储表/视图属性信息，关联表ID。

TBL_PRIVS

存储表/视图授权信息，关联表ID。

Hive文件存储信息元数据表（SDS、SD_PARAMS、SERDES、SERDE_PARAMS）

SDS

保存文件存储信息，如输入格式、输出格式、是否压缩等，关联表ID。

SD_PARAMS

存储存储属性信息，关联存储配置ID。

SERDES

存储序列化类信息。

SERDE_PARAMS

存储序列化属性、格式信息，关联序列化类配置ID。

表字段元数据表（COLUMNS_V2）

存储表字段信息，如字段ID、注释、名称、类型、顺序等。

表分区元数据表（PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS）

PARTITIONS

存储表分区基本信息，如分区ID、创建时间、分区名、存储ID、表ID等。

PARTITION_KEYS

存储分区字段信息，如表ID、字段说明、字段名、类型、顺序等。

PARTITION_KEY_VALS

存储分区字段值，如分区ID、字段值、顺序等。

PARTITION_PARAMS

存储分区属性信息。

其他元数据表

包括数据库权限（DB_PRIVS）、索引（IDXS）、索引属性（INDEX_PARAMS）、表字段统计（TAB_COL_STATS）、表字段授权（TBL_COL_PRIVS）、分区统计（PART_COL_STATS）、分区字段权限（PART_COL_PRIVS）以及用户函数（FUNCS、FUNC_RU）等。

实例操作：

查询表ID：根据dbName和tableName查找s.CD_ID。

查询表字段：根据CD_ID查询字段信息。

表操作（增、改、删）：新增、修改、删除表字段。

参考资料：

Hive的元数据表结构详解

Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç

Hiveä¸çå¸¸ç¨ç®ååæ¬distinctãjoinãgroup byãorder byãdistribute byãsort byãcountçï¼è¿äºæä½ç¬¦å¨SQLä¸ä½¿ç¨èµ·æ¥å¾æ¹ä¾¿ï¼è½å¿«éè¾¾å°æä»¬æ³è¦çææï¼ä½æ¯è¿äºç®åå¨åºå±æ¯æä¹å®ç°çå¢ï¼

order byå¾å®¹ææ³å°æ§è¡åçï¼å¨ä¸ä¸ªreduceä¸å°ææè®°å½æå¼æåºå³å¯ãå æ¤order byå¨æ°æ®éå¤§çæåµä¸æ§è¡æ¶é´éå¸¸é¿ï¼å®¹æout of memoryï¼éç¹æ®ä¸å¡éæ±ä¸è¬ä¸ä½¿ç¨ãdistribute byä¹æ¯è¾ææ¾ï¼æ ¹æ®hashå¼å°distributeçå¼ååå°ä¸åçreduceãsort byæ¯å°å·çorder byï¼åªè´è´£å°æ¬reducerä¸çå¼æåºï¼è¾¾å°å±é¨æåºçææãsort byådistribute byéåä½¿ç¨é£å³æ´ä½³ï¼äºèå¯ä»¥åå¹¶ç®åä¸ºcluster byãcountåæ´å ææ°ï¼å¨combineræreducerå¤æç¸åé®ç´¯å å¼å°±è½å¾å°ã

æ¯è¾å¤æçæ¯distinctãjoinãgroup byï¼æ¬æéç¹è®¨è®ºè¿ä¸ä¸ªç®åå¨MapReduceå¼æä¸çå¤§è´å®ç°åçãçé¨å¼æ§ï¼æç å¼çã

å¯¹group byçè¿ç¨è®²è§£çæ¯è¾æ¸æ¥çæ¯è¿ç¯æç« /info-detail-.html å¾æå¹¶èï¼å¾çå¨ã

å®ä¾å¦ä¸å¾ï¼å¯¹åºè¯å¥æ¯ select rank, isonline, count(*) from city group by rank, isonline;

ï¼1ï¼set hive.map.aggr=trueï¼å³å¼å¯mapç«¯çcombinerï¼åå°ä¼ å°reducerçæ°æ®éï¼åæ¶éè®¾ç½®åæ°hive.groupby.mapaggr.checkinterval è§å®å¨ map ç«¯è¿è¡èåæä½çæ¡ç®æ°ç®ã

ï¼2ï¼è®¾ç½®mapred.reduce.tasksä¸ºè¾å¤§æ°éï¼éä½æ¯ä¸ªreducerå¤ççæ°æ®éã

ï¼3ï¼set hive.groupby.skewindata=trueï¼è¯¥åæ°å¯èªå¨è¿è¡è´è½½åè¡¡ãçæçæ¥è¯¢è®¡åä¼æä¸¤ä¸ª MR Jobãç¬¬ä¸ä¸ª MR Job ä¸ï¼Map çè¾åºç»æéåä¼éæºåå¸å°Reduce ä¸ï¼æ¯ä¸ª Reduce åé¨åèåæä½ï¼å¹¶è¾åºç»æï¼è¿æ ·å¤ççç»ææ¯ç¸åç Group By Keyæå¯è½è¢«ååå°ä¸åç Reduce ä¸ï¼ä»èè¾¾å°è´è½½åè¡¡çç®çï¼ç¬¬äºä¸ª MR Job åæ ¹æ®é¢å¤ççæ°æ®ç»ææç§ Group ByKey åå¸å° Reduce ä¸ï¼è¿ä¸ªè¿ç¨å¯ä»¥ä¿è¯ç¸åç Group By Key è¢«åå¸å°åä¸ä¸ª Reduceä¸ï¼ï¼æåå®ææç»çèåæä½ã

Hiveä¸æä¸¤ç§joinæ¹å¼ï¼map joinåcommon join

å¦æä¸æ¾å¼æå®map side joinï¼æèæ²¡æè¾¾å°è§¦åèªå¨map joinçæ¡ä»¶ï¼é£ä¹ä¼è¿è¡reduceç«¯çjoinï¼å³common joinï¼è¿ç§joinåå«mapãshuffleãreduceä¸ä¸ªæ¥éª¤ã

ï¼1ï¼Mapé¶æ®µ

ï¼2ï¼Shuffleé¶æ®µ

æ ¹æ®keyçå¼è¿è¡hash,å¹¶å°key/valueæç§hashå¼æ¨éè³ä¸åçreduceä¸ï¼è¿æ ·ç¡®ä¿ä¸¤ä¸ªè¡¨ä¸ç¸åçkeyä½äºåä¸ä¸ªreduceä¸

ï¼3ï¼Reduceé¶æ®µ

SELECT u.name, o.orderid FROM user u JOIN order o ON u.uid = o.uid;

Hive0.7ä¹åï¼éè¦ä½¿ç¨hintæç¤º /*+ mapjoin(table) */æä¼æ§è¡MapJoin,å¦åæ§è¡Common Joinï¼ä½å¨0.7çæ¬ä¹åï¼é»è®¤èªå¨ä¼è½¬æ¢Map Joinï¼ç±åæ° hive.auto.convert.join æ¥æ§å¶ï¼é»è®¤ä¸ºtrueã

distinctä¸è¬ågroup byåæ¶åºç°ã