您好,欢迎来到微智科技网。
搜索
您的当前位置:首页Hive优化_1. 数据文件优化篇

Hive优化_1. 数据文件优化篇

来源:微智科技网

之前转载了一篇<Hive - 数据仓库的性能优化>。博主总结的很不错。这里本人将自己平时积累的资料汇总了一下,来补充一下这篇文章:

针对方法上篇的优化方法1,2,3 主要建立在 Hive 触发了一个 MapReduce Job。但是我们都知道,启用 MapReduce Job 会消耗系统开销的(从我这篇博文  可以发现当使用 Like 关键词的时候效率比 CTAS 要快很多倍)。对于这个问题, Hive 从0.10.0 版本开始,对于简单的不需要聚合操作的语句将不会触发 MapReduce Job,直接通过 Fetch task 来获取数据。
详细信息可以参考:

1. 数据文件优化:

数据文件的优化包含了通过数据文件格式, 压缩,存储方式的选择来进行性能提升。

1.1 文件格式  -- 具体应用实例请参考: 

Hive 最新发布的 0.14.0 版本中支持TEXTFILESEQUENCEFILERCFILEORCPARQUET 和 Avro文件格式。我们可以通过以下方法来指定文件的格式:

  • CREATE TABLE ... STORE AS <File_Format>
  • ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT <File_Format>
  • SET hive.default.fileformat = <File_Format> --设置表的默认文件格式

在这里,<File_Type> 可以是 TEXTFILESEQUENCEFILERCFILEORCPARQUET 或者 Avro 类型.
我们可以通过 TEXTFILE 格式将 text 文件直接加载到一张表中。如果要往表中加载其他格式的数据,我们需要将数据先加载成 TEXTFILE 格式的表,之后再使用  INSERT OVERWRITE TABLE <target_file_format_table> SELECT * FROM <text_format_source_table> 语句进行转换,将期望的数据格式加载到表中。

Hive 支持如下数据格式,它们的优化如下所示:

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务