hive安装与配置详解(hadoop集群安装hive)

扫码添加渲大师小管家，免费领取渲染插件、素材、模型、教程合集大礼包！

大家好，今天来介绍hive安装与配置详解的问题，以下是渲大师小编对此问题的归纳和整理，感兴趣的来一起看看吧！

hadoop分布式系统中怎么安装hive

Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在hadoop分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程，它提供了对外的入口来获取用户的指令然后对指令进行分析，解析出一个MapReduce程序组成可执行计划，并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理，获取最终的结果。元数据——如表模式——存储在名为metastore的数据库中。

系统环境

ip地址1hadoop-master
ip地址2 hadoop-slave
MySQL安装在master机器上，hive服务器也安装在master上

Hive下载

下载源码包，最新版本可自行去官网下载

[hadoop@hadoop-master~]$wgethive的下载地址
[hadoop@hadoop-master~]$tar-zxfapache-hive-1.2.1-bin.tar.gz
[hadoop@hadoop-master~]$ls
apache-hive-1.2.1-binapache-hive-1.2.1-bin.tar.gzdfshadoop-2.7.1Hsourcetmp12341234

配置环境变量

[root@hadoop-masterhadoop]#vi/etc/profile
HIVE_HOME=/home/hadoop/apache-hive-1.2.1-bin
PATH=$PATH:$HIVE_HOME/bin
exportHIVE_NAMEPATH

Metastore

metastore是hive元数据集中存放地。它包括两部分：服务和后台数据存储。有稿斗厅三种方式配置metastore：内嵌metastore、本地metastore以及远程metastore。
本次搭建中采用MySQL作为远程仓库，部署在hadoop-master节点上，hive服务端也安装在hive-master上，hive客户端即hadoop-slave访问hive服务器。

创建Hive用户

mysql>CREATEUSER'hive'IDENTIFIEDBY'hive';
mysql>GRANTALLPRIVILEGESON*.*TO'hive'@'hadoop-master'WITHGRANTOPTION;
mysql>flushprivileges;123123

Hive用户登录

[hadoop@hadoop-master~]mysql-hhadoop-master-uhive
mysql>setpassword=password('hive');1212

创建Hive数据库

mysql>createdatabasehive;

配置Hive

修改配置文件
进入到hive的配置文件目录下，找到hive-default.xml.template，cp份为hive-default.xml
另创建hive-site.xml并添销拿加参数

[hadoop@hadoop-masterconf]$pwd
/home/hadoop/apache-hive-1.2.1-bin/conf
[hadoop@hadoop-masterconf]$vihive-site.xml


javax.jdo.option.ConnectionURL
jdbc:mysql://hadoop-master:3306/hive?createDatabaseIfNotExist=true
JDBCconnectstringforaJDBCmetastore


javax.jdo.option.ConnectionDriverName
com.mysql.jdbc.Driver
DriverclassnameforaJDBCmetastore


javax.jdo.option.ConnectionUserName
hive
usernametouseagainstmetastoredatabase


javax.jdo.option.ConnectionPassword
hive
passwordtouseagainstmetastoredatabase

Hive客户端配置

[hadoop@hadoop-master~]$scp-rapache-hive-1.2.1-bin/hadoop@hadoop-slave:/home/hadoop
[hadoop@hadoop-slaveconf]$vihive-site.xml


hive.metastore.uris
thrift://hadoop-master:9083

Hive启动

要启动metastore服务

[hadoop@hadoop-master~]$hive--servicemetastore&
[hadoop@hadoop-master~]$jps
10288RunJar#多了一个进程
9365NameNode
9670SecondaryNameNode
11096Jps
9944NodeManager
9838ResourceManager
9471DataNode

Hive服务器端访问

[hadoop@hadoop-master~]$hive
Logginginitializedusingconfigurationinjar:file:/home/hadoop/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive>showdatabases;
OK
default
src
Timetaken:1.332seconds,Fetched:2row(s)
hive>usesrc;
OK
Timetaken:0.037seconds
hive>createtabletest1(idint);
OK
Timetaken:0.572seconds
hive>showtables;
OK
abc
test
test1
Timetaken:0.057seconds,Fetched:3row(s)
hive>

Hive客户端访问

[hadoop@hadoop-slaveconf]$hive
Logginginitializedusingconfigurationinjar:file:/home/hadoop/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive>showdatabases;
OK
default
src
Timetaken:1.022seconds,Fetched:2row(s)
hive>usesrc;
OK
Timetaken:0.057seconds
hive>showtables;
OK
abc
test
test1
Timetaken:0.218seconds,Fetched:3row(s)
hive>createtabletest2(idint,namestring);
OK
Timetaken:5.518seconds
hive>showtables;
OK
abc
test
test1
test2
Timetaken:0.102seconds,Fetched:4row(s)

hive安装与配置详解(hadoop集群安装hive)

Hive优化之Hive的配置参数优化

Hive是大数据领域常用的组件之一，主要用于大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的一个点，因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

1. 创建一个普通表

table test_user1(id int, name string,code string,code_id string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

2. 查看这张表的信息

DESCRIBE FORMATTED test_user1;

我们从该表的描述信息介绍建表时的一些可优化点。

2.1 表的文件数

numFiles表示表中含有的文件数，当文件数过多时可能意味着该表的小文件过多，这时候我们可以针对小文件的问题进行一些优化，HDFS本身提供了解决方案：

（首埋1）Hadoop Archive/HAR：将小文件打包成大文件。

（2）SEQUENCEFILE格式：将大量小文件压缩成一个SEQUENCEFILE文件。

（3）CombineFileInputFormat：在map和reduce处理之前组合小文件。

（4）HDFS Federation：HDFS联盟，使用多个namenode节点管理文件。

除此之外，我们还可以通过设置hive的参数来合并小文件。

（1）输入阶段合并

需要更改Hive的输入文件格式，即参数hive.input.format，默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat，逗芹历我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。这样比起上面对mapper数的调整，会多出两个参数，分别是mapred.min.split.size.per.node和mapred.min.split.size.per.rack，含义是单节点和单机架上的最小split大小。如果发现有split大小小于这两个值（默认都是100MB），则会进行合并。具体逻辑可以参看Hive源码中的对应类。

（2）输出阶段合并

直接山搜将hive.merge.mapfiles和hive.merge.mapredfiles都设为true即可，前者表示将map-only任务的输出合并，后者表示将map-reduce任务的输出合并，Hive会额外启动一个mr作业将输出的小文件合并成大文件。另外，hive.merge.size.per.task可以指定每个task输出后合并文件大小的期望值，hive.merge.size.smallfiles.avgsize可以指定所有输出文件大小的均值阈值，默认值都是1GB。如果平均大小不足的话，就会另外启动一个任务来进行合并。

2.2 表的存储格式

通过InputFormat和OutputFormat可以看出表的存储格式是TEXT类型，Hive支持TEXTFILE, SEQUENCEFILE, AVRO, RCFILE, ORC,以及PARQUET文件格式，可以通过两种方式指定表的文件格式：

（1）CREATE TABLE ... STORE AS :在建表时指定文件格式，默认是TEXTFILE

（2）ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT :修改具体表的文件格式

如果要改变创建表的默认文件格式，可以使用set

hive.default.fileformat=进行配置，适用于所有表。同时也可以使用set

hive.default.fileformat.managed = 进行配置，仅适用于内部表或外部表。

扩展：不同存储方式的情况

TEXT,

SEQUENCE和

AVRO文件是面向行的文件存储格式，不是最佳的文件格式，因为即便只查询一列数据，使用这些存储格式的表也需要读取完整的一行数据。另一方面，面向列的存储格式(RCFILE,

ORC, PARQUET)可以很好地解决上面的问题。关于每种文件格式的说明，如下：

（1）TEXTFILE

创建表时的默认文件格式，数据被存储成文本格式。文本文件可以被分割和并行处理，也可以使用压缩，比如GZip、LZO或者Snappy。然而大部分的压缩文件不支持分割和并行处理，会造成一个作业只有一个mapper去处理数据，使用压缩的文本文件要确保文件不要过大，一般接近两个HDFS块的大小。

（2）SEQUENCEFILE

key/value对的二进制存储格式，sequence文件的优势是比文本格式更好压缩，sequence文件可以被压缩成块级别的记录，块级别的压缩是一个很好的压缩比例。如果使用块压缩，需要使用下面的配置：set

hive.exec.compress.output=true; set io.seqfile.compression.type=BLOCK

（3）AVRO

二进制格式文件，除此之外，avro也是一个序列化和反序列化的框架。avro提供了具体的数据schema。

（4）RCFILE

全称是Record Columnar File，首先将表分为几个行组，对每个行组内的数据进行按列存储，每一列的数据都是分开存储，即先水平划分，再垂直划分。

（5）ORC

全称是Optimized Row Columnar，从hive0.11版本开始支持，ORC格式是RCFILE格式的一种优化的格式，提供了更大的默认块(256M)

（6）PARQUET

另外一种列式存储的文件格式，与ORC非常类似，与ORC相比，Parquet格式支持的生态更广，比如低版本的impala不支持ORC格式。

配置同样数据同样字段的两张表，以常见的TEXT行存储和ORC列存储两种存储方式为例，对比执行速度。

TEXT存储方式

总结：从上图中可以看出列存储在对指定列进行查询时，速度更快，建议在建表时设置列存储的存储方式。

2.3 表的压缩

对Hive表进行压缩是常见的优化手段，一些存储方式自带压缩选择，比如SEQUENCEFILE支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，一般建议使用BLOCK压缩；

ORC支持三种压缩选择：NONE，ZLIB，SNAPPY。我们以TEXT存储方式和ORC存储方式为例，查看表的压缩情况。

配置同样数据同样字段的四张表，一张TEXT存储方式，另外三张分别是默认压缩方式的ORC存储、SNAPPY压缩方式的ORC存储和NONE压缩方式的ORC存储，查看在hdfs上的存储情况：

TEXT存储方式

默认压缩ORC存储方式

SNAPPY压缩的ORC存储方式

NONE压缩的ORC存储方式

总结：可以看到ORC存储方式将数据存放为两个block，默认压缩大小加起来134.69M，SNAPPY压缩大小加起来196.67M，NONE压缩大小加起来247.55M，TEXT存储方式的文件大小为366.58M，且默认block两种存储方式分别为256M和128M，ORC默认的压缩方式比SNAPPY压缩得到的文件还小，原因是ORZ默认的ZLIB压缩方式采用的是deflate压缩算法，比Snappy压缩算法得到的压缩比高，压缩的文件更小。 ORC不同压缩方式之间的执行速度，经过多次测试发现三种压缩方式的执行速度差不多，所以建议采用ORC默认的存储方式进行存储数据。

2.4 分桶分区

Num Buckets表示桶的数量，我们可以通过分桶和分区操作对Hive表进行优化：

对于一张较大的表，可以将它设计成分区表，如果不设置成分区表，数据是全盘扫描的，设置成分区表后，查询时只在指定的分区中进行数据扫描，提升查询效率。要注意尽量避免多级分区，一般二级分区足够使用。常见的分区字段：

（1）日期或者时间，比如year、month、day或者hour，当表中存在时间或者日期字段时，可以使用些字段。

（2）地理位置，比如国家、省份、城市等

（3）业务逻辑，比如部门、销售区域、客户等等

与分区表类似，分桶表的组织方式是将HDFS上的一张大表文件分割成多个文件。分桶是相对分区进行更细粒度的划分，分桶将整个数据内容按照分桶字段属性值得hash值进行区分，分桶可以加快数据采样，也可以提升join的性能(join的字段是分桶字段)，因为分桶可以确保某个key对应的数据在一个特定的桶内(文件)，所以巧妙地选择分桶字段可以大幅度提升join的性能。通常情况下，分桶字段可以选择经常用在过滤操作或者join操作的字段。

创建分桶表

create

table test_user_bucket(id int, name string,code string,code_id string )

clustered by(id) into 3 buckets ROW FORMAT DELIMITED FIELDS TERMINATED

BY ',';

查看描述信息

DESCRIBE FORMATTED test_user_bucket

多出了如下信息

查看该表的hdfs

同样的数据查看普通表和分桶表查询效率

普通表

分桶表

普通表是全表扫描，分桶表在按照分桶字段的hash值分桶后，根据join字段或者where过滤字段在特定的桶中进行扫描，效率提升。

本文首发于：数栈研习社

数栈是云原生—站式数据中台PaaS，我们在github上有一个有趣的开源项目： FlinkX

FlinkX是一个基于Flink的批流统一的数据同步工具，既可以采集静态的数据，比如MySQL，HDFS等，也可以采集实时变化的数据，比如MySQL

binlog，Kafka等，是全域、异构、批流一体的数据同步引擎，大家如果有兴趣，欢迎来github社区找我们玩~

更多服务器知识文章推荐：

本文标题：hive安装与配置详解(hadoop集群安装hive)
本文地址：https://gpu.xuandashi.com/80744.html，转载请说明来源于：渲大师
声明：本站部分内容来自网络，如无特殊说明或标注，均为本站原创发布。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。分享目的仅供大家学习与参考，不代表本站立场！

渲大师博客

hive安装与配置详解(hadoop集群安装hive)

hadoop分布式系统中怎么安装hive

系统环境

Hive下载

配置环境变量

Metastore

创建Hive用户

Hive用户登录

创建Hive数据库

配置Hive

Hive客户端配置

Hive启动

Hive服务器端访问

Hive客户端访问

Hive优化之Hive的配置参数优化

发表评论取消回复

热门文章

联系方式

随机推荐

hadoop分布式系统中怎么安装hive

系统环境

Hive下载

配置环境变量

Metastore

创建Hive用户

Hive用户登录

创建Hive数据库

配置Hive

Hive客户端配置

Hive启动

Hive服务器端访问

Hive客户端访问

Hive优化之Hive的配置参数优化

相关推荐

mysql事务隔离级别有哪些

java分类查询功能怎么实现

sha1加密后是多少位( sha-1 播报的破解方法)

保留有效数字从哪位算起(25.6875保留2位有效数字应为)

发表评论 取消回复

随机推荐

发表评论取消回复