hive的分区表设计

前言

用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。

分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。
Hive分区分为静态分区和动态分区

1、建表语句

先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句是一样的。

create table test_partition (
id string comment 'ID', 
name string comment '名字'
)
comment '测试分区'
partitioned by (year int comment '')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

2、插入语句

静态分区和动态分区的插入数据的语句是不一样的,所以分开

2.1 静态分区

静态分区是在语句中指定分区字段为某个固定值,多次重复插入数据是为了看看数据如何在hdfs上存储的。

2.1.1 insert into

insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('002','李四');
2.1.2 load data

data.txt

002,李四
003,王五
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2017);

2.1.3 查询及结果

 
image

2.1.4 hdfs存储形式

 
image

分区2018的路径为

/apps/hive/warehouse/dkl.db/test_partition/year=2018
  • /apps/hive/warehouse 为hive的仓库路径
  • dkl.db dkl为数据库名称
  • test_partition为表名
  • year为分区字段名

2.2 动态分区

2.2.1 insert into

set hive.optimize.sort.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

insert into table test_partition partition(year) values ('001','张三',2016); 

2.2.2 load data

不能使用load data进行动态分区插入
data.txt

002,李四,2015
003,王五,2014
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);

报错:hive> load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);
FAILED: NullPointerException null
 

可以使用另一种方法解决

首先创建没有分区的表

create table test (
id string comment 'ID', 
name string comment '名字',
year int comment ''
)
comment '测试'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

先将数据load进test表

load data local inpath '/root/dkl/data/data.txt' into table test;

然后从表test,动态分区插入test_partition中

insert into table test_partition partition(year)  select * from test;

如果后面select具体字段的话,需要保证顺序一致,把分区字段放在最后。

insert into table test_partition partition(year)  select id,name,year from test;

3、查看分区信息

show  partitions test_partition;
hive> show  partitions test_partition;
OK
year=2017
year=2018
Time taken: 0.719 seconds, Fetched: 2 row(s)

 

4、添加分区字段

查了一下,不能添加新的分区字段

4.1 添加新分区

alter table test_partition add  partition (year=2012);

这样就会新建对应的hdfs路径下一个year=2012的文件夹

当然也可以指定localtion,这样就不会在默认的路径下建立文件夹了

alter table test_partition add  partition (year=2010) location '/tmp/dkl';

这样如果/tmp/dkl文件夹不存在的话就会新建文件夹,如果存在就会把该文件夹下的所有的文件加载到Hive表,有一点需要注意,如果删除该分区的话,对应的文件夹也会删掉,删除语法请参考后面的第6部分。

4.2 添加非分区字段

alter table test_partition add columns(age int);

这样新加的字段是在非分区字段的最后,在分区字段之前

不过这里有一个bug,就是往表里新插入数据后,新增的age字段查询全部显示为NULL(其实数据已经存在):

  • 新增加的分区是不存在这个bug的,比如之前没有year=2011这个分区,那么新增的话不会存在bug
  • 分区在添加age字段之前已存在(即使该分区下没有任何数据),bug存在
    解决方法:
    对已存在的分区执行下面的sql即可,以分区2018为例
alter table test_partition partition(year=2018) add columns(age int);

5、多个分区字段

以两个分区字段为例

5.1 建表

create table test_partition2 (
id string comment 'ID', 
name string comment '名字'
)
comment '测试两个分区'
partitioned by (year int comment '',month int comment '')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

5.2 HDFS存储格式

看一下多个分区的的表如何在HDFS上存储的,用静态分区的形式插入一条记录:

insert into table test_partition2 partition(year=2018,month=12) values ('001','张三');

/apps/hive/warehouse/dkl.db/test_partition2/year=2018/month=12
 
image

6、删除分区

只能删除某个分区,如删除分区2018,而不能删除整个分区year字段。

6.1 单分区表

alter table test_partition drop partition(year=2018);

6.2 多分区表

6.2.1 删除year=2018,month=12

alter table test_partition2 drop partition(year=2018,month=12);

6.2.2 删除year=2018

year=2018所有的月份都会删除

alter table test_partition2 drop partition(year=2018);

6.2.3 删除month=10

所有月份等于10的分区都会删除,无论year=2018,还是year=2017...

alter table test_partition2 drop partition(month=10);

 

 

版权声明:本文为maxiaoji原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/maxiaoji/article/details/106226804

智能推荐

Hibernate学习总结(一)

一、Hibernate简介 一个持久层的ORM框架。ORM:Object Relational Mapping(对象关系映射)。指的是将一个Java中的对象与关系型数据库中的表建立一种映射关系,从而操作对象就可以操作数据库中的表。 二、Hibernate入门 1、创建一个项目,引入jar包 hibernate用到的jar包 2、创建表 3、创建实体类 4、创建映射(*****) 映射需要通过XML...

Linux系统NFS

文章目录 1. nfs简介 1.1 nfs特点 1.2 使用nfs的好处 1.3 nfs的体系组成 1.4 nfs的应用场景 2. nfs工作机制 2.1 RPC 2.2 NIS 2.3 nfs工作机制 3. exports文件的格式 4. nfs管理 5. 作业 5.1手动搭建一个nfs服务器 5.1.1开放/nfs/shared目录,供所有用户查阅资料 5.1.2 开放/nfs/upload目...

关于java中String,StringBuffer,StringBuilder的区别以及StringBuffer,StringBuilder的安全性问题

这里的结果就是正确的然后我们来看他的append方法 它在前边加了一个synchronized来修饰,相当于同时只能有一个线程来访问他,这样就不会产生上边的问题但同时他的效率也就比StringBuilder低,...

Django连接现有mysql数据库

1、打开cmd后cd到项目位置 2、建立项目 django-admin startproject test2 3、编辑项目中的配置文件, mysite/settings.py ,告诉Django你的数据库连接参数和数据库名。具体的说,要提供 DATABASE_NAME , DATABASE_ENGINE , DATAB...

ShareSDK新浪微博登录时报错error:redirect_uri_mismatch

今天用 ShareSDK 做第三方登录的时候碰到个问题,明明在微博平台的应用审核已经通过了,但是调用登录接口的时候一直报错,错误如下: 出现这个错误是因为在微博开放平台上没有设置回调地址,或者设置的回调地址与本地XML中的地址不一致。 在sharesdk.xml文件当中对于微博的设置: 其中RedirectUrl为设置的回调地址,这里的地址必须要与微博开发平台设置的地址相同,否则就会出现上面的错误...

猜你喜欢

python解析网络封包方法

2019独角兽企业重金招聘Python工程师标准>>> 在使用Python解析网络数据包时,使用网络字节序解析,参见下表。 C语言的数据类型和Python的数据类型对照表请参见下表。 接下来对封包与解包进行举例说明。 version type id content unsigned short unsigned short unsigned int unsigned int 封包...

python3:时间方法,异常处理,系统文件相关模块(os)

文章目录 时间方法 time模块 时间表示方法: time模块的方法 datetime模块 异常处理 触发异常 创建mydiv.py脚本,要求如下: 创建myerror.py脚本,要求如下: os模块 实现ls -R(os.walk) os.path pickle模块 记账脚本 时间方法 time模块 时间表示方法: 时间戳:自1970-1-1 0:00:00到某一时间点之间的秒数 UTC时间:世...

负载均衡群集——LVS+DR模型

一、实验组成 调度器 192.168.100:41 web1 192.168.100:42 web2 192.168.100.43 NFS共享服务器 192.168.100.44 二、实验拓扑 三、实验配置 3.1在调度器配置:192.168.100.41 配置虚拟IP地址(VIP) 调整/proc响应参数 对于 DR 群集模式来说,由于 LVS 负载调度器和各节点需要共用 VIP 地址,应该关闭...

adb无线连接时appium找不到设备

问题描述 以前使用USB连接真机,运行appium时一直正常,连接参数如下: 最近为了方便,使用adb无线连接真机,adb版本为1.0.40,真机安卓版本10,连接后,通过adb devices能够查看到连接的设备: adb无线连接是正常的,但每次运行时appium都找不到无线连接的设备,陷入重启adb循环: 解决流程 1.因为是没找到设备,所以在appium连接参数中增加了"udid&...

Mybatis_CRUD(基于xml的增删改查操作)

dao IUserDao domain User QueryVo SqlMapConfig.xml com.itheima.dao IUserDao.xml com.itheima.test 执行原理图:...