Hive分区表
标签: # Hive
一:简介
分区表就是根据指定字段的值进行分类、分组,字段值相同的分为一类然后存储在一个单独的HDFS文件中,多个类就存储在多个文件中。原本存储在一个文件中的数据现在存储在多个文件中,查询数据时只需要知道数据在哪个类别中然后直接去对应类对应的文件中去查询就好,这样只需扫描这一个类别的文件而不需要扫描所有文件,这样提高了查询效率。
分区表就是对文件进行水平分割,对数据分门别类的分开存储。
分区表有两种:
- 静态分区: 必须手动显式的添加需要分区的字段值, 分类的值有多少个就要添加多少次 (alter table add partition)。静态分区适合分区字段的值比较少的情况。
- 动态分区:创建表时只需指定要分区的字段名即可,不需要指定分区字段有哪些具体的值。动态分区适用于字段值相对比较多的情况。
二:静态分区
1. 创建表并通过partitioned by指定分区字段
分区字段和普通字段是一样的,需要指定 <字段名> <字段类型> [comment '字段注释']
,分区字段也会作为表的列。
hive> create database test;
hive> use test;
hive> create table tbl_user (id bigint,username string comment '用户名')
partitioned by (country string comment '国家', state string comment '地区')
row format delimited
fields terminated by ","
lines terminated by "\n"
stored as textfile;
查看表结构
hive> describe extended tbl_user;
hive> desc tbl_user;
创建表后HDFS:/data/hive/warehouse/test.db/
2. 添加分区
>hive alter table tbl_user add partition (country="China",state="Asia");
>hive alter table tbl_user add partition (country="Japan",state="Asia");
-- 显示分区
>hive show partitions tbl_user;
-- 删除分区
alter table tbl_user drop partition(country="China",state="Asia")
添加分区后hdfs中会有对应的分区目录,如果是多个分区则会具体再分出子目录。
3. 插入数据
echo "1,zhangsan,China,Asia\n2,lisi,China,Asia" > '/tmp/china.txt'
echo "3,wangwu,Japan,Asia\n4,liuliu,Japan,Asia" > '/tmp/japan.txt'
hive> load data local inpath '/tmp/china.txt' into table tbl_user partition (country = 'China', state= 'Asia');
hive> load data local inpath '/tmp/japan.txt' into table tbl_user partition (country = 'Japan', state= 'Asia');
-- 查询时使用分区字段作为条件加快查询速度
>hive select * from tbl_user where country='Japan';
三: 动态分区
动态分区默认是没有开启的,开启后默认是严格模式即至少有一个静态分区,也可以关闭严格模式。
1. 关闭严格分区模式
-- 非严格模式
hive> set hive.exec.dynamic.partition.mode=nonstrict;
-- 开启动态分区
hive> set hive.exec.dynamic.partition=true;
-- 最大动态分区数,默认1000
hive> set hive.exec.max.dynamic.partitions=99999;
2. 创建表
动态分区创建表和静态分区创建表是一样的,只需要指定需要分区的字段,分区字段可以是多个。
create table tbl_user_dy (id bigint,username string)
partitioned by (city string)
row format delimited
fields terminated by ","
lines terminated by "\n"
stored as textfile;
3. 插入数据
echo "1,zhangsan,shanghai\n2,lisi,beijing\n3,wangwu,shenzhen\n4,liuliu,shanghai" > '/tmp/user.txt'
注意:动态分区不能使用load data local inpath '/tmp/user.txt' into table tbl_user_dy partition(city);
进行加载数据, 否则会报FAILED: NullPointerException null
。解决办法是 先创建没有分区的表,将数据加载到没有分区的表,然后再将数据转移到动态分区表。
创建临时表不需要指定分区字段,将分区字段作为普通字段。
hive> create table tbl_user_tmp (id bigint,username string, city string)
row format delimited
fields terminated by ","
lines terminated by "\n"
stored as textfile;
-- 将数据加载到临时表中
hive> load data local inpath '/tmp/user.txt' into table tbl_user_tmp;
-- 将临时表中的数据插入到动态分区表中
hive> insert into table tbl_user_dy partition(city) select * from tbl_user_tmp;
自动分区会自动根据分区字段的值进行分区,这里根据城市city动态分区的,不需要手动显式添加分区值。
智能推荐
Linux系统NFS
文章目录 1. nfs简介 1.1 nfs特点 1.2 使用nfs的好处 1.3 nfs的体系组成 1.4 nfs的应用场景 2. nfs工作机制 2.1 RPC 2.2 NIS 2.3 nfs工作机制 3. exports文件的格式 4. nfs管理 5. 作业 5.1手动搭建一个nfs服务器 5.1.1开放/nfs/shared目录,供所有用户查阅资料 5.1.2 开放/nfs/upload目...
关于java中String,StringBuffer,StringBuilder的区别以及StringBuffer,StringBuilder的安全性问题
这里的结果就是正确的然后我们来看他的append方法 它在前边加了一个synchronized来修饰,相当于同时只能有一个线程来访问他,这样就不会产生上边的问题但同时他的效率也就比StringBuilder低,...
Django连接现有mysql数据库
1、打开cmd后cd到项目位置 2、建立项目 django-admin startproject test2 3、编辑项目中的配置文件, mysite/settings.py ,告诉Django你的数据库连接参数和数据库名。具体的说,要提供 DATABASE_NAME , DATABASE_ENGINE , DATAB...
ShareSDK新浪微博登录时报错error:redirect_uri_mismatch
今天用 ShareSDK 做第三方登录的时候碰到个问题,明明在微博平台的应用审核已经通过了,但是调用登录接口的时候一直报错,错误如下: 出现这个错误是因为在微博开放平台上没有设置回调地址,或者设置的回调地址与本地XML中的地址不一致。 在sharesdk.xml文件当中对于微博的设置: 其中RedirectUrl为设置的回调地址,这里的地址必须要与微博开发平台设置的地址相同,否则就会出现上面的错误...
python解析网络封包方法
2019独角兽企业重金招聘Python工程师标准>>> 在使用Python解析网络数据包时,使用网络字节序解析,参见下表。 C语言的数据类型和Python的数据类型对照表请参见下表。 接下来对封包与解包进行举例说明。 version type id content unsigned short unsigned short unsigned int unsigned int 封包...
猜你喜欢
python3:时间方法,异常处理,系统文件相关模块(os)
文章目录 时间方法 time模块 时间表示方法: time模块的方法 datetime模块 异常处理 触发异常 创建mydiv.py脚本,要求如下: 创建myerror.py脚本,要求如下: os模块 实现ls -R(os.walk) os.path pickle模块 记账脚本 时间方法 time模块 时间表示方法: 时间戳:自1970-1-1 0:00:00到某一时间点之间的秒数 UTC时间:世...
负载均衡群集——LVS+DR模型
一、实验组成 调度器 192.168.100:41 web1 192.168.100:42 web2 192.168.100.43 NFS共享服务器 192.168.100.44 二、实验拓扑 三、实验配置 3.1在调度器配置:192.168.100.41 配置虚拟IP地址(VIP) 调整/proc响应参数 对于 DR 群集模式来说,由于 LVS 负载调度器和各节点需要共用 VIP 地址,应该关闭...
adb无线连接时appium找不到设备
问题描述 以前使用USB连接真机,运行appium时一直正常,连接参数如下: 最近为了方便,使用adb无线连接真机,adb版本为1.0.40,真机安卓版本10,连接后,通过adb devices能够查看到连接的设备: adb无线连接是正常的,但每次运行时appium都找不到无线连接的设备,陷入重启adb循环: 解决流程 1.因为是没找到设备,所以在appium连接参数中增加了"udid&...
Mybatis_CRUD(基于xml的增删改查操作)
dao IUserDao domain User QueryVo SqlMapConfig.xml com.itheima.dao IUserDao.xml com.itheima.test 执行原理图:...
Linux下C程序的链接过程
今天看到一个很有意思的小程序,它让我对Linux下C程序的编译链接有了一个全新的认识! 这个程序的就是写一个简单的输出“hello World!”: 要求:1.不使用C运行库,写一个独立于任何库的程序。(也就是说我们不能#include<stdio>)。 ...