hive第一课

hive

  

2019-06-03 01:04:29

Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 直接使用hadoop所面临的问题 : 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。 功能扩展很方便。 可扩展 Hi...

【日常踩坑】解决hive运行到kill command这一步之后卡住不动的问题 如下图,hive提交聚合查询的时候,在这步卡主不动假死,也不报错,log也查不出来, 但是当运行像select*from students;这种语句是却能够查询到数据, 经过排查,解决思路如下: select * from students 语句没有问题,但一旦执行 select count() from studen...

Hive之一统天下

hive

  

2019-06-13 21:46:11

Hive是什么 Hive的优势与不能做什么 Hive架构 图1: 图2: Hive的数据模型 基本跟RDB概念差不多,多了一个partition概念,以优化数据的存储和查询 Hive的安装与使用 Hive之DDL,DML,Load ps:注意 传统数据库:写时校验模式 Hive:读时校验模式 Hive之可替换的执行引擎 Hive之内部表与外部表 Hive之UDF,UDAF,UDTF...

Hive简介及安装详细过程

Hive

  

2019-06-15 01:34:40

Hive Hive是一种sql工具,能将sql语句,转换成MapReduce语句,能对HDFS上的文件进行查询、运算,并返回结果,或者将结果存入HDFS,大大的减少开发难度。 Hive的工作机制 核心要点 1.Hive利用HDFS来存储数据文件 2.利用mapreduce来做数据查询运算 3.利用sql来为用户提供查询接口 Hive安装过程 1.简单安装(使用Derby作为hive的元数据库) p...

hive中经常会有求连续数字或者连续的时间这种问题,其实处理的方法一致。 首先给出数据的结构: 假如表dw.tmp_interview_data中存放有如下样式的数据:   求出表dw.tmp_interview_data中每个人连续工作时间段及对应的工资和,结果表如下: 姓名 开始日期 结束日期 总工资 小明 2017-06-01 2017-06-03 300 小红 2017-06-0...

需求:联想集团有一款app产品叫茄子快传(有上亿的活跃用户,集中在第三世界国家) 现在需要开发一个数据分析系统,来对app的用户行为数据做各类分析; 原理: 流程如下图: 流程简单介绍: 用户通过茄子的客户端产生数据, 将使用时间,手机号,ip地址,手机的序列号,app的版本,app的下载渠道等重要信息上传到联想的web日志服务器上,服务器的后台系统打印出日志文件,通过flume(一种日志采集工具...

HIve的UDF,UDAF,UDTF函数的用法

hive

  

2019-06-22 18:56:11

1.1 自定义函数描述 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种: (1)UDF(User-Defined-Function) 一进一出 (2)UD...

Linux下Hive的安装部署

Hive

  

2019-06-23 22:45:21

软件版本: CentOS 6.7 hive-1.2.1 hadoop-2.7.4 一、yum安装MySQL 1、查看系统之前是否已安装MySQL       rpm -qa | grep mysql 2、卸载MySQL:rpm -e --nodeps mysql-libs-5.1.71-1.el6.x86_64(查看到的选项全部删除) 注意:强力删除模式,如...

hive搭建和基本使用

hive

  

2019-06-24 03:31:30

Hive是什么? 由facebook开源,最初用于解决海量结构化的日志数据统计问题;    ETL (Extraction-Transformation-Loading )工具      构建在Hadoop之上的数据仓库;    数据计算使用MR ,数据存储使用HDFS      Hive 定义了一...

order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样, 它只在一个reduce中进行所以数据量特别大的时候效率非常低。 而且当设置 :set hive.mapred.mode=strict的时候不指定limit,执行select会报错,如下: LIMIT must also be specified. sort by sort ...

Hive 03 数据存储

hive

  

2019-07-06 16:01:06

1 介绍 hive数据存储基于HDFS,没有专门的数据存储格式。 数据结构主要包括: 数据库 文件 表 视图 可以直接加载文本文件,创建表时可以指定hive数据的列分隔符与行分隔符。 2 表 2.1 内部表 table 1)介绍 与数据库中的table在概念是是类似的 每一个table在hive中都有一个相应的目录存储数据,所有的table数据(不包含external table)都保存在这个目录...

Hive 基础知识(一)

Hive

  

2019-07-26 03:36:37

文章目录 Hive简介 Hive的参数 Hive 的常用字段类型 Hive 的分隔符 Hive 查看执行日志 Hive 的 DDL 操作 Hive简介 Hive 是一个构建在 Hadoop 上的数据仓库,可以使用SQL的方式来读,写,管理分布式存储(HDFS / S3 / OSS / COS 等)上的大型数据集 Hive 是由 Facebook 开源,为了解决海量的结构化日志的统计问题,适合处理离...

Hive中Join的原理和机制

hive

  

2019-07-30 18:53:24

笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。 Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join. 整个过程包含Map、Shuf...

hive增加Update、Delete支持

hive

  

2019-08-04 00:37:37

一、配置hive-site.xml CDH版本先进入Hive配置页    选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项    点击+号,增加如下配置项 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.parti...

hive的基本命令行操作

hive

  

2019-08-17 11:40:52

两种表结构 managed table:托管表。删除表时,数据也删除。 external table:外部表。删除表时,数据不删除。 基本命令 分区表结构 桶表结构:mr作业 hive的事物操作 hive 也如同MySQL一样支持事物操作,也具有ACID(Atomicity, Consistency, Isolation, and Durability) 如下是在使用hive的事物操作时需要配置的...