HIve的UDF,UDAF,UDTF函数的用法

标签: hive

1.1 自定义函数描述

1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。

2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。

3)根据用户自定义函数类别分为以下三种:

(1)UDF(User-Defined-Function)

一进一出

(2)UDAF(User-Defined Aggregation Function)

聚集函数,多进一出

类似于:count/max/min

(3)UDTF(User-Defined Table-Generating Functions)

一进多出

如lateral view explore()

4)官方文档地址

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

5)编程步骤:

(1继承org.apache.hadoop.hive.ql.UDF

(2需要实现evaluate函数;evaluate函数支持重载;

6)注意事项

(1)UDF必须要有返回类型,可以返回null,但是返回类型不能为void;

(2UDF中常用Text/LongWritable类型,不推荐使用java类型;

1.2、自定义函数开发案例

1)创建一个java工程,并创建一个lib文件夹

2)将hive的jar包解压后,将apache-hive-1.2.2-bin\lib文件下的jar包都拷贝到java工程中。

3)创建一个类,代码如下:

package com.zhang.hive;

import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * Created by: ThinkPad 2018/9/1
 */
public class Lower extends UDF{
    public String evaluate(final String s){
        if(s == null){
            return null;
        }

        return s.toString().toLowerCase();
    }
}

4)打成jar包上传到服务器/opt/module/jars/udf.jar(这里IDEA如何打jar就不赘述了,这里建议用maven打包)

5)将打开hive的命令行窗口,将jar包添加到hive的classpath

hive (default)> add jar /opt/module/jars/udf.jar;

6)创建临时函数与开发好的java class关联

hive (default)> create temporary function my_lower as "com.zhang.hive.Lower";

7)即可在hql中使用自定义的函数strip 

hive (default)> select ename, my_lower(ename) lowername from emp;

尖叫提示:如果退出了hive命令行,该函数就会失效,需要重新定义。

好了,以上就是hive自定义函数的一个介绍以及用法

版权声明:本文为u013982921原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u013982921/article/details/82284259

智能推荐

太赞了!Linux 架构师总结的学习笔记,提供下载

  本文字数:1247,阅读时长大约:1分钟 导读:你想学习 Linux 吗? 最近很多小伙伴找我要一些 Linux 基础资料,于是我翻箱倒柜,把这份技术大牛总结的 Linux 归纳笔记找出来,免费共享给大家! 据说有小伙伴靠这份笔记顺利进入 BAT 哦,所以一定要好好学习这份资料! 资料介绍 这份资料非常全面且详细,从 Linux 常用命令到 Linux 常用操作,再到shell编程、...

【底层原理】高级开发必须懂的"字节对齐"

认识字节对齐之前,假定int(4Byte),char(1Byte),short(2Byte) 认识字节对齐 先看段代码:   sizeof(Data1)和sizeof(Data2)分别表示Data1和Data2内存占用字节数,输出结果不一样是因为编译时对Data1和Data2做了不同的字节对齐。Data1的对齐为4Byte,Data2的对齐是2Byte。   假定存储起始地址为...

爬lol全英雄皮肤

初学爬虫简单的爬取一下lol全英雄皮肤,自己写的,和网上CV的好不一样,觉得文章说得过去的记得留下足迹。 一 分析页面 1.英雄列表 首先在英雄页面找到hero_list.js;至于为什么是这个文件,看图: 观察该文件响应头,获取访问的url,打开新的窗口,访问该链接,能获取对应数据。(这边显示在一行很男查看,推荐一款好用的chrome插件JSONView,可以帮帮我们格式化json数据,可以在g...

解决VUE项目重复点击菜单报错:Avoided redundant navigation to current location: “/xxxxx“. 问题

描述: 报错见下图: 解决方法: 在router文件夹下添加下面一段代码...

Nginx 入门指南(十)

负载均衡模块 负载均衡模块用于从upstream指令定义的后端主机列表中选取一台主机。Nginx 先使用负载均衡模块找到一台主机,再使用 upstream 模块实现与这台主机的交互。为了方便介绍负载均衡模块,做到言之有物,以下选取 Nginx 内置的 ip hash 模块作为实际例子进行分析。 配置 要了解负载均衡模块的开发方法,首先需要了解负载均衡模块的使用方法。因为负载均衡模块与之前书中提到的...

猜你喜欢

文本和输入:复制和粘贴

Android提供了一个功能强大的基于剪贴板的复制和粘贴框架。 它支持简单和复杂的数据类型,包括文本字符串,复杂数据结构,文本和二进制流数据,甚至应用程序资产。 简单的文本数据直接存储在剪贴板中,而复杂数据则作为粘贴应用程序与内容提供者解析的参考进行存储。 复制和粘贴在应用程序中以及在实现框架的应用程序之间工作。 由于框架的一部分使用内容提供者,因此本主题假定您熟悉Android内容提供程序API...

[unity]代码批量修改图片、文本文件的AssetBundle的Name

  当项目工程内有大量文件,需要打包成AssetBundle的时候,一个一个打包是一件非常麻烦的事情。 批量修改AssetBundle的Name并对AssetBundle包 进行批量 打包。   批量修改项目工程文件的图片、文本文件的AssetBundle   1.批量建立AssetBundle 1.1修改文件的.meta文件的文本内容 来自参考资料1   ...

[Python] 用K-means算法进行客户分群

目录 一、背景 1.项目描述 2.数据描述 二、相关模块 三、数据可视化 1.数据读取 2.数据可视化 2.1 平行坐标图 2.2 年龄/年收入/消费分数的分布 2.3 年龄/年收入/消费分数的柱状图 2.4 不同性别用户占比 2.5 两两特征之间的关系 2.6 两两特征之间的分布 四、K-means聚类分析 0.手肘法简介 1.基于年龄和消费分数的聚类 2.基于年收入和消费分数的聚类 3.基于年...

CUDA9.0+win10+Visual Studio2017版本配置安装教程

CUDA9.0+win10+Visual Studio2017版本配置安装教程 不幸掉入深度学习的深渊,从此以后无法自拔,哈哈,虽然电脑属于平民配置,但因为有师姐顶配DELL工作站的操练,可以肆无忌惮的配置安装自己想要的东西,一路踩坑,一路爬,一把辛酸泪。安装的时候特别要注意VS和CUDA版本的兼容问题,否则要么卸载重装,要么一系列的路径操作会让你绝望。 如果电脑配置够新,不妨试试安装最新版本的C...

python发送邮件-实操记录-发送一封普通的邮箱

获取smtp服务 开通qq邮箱的smtp服务的流程详情_pyhui的技术博客-CSDN博客 https://blog.csdn.net/ifubing/article/details/104499005 他说以后会得到一串密码 代码:功能实现 逻辑图 实例化 键 键 键 参数1 参数2 实例化得到 实例化得到 等于 等于 参数1 参数2 实例化 实例化 参数1 参数1 参数1 实例化 实例化 实例...