Spark SQL 与Hive集成

标签: 大数据相关技术  Spark学习指南

一、Spark SQL 与Hive集成(spark-shell)

(1)添加配置项目

第一步:
拷贝hive的配置文件hive-site.xml到spark的conf的目录下

cp hive-site.xml /opt/Hadoop/spark/conf

第二步:
添加hive-site.xml中metastore的url的配置

<property>
        <name>hive.metastore.uris</name>
        <value>thrift://node1:9083</value>
</property>

第三步:
把hive中的MySQL的jar包上传到spark的jars目录下

cp mysql-connector-java-5.1.48-bin.jar /opt/Hadoop/spark/jars

第四步:
检查spark-env.sh文件中的Hadoop的配置项

HADOOP_CONF_DIR=/opt/Hadoop/hadoop/etc/hadoop

(2)启动服务

第一步:
检查mysql是否启动:

service mysqld status
Redirecting to /bin/systemctl status mysqld.service
● mysqld.service - MySQL Server
   Loaded: loaded (/usr/lib/systemd/system/mysqld.service; enabled; vendor preset: disabled)
   Active: active (running) since 三 2020-09-23 14:48:53 CST; 1h 10min ago
     Docs: man:mysqld(8)
           http://dev.mysql.com/doc/refman/en/using-systemd.html
  Process: 1712 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid $MYSQLD_OPTS (code=exited, status=0/SUCCESS)
  Process: 1179 ExecStartPre=/usr/bin/mysqld_pre_systemd (code=exited, status=0/SUCCESS)
 Main PID: 1714 (mysqld)
   CGroup: /system.slice/mysqld.service
           └─1714 /usr/sbin/mysqld --daemonize --pid-file=/var/run/mys...

9月 23 14:48:50 node1 systemd[1]: Starting MySQL Server...
9月 23 14:48:53 node1 systemd[1]: Started MySQL Server.

第二步:
启动hive中的metastore

bin/hive --service metastore
Starting Hive Metastore Server

(3)数据测试

第一步:
启动hive

bin/hive

第二步:
创建kfk数据库

create database kfk;

第三步:
创建test表

use kfk;
create table if not exists test(userid string,username string) 
row format delimited fields terminated by ' ' stored as textfile;

第四步:
准备数据

0001 java
0002 python
0003 c
0004 hadoop
0005 php
0006 linux
0007 spark

第五步:
导入数据

load data local inpath "/opt/datas/test1.txt" into table test; 
hive (kfk)> select * from test;
OK
test.userid	test.username
0001	java
0002	python
0003	c
0004	hadoop
0005	php
0006	linux
0007	spark
Time taken: 0.055 seconds, Fetched: 7 row(s)

第六步:
通过spark-shell查看数据

spark.sql("select * from kfk.test")
res0: org.apache.spark.sql.DataFrame = [userid: string, username: string]
scala> spark.sql("select * from kfk.test").show
+------+--------+
|userid|username|
+------+--------+
|  0001|    java|
|  0002|  python|
|  0003|       c|
|  0004|  hadoop|
|  0005|     php|
|  0006|   linux|
|  0007|   spark|
+------+--------+

(4)将数据集写入到MySQL

首先进入mysql数据库,并且创建test数据库

mysql -u root -p
mysql> create database test;

然后进入spark shell ,将spark sql分析hive中的数据写入到mysql中

scala> import java.util.Properties
import java.util.Properties
scala> val pro = new Properties()
pro: java.util.Properties = {}
scala> pro.setProperty("driver","com.mysql.jdbc.Driver")
res0: Object = null
scala> val df = spark.sql("select * from kfk.test")
df: org.apache.spark.sql.DataFrame = [userid: string, username: string]
scala> df.write.jdbc("jdbc:mysql://node1/test?user=root&password=199911","spark1",pro)

最后查看mysql数据库中表spark1的数据

mysql> select * from spark1;
+--------+----------+
| userid | username |
+--------+----------+
| 0001   | java     |
| 0002   | python   |
| 0003   | c        |
| 0004   | hadoop   |
| 0005   | php      |
| 0006   | linux    |
| 0007   | spark    |
+--------+----------+
7 rows in set (0.00 sec)

二、Spark SQL 与Hive集成(spark-sql)

第一步:启动hive中的metastore

bin/hive --service metastore
Starting Hive Metastore Server

第二步:启动spark-sql

bin/spark-sql 

显示数据库,我们可以发现是和hive中是一样的,命令也是使用SQL语句

spark-sql (default)> show databases;
20/09/23 10:38:58 INFO CodeGenerator: Code generated in 164.478292 ms
databaseName
default
kfk
Time taken: 1.338 seconds, Fetched 2 row(s)
20/09/23 10:38:58 INFO SparkSQLCLIDriver: Time taken: 1.338 seconds, Fetched 2 row(s)
spark-sql (default)> use kfk;
spark-sql (default)> show tables;
20/09/23 10:39:34 INFO CodeGenerator: Code generated in 8.452303 ms
database	tableName	isTemporary
kfk	test	false
Time taken: 0.059 seconds, Fetched 1 row(s)
20/09/23 10:39:34 INFO SparkSQLCLIDriver: Time taken: 0.059 seconds, Fetched 1 row(s)
spark-sql (default)> select * from test;
userid	username
0001	java
0002	python
0003	c
0004	hadoop
0005	php
0006	linux
0007	spark
Time taken: 0.806 seconds, Fetched 7 row(s)

综上,Spark SQL 与Hive集成成功。

三、Spark SQL之ThirftServer和beeline使用

Spark SQL也可以使用其JDBC / ODBC或命令行界面充当分布式查询引擎。
thriftserver和spark-shell/spark sql的区别:

  • spark-shell,spark-sql都是一个spark application
  • thriftserver,不管你启动多少个客户端(beeline/code),只要是连在一个thriftserver上,永远都是一个spark application,解决了一个数据共享的问题,多个客户端可以共享数据。
  • 用thriftserver,在UI中能直接看到sql的执行计划,方便优化

总结
基于Spark的thirftserver来访问hive中的数据,可以让多个客户端连接到同一个服务器端,跑的是同一个application
Thirftserver作为服务端,beeline作为客户端来访问服务端,支持多个客户端同时访问,有助于多个客户端之间数据的共享

使用步骤:
第一步:启动metastore服务

bin/hive --service metastore
Starting Hive Metastore Server

第二步:启动thriftserver

sbin/start-thriftserver.sh
starting org.apache.spark.sql.hive.thriftserver.HiveThriftServer2, logging to /opt/Hadoop/spark/logs/spark-caizhengjie-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-node1.out

第三步:通过客户端beeline来连接

[[email protected] spark]$ bin/beeline 
Beeline version 1.2.1.spark2 by Apache Hive
beeline> !connect jdbc:hive2://node1:10000
Connecting to jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: caizhengjie
Enter password for jdbc:hive2://node1:10000: ******
20/09/24 01:26:56 INFO Utils: Supplied authorities: node1:10000
20/09/24 01:26:56 INFO Utils: Resolved authority: node1:10000
20/09/24 01:26:56 INFO HiveConnection: Will try to open client transport with JDBC Uri: jdbc:hive2://node1:10000
Connected to: Spark SQL (version 2.4.6)
Driver: Hive JDBC (version 1.2.1.spark2)
Transaction isolation: TRANSACTION_REPEATABLE_READ

下面就可以通过SQL命令来来访问hive中的数据表

show databases;
+---------------+--+
| databaseName  |
+---------------+--+
| default       |
| kfk           |
+---------------+--+
use kfk;
+---------+--+
| Result  |
+---------+--+
+---------+--+
show tables;
+-----------+------------+--------------+--+
| database  | tableName  | isTemporary  |
+-----------+------------+--------------+--+
| kfk       | test       | false        |
+-----------+------------+--------------+--+
select * from test;
+---------+-----------+--+
| userid  | username  |
+---------+-----------+--+
| 0001    | java      |
| 0002    | python    |
| 0003    | c         |
| 0004    | hadoop    |
| 0005    | php       |
| 0006    | linux     |
| 0007    | spark     |
+---------+-----------+--+

最后,我通过测试,使用了2个客户端beeline的连接,查看web监控页面
在这里插入图片描述
其实就是一个application,每个beeline只作为一个job


以上内容仅供参考学习,如有侵权请联系我删除!
如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。
您的鼓励就是博主最大的动力!

版权声明:本文为weixin_45366499原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_45366499/article/details/108757298

智能推荐

C语言小函数—二进制与十六进制

测试如下 “` int main() { long int num = 15; } “`...

仿微博或微信的文章多图显示(自定义MultiImageView)

按照一般的规矩,先上张图来供大伙看看 如果大致是大伙们需要实现的功能,不烦一观 自定义MultiImageView 工具类 具体使用 app.gradle中添加依赖 implementation 'com.github.bumptech.glide:glide:4.8.0' AndroidManifest.xml中配置联网权限 <uses-permission android:name=&q...

经典进程同步和互斥问题

经典进程同步与互斥问题 前言 一、生产者-消费者问题 1.问题描述 2.问题分析 3.代码 二、读者-写者问题 1.问题描述&&分析 2.代码 三、哲学家进餐问题 1.问题描述&&分析 2.代码 四、理发师问题 1.问题描述&&分析 2.代码 前言 在多道程序设计环境中,进程同步是一个非常重要的问题,下面讨论几个经典的进程同步问题。 一、生产者-消费...

java设计模式——ThreadLocal线程单例

1、定义一个ThreadLocal线程单例,代码如下: 2、定义一个多线程类,代码如下: 3、定义一个测试类,代码如下: 4、输出结果,如下图:...

【tensorflow】线性模型实战

线性模型:y = 1.477 * x + 0.089   1. 采样数据 采样噪声eps在均值0,方差0.01的高斯分布中,而后在均匀分布U(0,1)中,区间[-10,10]进行n=100次随机采样:   2. 计算误差 循环计算每个点的预测值与真是值之间差的平方并累加,从而获得训练集上的均芳误差损失值。   3. 计算梯度   4. 梯度更新 对权重w和偏...

猜你喜欢

常见损失函数和评价指标总结(附公式&代码)

网上看到一篇很实用的帖子关于常见损失函数和评价指标,收藏下来 本文转载于https://zhuanlan.zhihu.com/p/91511706 ------------------------------------------------------------------------------------------------------------------------------...

为什么 4G/5G 的直播延时依然很高

通信技术的发展促进了视频点播和直播业务的兴起,4G 和 5G 网络技术的进步也使得流媒体技术变得越来越重要,但是网络技术并不能解决流媒体直播的高延迟问题。 本文不会介绍网络对直播业务的影响,而是会分析直播中常见的现象 — 主播和观众之间能够感觉到的明显网络延迟。除了业务上要求的延迟直播之外,有哪些因素会导致视频直播的延迟这么高呢? live-streaming  图 1 - ...

springboot 过滤器Filter vs 拦截器Interceptor 详解

1 前言       最近接触到了过滤器和拦截器,网上查了查资料,这里记录一下,这篇文章就来仔细剖析下过滤器和拦截器的区别与联系。 2 拦截器与过滤器之间的区别 从上面对拦截器与过滤器的描述来看,它俩是非常相似的,都能对客户端发来的请求进行处理,它们的区别如下: 作用域不同 过滤器依赖于servlet容器,只能在 servlet容器,web环境下使用 拦截器依赖于sp...

IDEA环境--JavaWeb项目【分页功能实现】

参考链接:https://www.jianshu.com/p/d108d0cd9acf 1、前言 最近在写一些项目,遇到要使用分页功能的地方,就简单的学习了一下,在此总结一下具体实现的过程以及遇到的问题。 分页功能:当我们写一下web项目时会遇到一个页面要显示很多数据,一下子都显示出来效率会很低,也不美观。这就要用到分页,其作用也就是将数据分割成多个页面来进行显示。 2、项目介绍 这只是一个简单的...

517【毕设课设】基于单片机仓库家庭防火防盗报警系统

【资源下载】下载地址如下: https://docs.qq.com/doc/DTlRSd01BZXNpRUxl 功能简要说明: 1.51单片机+1602液晶+按键+烟雾检测传感器MQ+红外检测+蜂鸣器+DHT11温湿度传感器; 2.按键设置烟雾报警浓度值,温度报警值; 3.当达到报警条件,蜂鸣器响; 5.电路板为PCB腐蚀所做,图文件为altiumdesigner工程文件。 6.程序采用C语言编写...