Spark Streaming之:三、DStream转换 文章目录 Spark Streaming之:三、DStream转换 1. DStream转换 2. DStream转换操作状态 —>Spark知识点总结导航<— 1. DStream转换 a. 是Spark streaming数据的表现形式 b. DStream上的原语分为Transformation(转...

SparkContext内部执行流程 SparkContext内部执行的时序图 对于这个时序图的具体描述如下: 1.SparkSubmit在main()方法中执行,然后根据提交的类型调用相应的方法,这里是”Submit”,调用submit()方法,submit()里面进行一些判断后, 使用反射Class.forName(childMainClass, true, loade...

Spark 03 Spark SQL 概述

大数据  spark

  

2019-06-12 11:44:15

Spark SQL is a Spark module for structured data processing. 1)为什么需要SQL 事实上的标准 易学易用 受众面大 2)特点 1) Integrated Seamlessly mix SQL queries with Spark programs. Spark SQL lets you query structured data insi...

Spark 05 spark-shell 使用

大数据  spark

  

2019-06-15 01:01:17

1 spark-shell 1)将hive-site.xml文件复制到spark/conf/中,实现spark访问hive 2)启动spark-shell 使用 4)启动spark-sql 使用:直接输入SQL语句 5)thriftserver/beeline的使用(默认端口为10000) 6)thriftserver和普通的spark-shell/spark-sql有什么区别 spark-she...

一、基本原理 Spark Streaming是一种实时流式数据处理机制,用于实时处理实时产生的数据流,具有高吞吐量、容错等特点。Spark Streaming构架如下图: 数据源可以是本地数据、HDFS、TCP socket、Kafka和Flume等等,Spark Streaming从数据源接收数据流,根据时间片将数据流分割成多个批,分批处理,并将处理结果输出到文件系统、数据库或屏幕。 关于Spa...

1)配置文件 flume/conf/avro-memory-kafka.conf 2)配置文件 flume/conf/exec-memory-avro.conf 3)启动kafka 4)启动flume *** 先启动 avro-memory-kafka *** 再启动 exec-memory-avro 5)启动一个 kafka consumer 6)向文件中输入新数据,查看 consumer 是否...

1 需求 使用echarts可视化工具将之前统计好的数据进行展示。 2 开发环境 IDEA+maven spring boot + ECharts 3 最终效果 4 编程 代码地址 1)pom.xml,添加依赖 2)echarts.html,展示页面 3)HBaseUtils.java,操作数据库 4)CourseClickCount.java,实体类 5)CourseClickCountDAO....

原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新 Spark SQL 架构 Spark SQL 的整体架构如下图所示 从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会...

前言 上一篇使用yarn api的提交spark任务比较麻烦, 这次我们使用livy来提交spark任务。livy的使用十分简单,功能上比yarn api还要强大,支持提交spark代码片断,session共享 安装 下载livy0.5.0,下载完成后进行解压。 配置conf/livy.conf文件,设置livy.spark.master = yarn。其他的配置项目,可以根据你的需要来配置,包括...

本人刚开始入门学习Spark,打算先将Spark文档看一遍,顺便做点笔记,就进行一些翻译和记录。由于本人只会python,所以翻译都是以python部分代码进行。以下并非完全100%官网翻译,更多是个人理解+笔记+部分个人认为重要的内容的翻译,新手作品,请各位大神多多指正。 官网原文链接:http://spark.apache.org/docs/latest/rdd-programming-gui...

前期准备 配置JDK,Scala,Hadoop,Spark运行环境,安装IDEA。 PS:注意spark、Scala、Hadoop之间的版本对应关系,否则可能会报错。 在IDEA中用sbt构建Scala工程 IDEA中点击File->new->Project 之后填写项目名称,存储路径,选择JDK版本,Sbt版本,Scala版本   其中Scala版本必须与Spark编译使用...

Spark RDD学习

Spark  RDD  大数据

  

2019-08-31 00:24:38

一、RDD:基于工作集的应用抽象 无论是基于工作集还是基于数据集,都有这几个特点:位置感知(数据存放位置)、容错、负载均衡。 基于数据流的处理:从物理存储上加载设备,操作数据,再写入物理存储设备,如Hadoop MapReduce。 基于数据流的处理中,每次查询都需要从磁盘读取数据,不能复用曾经的结果或中间计算结果。因此基于数据集的处理不适用于以下场景: 1. 不适用于大量迭代 2. 不适用于交互...

RDD变换源码分析

spark  大数据  RDD

  

2019-09-02 12:06:16

原文链接:https://blog.csdn.net/xw_classmate/article/details/53667653 一、 RDD概述     RDD (Resilient Distributed Dataset) ,一个弹性分布式数据集,Spark中的基本抽象。代表一个不变(只读)的、可以并行操作的元素的分区集合。Spark中原生的RDD支持从以下三种方式创建:从...

Spark(一) :Scala

spark  scala  大数据

  

2019-09-14 10:17:03

1  Scala是一门怎样的语言,具有哪些优点  一致性 : 静态类型系统+面向对象+函数式编程 面向对象 : 所有的变量和方法都封装在对象中 函数式编程 :函数可以独立存在,可以定义一个函数作为 另外一个函数的返回值,也可以接受函数作为函数的参数 异步编程 : 函数式编程提倡变量不可变,使得异步编程变得十分容易 基于JVM : Scala会被编译成为Bytecode,所以Sc...