SparkStreaming教程

大数据  spark  spark

  

2020-02-05 19:59:36

SparkStreaming教程 概要 Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据库和...

Spark经典面试题(二)

Spark  spark  大数据

  

2020-02-15 21:23:15

1.什么是spark? spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。 2.Spark生态系统? SparkCore:spark的核心计算 主要Rdd SparkSQLa:提供了类sql方式操作结构化半结构化数据。对历史数据进行交互式查询。(...

RDD支持两种类型的操作: transformations-转换算子,将⼀个已经存在的RDD转换为一个新的RDD,另外⼀种称为actions-动作算子 ,动作算子一般在执行结束以后,会将结果返回给Driver。在Spark中所有的transformations 都是lazy的,所有转换算子并不会立即执行,它们仅是记录对当前RDD的转换逻辑。仅当 Actions 算子要求将结果返回给Driver程序...

Spark源码修改编译部署

Spark  spark  大数据

  

2020-02-29 19:27:45

源码修改: 利用IDEA修改源码、编译源码所在模块。 找到修改的源码生成的class文件在workspace中的位置。 将修改源码对应的模块从已安装好Spark集群的服务器上download下来。 用好压打开步骤3下载的jar包,将步骤2找到的class文件替换步骤3的jar包中的对应class文件。 再将修改的jar包上传回服务器。 源码部署: 将上述步骤生成的修改后的jar包上传至服务器,替换...

文章目录 一、安装spark 1、已解spark的压缩包 2、进入~/spark/conf里配置spark-env.sh,改文件包含sark的各种运行环境 3、配置slaves文件,同样复制一份 .template 4、将配置好的spark分发给所有slave(这里也就是node01 node02) 5、配置spark环境变量 6、启动spark,停止spark 7、看下work的状态 8、通过w...

DataSet(DataFrame)的基本操作 有类型操作 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset map map 可以将数据集中每条数据转为另一种形式 mapPartitions mapPartitions 和 map 一样, 但是 map 的处理单位是每条数据, mapPartitions 的处理单位是每个分区 trans...

Structured Streaming基础入门

Spark  spark  大数据

  

2020-03-14 01:03:03

Structured Streaming 1. 回顾和展望 1.1. Spark 编程模型的进化过程 RDD 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象 RDD 无法感知到数据的结构, 无法针对数据结构进行编程 DataFrame DataFrame 保留有数据的元信息, API 针对数据的结构进行处理, 例如说可以根据数据的某一列进行排序或者分组 DataFrame...

目录 Local模式运行环境搭建 小知识 搭建步骤 一、上传压缩包并解压 二、修改Spark配置文件 三、启动验证进入Spark-shell 四、运行Spark自带的测试jar包 standAlone模式运行环境搭建 搭建步骤 一、修改配置文件 三、将配置好的安装包分发到其他机器 四、启动Spark程序 五、页面访问 六、进入Spark-shell测试启动 七、运行Spark自带的测试jar包 H...

●官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 准备工作 1.安装启动Hadoop(需要使用HDFS和YARN,已经ok) 2.安装单机版Spark(已经ok) 注意:不需要集群,因为把Spark程序提交给YARN运行本质上是把字节码给YARN集群上的JVM运行,但是得有一个东西帮我去把任务提交上个YARN,所以需要一个...

SparkCore之RDD缓存

Spark  spark  大数据

  

2020-04-10 17:51:59

RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。 但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存存储一份,Spark的存储级别还有好多...

Spark-2.4.2编译安装

spark  spark  大数据

  

2020-04-14 15:24:07

这里写目录标题 下载 安装scala 用到编译自然少不了Maven 主角来了spark编译 编译坑点 下载 下载安装包:https://spark.apache.org/downloads.html 也可以linux: 安装scala 版本:scala-2.11.8 解压文件: 配置环境变量 用到编译自然少不了Maven 注意:版本兼容问题 参考地址:https://www.cnblogs.com...

Spark RDD

Spark  spark  大数据

  

2020-04-15 21:54:21

Spark RDD Spark RDD详解 开发环境 RDD创建 Parallelized Collections 并行集合 External Datasets 外部数据库 wholeTextFiles 整个文本文件 newAPIHadoopRDD MySQL Hbase RDD Operations 算子 Transformations 转换算子 √map(func ) &radic...

主要内容: Scala实现SparkStreaming消费Kafka数据保存Offset到Redis,实现自主维护Offset 介绍部分源码 SparkStreaming自主维护Offset的流程 SparkStreaming启动时,先请求Redis或Hbase; Redis或Hbase返回请求结果,将结果(Topic、Partition、Offset的组合)封装成collection.Map[T...

Spark之全分布式安装

大数据  Spark  spark

  

2020-04-21 07:58:08

一、分布环境 前提:Linux环境,JDK版本1.8版本 Spark:版本2.2.1 Hadoop:版本2.6.1 二、解压 三、修改配置文件 四、分发到hadoop02,hadoop03(复制到从节点上) 五、在主节点上启动 根据日志分析:启动了一个主节点,两个从节点...