Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 Spark Shuffle 解析 Shuffle 的核心要点 ShuffleMapStage与ResultSta...

在我们的称后续的编写过程中,我们会面临着来自耦合。内聚性以及可维护性,可扩展性,重用性,灵活性等多方面的挑战,设计模式为了让程序具有更好的: 代码重用性(即相同功能的代码,不用多次编写) 可读性(即:编程规范,便于其他人阅读理解) 可靠性(即:当我们增加新功能是,非常方便,对原来的功能没有影响) 使程序实现高内聚,低耦合的特性 设计模式的七大原则 不要问为什么设计模式要这么去设计,这个只是设计模式...

UML —— Unified Modeling Lanaguage(统计建模语言),是一种软件系统分析和设计的语言工具,他用于帮助软件开发人员进行思考和记录思路的结果。 UML本身是一套符号的规定,就像数学符号和化学符号一样,这些符号用于描述软件模型中的各个元素和他们之间的关系。比如:类、接口、实现、泛化、依赖、组合、聚合等。 UML 图 画UML图与写文章差不多,都是把自...

我发现我真的是上天的宠儿,在我手上,Yarn的虚拟内存居然崩了,是的,它崩了。我这本来就是个测试的集群,数据量也不大。一次开的内存也不大,但是它崩了,虚拟内存崩了。请看案例分析。 案件回放 事情的经过是这样的: 因为需要,Yarn的原来的调度模式 Capacity Scheduler 对目前的项目而言不合适,就要去更换另外一种调度模式: Fair Scheduler。配置好的结果如下图所示: 这说...

一、概述 1、介绍 WebMagic的底层用到了HttpClient和Jsoup 能够更方便地开发爬虫 WebMagic项目代码分为核心和扩展两部分 其中: ★核心部分(webmagic-core)是一个精简的 模块化的爬虫实现 而扩展部分则包括一些便利的 实用性的功能 ★扩展部分(webmagic-extension)提供了一些便捷的功能 例如用注解模式编写爬虫等 同时内置了一些常用的组件 便于...

Hive知识点整理 简介 Hive解决的问题是海量结构化日志的数据处理 基于Hadoop的一个数据仓库工具,将结构化数据映射为一张表,提供HQL的类SQL查询功能 Hive的数据存储在HDFS上 Hive计算逻辑的底层默认实现是MapReduce Hive由Yarn调度 Hive相当于Hadoop的客户端,因此是非分布式的 优缺点 类SQL语法,学习成本低 延迟较高,常用于实时性要求不高的场合,例...

ZooKeeper教程

zookeeper  框架  大数据

  

2020-04-23 04:54:51

ZooKeeper教程   1、简介 ZooKeeper (注册中心) 是一个开源的分布式协调服务,由雅虎创建,是 Google Chubby 的开源实现。分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。   三个分布式框架:Spark 、 Y...

Hadoop框架--基础知识

hadoop  大数据  框架

  

2020-05-19 01:50:14

如果有天堂,天堂应该是图书馆的模样。 –博尔赫斯 (不那么冷就更好了) 一、什么是hadoop Apache Hadoop是处理大数据的一种新方法 Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统  Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。 Hadoop是根据Google公司发表的MapRedu...

Map Reduce处理框架

大数据  mapreduce  框架

  

2020-06-27 12:54:52

转自学堂在线清华大学大数据系统基础 复习:GFS里几个重要的观点 - 数据存储于成千上百的服务器中,大数据块减少元数据开销 - 使用商用硬件->失败是很正常的(失败是不可避免的,所以买便宜的硬件) - 没有复杂的一致性模型(单写者,数据只能添加,避免互相等待) 数据并行化(DLP) 若干硬盘上的大量数据,可以被并行化的操作(比如搜索文档) Embarassingly Parallel 例子 ...

上一篇说到CacheManager和checkpoint来管理缓存和数据相关的东西。但实际上,他们底层都是通过BlockManger来管理数据的。 找到RDD#getOrCompute中的 首先Driver上有一个BlockManagerMaster,它的功能就是负责各个节点上的BlockManager元数据管理,进行维护。比如block的增删改查等操作,都会在这里维护变更。 每个节点上都会有bl...

azkaban插件安装 编译插件(这里已经编译好了,可以直接下载) 将下载好的插件解压到你的azkaban目录下的plugins/jobtypes 进入到jobtypes里面并把里面的所有的文件移到上一层目录中 回到jobtypes目录并修改文件commonprivate.properties 和common.properties 接下来进入hive目录中,修改hive插件的信息 修改完成后开始启...

Spark知识点整理 版本:Spark-2.1.1 Spark架构 Spark架构主要包含如下角色: Driver: 主计算进程,Spark job的驱动器 Executor: 执行器,Worker上的计算进程 Cluster Master: 主节点,在standalone模式中为主节点,控制整个集群,监控Worker. 在Yarn模式中充当资源管理器(Resource Manager) Work...