CDH6.2.1安装步骤

大数据  大数据

  

2020-01-07 01:36:47

1.CM部署准备 1.1 连接服务器 1.2 修改hosts文件 注意:这里每个人不一样,ip填写的是私有ip,做完后ping一下。 1.3 SSH免密登录 配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的,所以这里不需要配置SSH免密登录,但是为了我们分发文件方便,在这里我们也配置SS...

Cloudera Manager平台

大数据  大数据

  

2020-03-15 23:25:51

一、Cloudera Manager平台 0、简介: 通过Cloudera Manager,可以轻松管理生产中任何规模的Cloudera部署。通过直观的UI快速部署,配置和监视群集-包括滚动升级,备份和灾难恢复以及可自定义的警报。 官网:https://www.cloudera.com/ 1、架构: 2、介绍: 四、下载地址: Cloudera Manager 官方下载地址 CDH软件包官方最新稳...

今天搞了好几个小时做测试,在IDEA中去操作集群中的spark,可是集群一直链接不上,一下是解决问题的方案 需要满足的条件: (1)需要访问hdfs的路径:即可以配置core-site.xml,hdfs-site.xml文件 (2)设置访问hdfs上的用户: System.setProperty(“HADOOP_USER_NAME”,“hdfs”) ...

https://www.cnblogs.com/wf-skylark/p/9551967.html 有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结。 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明。 1 先来了解一下什么是金融市场呢? 通常狭义的金融市...

前言 Hbase在建表的时候默认只是有一个Region去存储数据,这个Region存储的数据是没有StartKey和EndKey的.如下图: 这样造成的影响是这张表的所有的数据都往这一个Region上存储,随着数据的增加,这个Region会承受不了更多的数据(达到hbase.hregion.max.filesize属性中定义的阈值,默认10GB),导致Region会发生Split,均分成两个Reg...

1 项目需求 1)需求 统计今天到目前为止的访问量 统计今天到目前为止从搜索引擎过来的课程的访问量 2)开发环境与技术选型 IDEA+maven flume+kafka+HBase 3)安装配置 HBase 下载、解压、配置环境变量 配置文件 conf/hbase-env.sh conf/hbase-site.xml conf/regionservers 4)HBase 建表 5)代码地址 2 模...

创建完mysql表后向表中导数时,发现 中文乱码 情况,于是去修改编码格式. 在安装mysql的机器上修改 /etc/my.cnf 文件 然后重启mysql 发现依然存不了中文.于是查看日志 错误如下,说明权限有问题 百度之后给的解决方案是增加mysql用户和增加权限,由于我的mysql数据目录在 /var/lib/mysql 所以执行以下命令 进入performance_schema目录执行如下...

从头学习大数据

大数据

  

2019-07-31 01:05:52

Actor 为什么要学习actor? 我们现在学的Scala Actor是Scala 2.10.x版本及以前版本的Actor Scala在2.11.x版本中将Akka加入其中,作为默认的Actor,老版本的Actor已经废弃 我们学习Actor的目的就是为了学习Akka做铺垫   什么是Actor? Actor是消息并发模型 Scala中的Actor能够实现并行编程的强大功能,它是基于事...

目的 熟悉分布式大数据流式处理的概念和常用技术; 了解开源分布式流式处理平台 Storm 的相关知识; 掌握 Linux 下的 Storm 安装步骤、配置方法和运行管理。 内容 Linux 环境配置; Storm 依赖包的安装、配置和运行; Storm 的安装、配置和运行; Storm-starter 实例的使用; Storm topology 的提交和管理 。 准备 ...

Spark RDD学习资料

大数据

  

2019-10-06 08:35:15

Apache Spark 框架概述 Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务) 快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快 统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能 同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine L...

本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。本教程由厦门大学数据库实验室出品,转载请注明。  ...

今天我在虚拟机里面安装了Hbase 1.2.4,说在windows上Java API调用访问下玩玩,结果始终连接不上。 现象是启动程序后,程序出现卡死的状态,没报错也不停止,大约半分钟后才打印一堆日志出来,说连接重试了多次也连接不上,截图如下: 这个问题纠结了我半天,一查看发现HBase绑定的是本地IP:127.0.0.1,这当然访问不了 然后我想可以把HBase的绑定在指定IP上,去查Hbase...

小白的大数据之路

大数据

  

2019-11-26 15:29:21

小白的大数据之路 一、Ubuntu18.04基本操作 1.1 在虚拟机上安装Ubuntu18.04 安装Ubuntu18.04 1.2 修改su密码 输入密码时没有显示,直接输入。 1.3 安装vim 安装vim vim打开文件: vim+已有文件名 #通过vim打开该文件 vim+未知文件名 #以该文件名新建文件并通过vim打开该文件 vim模式: 打开文件 按 i 按 esc 按 :q/q!/...