KETTLE使用教程
1、Kettle的下载与安装
kettle的最新下载地址:http://community.pentaho.com/projects/data-integration/
由于Kettle 是采用java 编写,因此需要在本地有JVM 的运行环境。
安装完成之后,点击目录下面的kettle.exe 或者spoon.bat 即可启动kettle 。在启动kettle 的时候,会弹出对话框,让用户选择建立一个资源库。
资源库:是用来保存转换任务的, 它用以记录我们的操作步骤和相关的日志,转换,JOB 等信息。用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以是各种常见的数据库,用户通过用户名/ 密码来访问资源库中的资源,默认的用户名/ 密码是admin/admin. 资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在 xml 文件中。
2、解压
首先解压下载下来的压缩包如:pdi-ce-7.1.0.0-12.zip
然后打开Spoon.bat,如图所示:
3、配置环境变量
在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:\Module\data-integration(具体以安装路径为准)
新建系统变量:KETTLE_HOME
变量值: D:\Module\data-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)
选择PATH添加环境变量:
变量名:PATH
变量值:% KETTLE_HOME%;
4、Kettle的基本概念
4.1作业(job)
负责将[转换]组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
1.Job Entry:一个Job Entry 是一个任务的一部分,它执行某些内容。
2.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着两个Job Entry 之间的连接,并且能够被原始的Job Entry 设置,无条件的执行下一个Job Entry,
直到执行成功或者失败。
3.Note:一个Note 是一个任务附加的文本注释信息。
4.2转换(Transformation)
定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比作业粒度更小一级的容器,我们将任务分解成作业,然后需要将作业分解成一个或多个转换,每个转换只完成一部分工作。
1.Value:Value 是行的一部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。
2.Row:一行包含0 个或者多个Values。
3.Output Stream:一个Output Stream 是离开一个步骤时的行的堆栈。
4.Input Stream:一个Input Stream 是进入一个步骤时的行的堆栈。
5.Step:转换的一个步骤,可以是一个Stream或是其他元素。
6.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。
7.Note:一个Note 是一个转换附加的文本注释信息。
5、启动kettle
5.1启动
进入kettle安装解压目录D:\Module\data-integration
双击Spoon.bat启动
5.2新建转换
5.2.1修改名称
5.2.2连接数据源
5.2.3kettle 安装mysql 驱动
点击测试提示一下日常错误信息
错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseException:
Error occurred while trying to connect to the database
Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver
org.pentaho.di.core.exception.KettleDatabaseException:
Error occurred while trying to connect to the database
Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver
5.2.4解决错误
5.2.4.1下载驱动
https://dev.mysql.com/downloads/file/?id=468318
5.2.4.2将对应的mysql驱动包放到下kettle的目录
D:\Module\data-integration\libswt\win64
*注意:电脑是64位的*
或放置到
D:\Module\data-integration\lib
5.2.5重新启动kettle并配置数据库连接
正确连接到数据库[正式库抽取数据到测试库]
主机名 : ip
端口 : 3306
数据库名:datacenter
6、运行kettle
智能推荐
Kettle的简单使用
ORALCE与MYSQL建表语句转换: BI开发中中经常遇到各种数据库的导数据,操作频繁的有create建表语句,由于各种数据库的数据类型不同,若是字段特别多,手动敲建表语句也是很花费时间的。 新建文件--->转换--->DB连接。建立两个连接,分别是ORACLE与mysql的连接。 填写数据库连接信息。注意数据库名称为SID_NAME,并不是P...
Kettle 使用问题集
1. spoon 界面乱码 修改文件/home/kettle/data-integration/spoon.sh 中JVM参数仍然没有用: 系统字符集正常: 解决方法:linux系统不支持中文,安装中文支持包 界面正常! 2. ...
kettle使用指南
一、kettle下载 [官网地址][1] 1. 安装JDK环境:JDK1.8以及更高的版本 2. 下载以后解压就可以使用了 二、任务(.kjb)与转换(.ktr) 简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等 三、组件 1.spoon.bat/spoon.sh 图形界面工具,就是启动上图主界面的命令行。这个界面应该是JavaF...
kettle基本使用
一、子程序功能和启动方式介绍 二、转换小练习 1.运行Spoon.bat,打开图形设计界面 2.通过导航栏:文件-新建-转换,新建一个转换 3.在左边选择输入 这里以简单的生成随机数为输入 双击节点进行配置: 4.同理选择输出 这里选择最简单的文本输出 选中输入节点,按住shift键,通过鼠标左键进行节...
Kettle 工具使用
kettle简介 1.数据仓库领域的一个重要概念就是数据整合。数据整合就是把不同数据库中的数据组合到一起,对外提供统一的数据视图。 2.kitchen用于执行作业,pan用于执行转换。 3.跳就是从一个作业项/步骤的中心连接到另一个作业项/步骤的一条线。在作业里跳定义的是控制流,在转换里跳定义的是数据流。 4.转换(transformation)是etl解决方案...
猜你喜欢
Kettle—配置及使用
最近因要进行不同数据库之间进行数据迁移,本博客主要一些配置的注意事项、一些初步的使用,也想为以后写一个笔记; 背景 JDK 1.8+,kettle 1.7 kettle 官网;下载地址; 这里传授下百度云离线下载功能,可以减伤国外网速慢的伤害: 配置 目前下载的版本是7.1,需要的JDK是1.8,,如果你双击spoon.bat没有出现界面的话,需要注意一下的事项: 1、 修改一下spoon.bat...
kettle 使用说明
kettle 使用说明 1.简介 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。kettle是纯java编写,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有...
Mybatis基础(part 1)
一.mybatis调用SQL语句 1.使用XML配置SQL语句 在SqlMapConfig.xml配置数据源并指定映射配置文件的位置(每个DAO对应的XML文件,该文件映射了DAO的全限定类名) 2.使用注解配置sql语句 在SqlMapConfig.xml配置数据源和class属性(指定被注解的dao全限定类名),在DAO上写注解。 用注解来配置,故此处使用class属性指定被注解...
Docker 容器内运行 Dubbo 服务
原文:http://www.aqcoder.com/post/content?id=41 在使用 Docker 容器内运行 Dubbo 服务的时候一个令人很头痛的问题就是服务地址注册。 Docker 容器内有自己的 IP 段,和宿主主机是隔离的,Dubbo 会使用容器内的 IP 注册到 zookeeper 注册中心上。这样其他的服务是无法访问的。 方式一:–host 一个很直接的方案就...
python基础教程
Python基础教程 一、简介 1.1 python语言介绍 python的创始人:Guido Van Rossum Python下载地址:https://www.python.org/ Python文档下载地址:https://www.python.org/doc/ Pycharm下载地址:https://www.runoob.com/w3cnote/pycharm-windows-instal...
