KETTLE使用教程

1、Kettle的下载与安装

kettle的最新下载地址:http://community.pentaho.com/projects/data-integration/
这里写图片描述
由于Kettle 是采用java 编写,因此需要在本地有JVM 的运行环境。

安装完成之后,点击目录下面的kettle.exe 或者spoon.bat 即可启动kettle 。在启动kettle 的时候,会弹出对话框,让用户选择建立一个资源库。

资源库:是用来保存转换任务的, 它用以记录我们的操作步骤和相关的日志,转换,JOB 等信息。用户通过图形界面创建的的转换任务可以保存在资源库中。资源库可以是各种常见的数据库,用户通过用户名/ 密码来访问资源库中的资源,默认的用户名/ 密码是admin/admin. 资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在 xml 文件中。

2、解压

首先解压下载下来的压缩包如:pdi-ce-7.1.0.0-12.zip
然后打开Spoon.bat,如图所示:
这里写图片描述
这里写图片描述

3、配置环境变量

在系统的环境变量中添加KETTLE_HOME变量,目录指向kettle的安装目录:D:\Module\data-integration(具体以安装路径为准)
新建系统变量:KETTLE_HOME
变量值: D:\Module\data-integration(具体以安装路径为准,Kettle的解压路径,直到Kettle.exe所在目录)

选择PATH添加环境变量:
变量名:PATH
变量值:% KETTLE_HOME%;
这里写图片描述

4、Kettle的基本概念

4.1作业(job)

负责将[转换]组织在一起进而完成某一块工作,通常我们需要把一个大的任务分解成几个逻辑上隔离的作业,当这几个作业都完成了,也就说明这项任务完成了。
1.Job Entry:一个Job Entry 是一个任务的一部分,它执行某些内容。
2.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着两个Job Entry 之间的连接,并且能够被原始的Job Entry 设置,无条件的执行下一个Job Entry,
直到执行成功或者失败。
3.Note:一个Note 是一个任务附加的文本注释信息。
这里写图片描述

4.2转换(Transformation)

定义对数据操作的容器,数据操作就是数据从输入到输出的一个过程,可以理解为比作业粒度更小一级的容器,我们将任务分解成作业,然后需要将作业分解成一个或多个转换,每个转换只完成一部分工作。

1.Value:Value 是行的一部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。
2.Row:一行包含0 个或者多个Values。
3.Output Stream:一个Output Stream 是离开一个步骤时的行的堆栈。
4.Input Stream:一个Input Stream 是进入一个步骤时的行的堆栈。
5.Step:转换的一个步骤,可以是一个Stream或是其他元素。
6.Hop:一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。
7.Note:一个Note 是一个转换附加的文本注释信息。
这里写图片描述

5、启动kettle

5.1启动

进入kettle安装解压目录D:\Module\data-integration
双击Spoon.bat启动
这里写图片描述

5.2新建转换

这里写图片描述

5.2.1修改名称

这里写图片描述
这里写图片描述

5.2.2连接数据源

这里写图片描述
这里写图片描述

5.2.3kettle 安装mysql 驱动

点击测试提示一下日常错误信息

错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseException: 
Error occurred while trying to connect to the database

Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver


org.pentaho.di.core.exception.KettleDatabaseException: 
Error occurred while trying to connect to the database

Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL‘ driver (jar file) is installed.
org.gjt.mm.mysql.Driver

这里写图片描述

5.2.4解决错误

5.2.4.1下载驱动

https://dev.mysql.com/downloads/file/?id=468318
这里写图片描述

5.2.4.2将对应的mysql驱动包放到下kettle的目录

D:\Module\data-integration\libswt\win64

*注意:电脑是64位的*
这里写图片描述

或放置到

D:\Module\data-integration\lib

5.2.5重新启动kettle并配置数据库连接

这里写图片描述

正确连接到数据库[正式库抽取数据到测试库] 
主机名       : ip
端口           : 3306
数据库名:datacenter

6、运行kettle

这里写图片描述
这里写图片描述

版权声明:本文为u012637358原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u012637358/article/details/82593492

智能推荐

Kettle的简单使用

ORALCE与MYSQL建表语句转换:  BI开发中中经常遇到各种数据库的导数据,操作频繁的有create建表语句,由于各种数据库的数据类型不同,若是字段特别多,手动敲建表语句也是很花费时间的。   新建文件--->转换--->DB连接。建立两个连接,分别是ORACLE与mysql的连接。   填写数据库连接信息。注意数据库名称为SID_NAME,并不是P...

Kettle 使用问题集

1. spoon 界面乱码        修改文件/home/kettle/data-integration/spoon.sh 中JVM参数仍然没有用:      系统字符集正常: 解决方法:linux系统不支持中文,安装中文支持包      界面正常! 2. ...

kettle使用指南

一、kettle下载 [官网地址][1] 1. 安装JDK环境:JDK1.8以及更高的版本 2. 下载以后解压就可以使用了 二、任务(.kjb)与转换(.ktr) 简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等 三、组件 1.spoon.bat/spoon.sh 图形界面工具,就是启动上图主界面的命令行。这个界面应该是JavaF...

kettle基本使用

一、子程序功能和启动方式介绍   二、转换小练习 1.运行Spoon.bat,打开图形设计界面   2.通过导航栏:文件-新建-转换,新建一个转换   3.在左边选择输入 这里以简单的生成随机数为输入    双击节点进行配置:   4.同理选择输出       这里选择最简单的文本输出  选中输入节点,按住shift键,通过鼠标左键进行节...

Kettle 工具使用

kettle简介 1.数据仓库领域的一个重要概念就是数据整合。数据整合就是把不同数据库中的数据组合到一起,对外提供统一的数据视图。  2.kitchen用于执行作业,pan用于执行转换。  3.跳就是从一个作业项/步骤的中心连接到另一个作业项/步骤的一条线。在作业里跳定义的是控制流,在转换里跳定义的是数据流。  4.转换(transformation)是etl解决方案...

猜你喜欢

Kettle—配置及使用

最近因要进行不同数据库之间进行数据迁移,本博客主要一些配置的注意事项、一些初步的使用,也想为以后写一个笔记; 背景 JDK 1.8+,kettle 1.7 kettle 官网;下载地址; 这里传授下百度云离线下载功能,可以减伤国外网速慢的伤害: 配置 目前下载的版本是7.1,需要的JDK是1.8,,如果你双击spoon.bat没有出现界面的话,需要注意一下的事项: 1、 修改一下spoon.bat...

kettle 使用说明

kettle 使用说明 1.简介 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。kettle是纯java编写,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有...

Mybatis基础(part 1)

一.mybatis调用SQL语句 1.使用XML配置SQL语句 在SqlMapConfig.xml配置数据源并指定映射配置文件的位置(每个DAO对应的XML文件,该文件映射了DAO的全限定类名)   2.使用注解配置sql语句 在SqlMapConfig.xml配置数据源和class属性(指定被注解的dao全限定类名),在DAO上写注解。 用注解来配置,故此处使用class属性指定被注解...

Docker 容器内运行 Dubbo 服务

原文:http://www.aqcoder.com/post/content?id=41 在使用 Docker 容器内运行 Dubbo 服务的时候一个令人很头痛的问题就是服务地址注册。 Docker 容器内有自己的 IP 段,和宿主主机是隔离的,Dubbo 会使用容器内的 IP 注册到 zookeeper 注册中心上。这样其他的服务是无法访问的。 方式一:–host 一个很直接的方案就...

python基础教程

Python基础教程 一、简介 1.1 python语言介绍 python的创始人:Guido Van Rossum Python下载地址:https://www.python.org/ Python文档下载地址:https://www.python.org/doc/ Pycharm下载地址:https://www.runoob.com/w3cnote/pycharm-windows-instal...