大数据预处理技术-数据预处理工具
大数据预处理技术-数据预处理工具
智汇君大数据预处理技术-数据预处理工具
1 | 在一个完整的挖掘流程中,数据预处理要花费60%左右的时间,而后续的挖掘工作仅仅占工作量的10%左右。 |
1 | python中的numpy和pandas是数据预处理中常用的的库。 |
1 | Ok啊,今天我们进入第二章开头工具的一个初步使用,这个章节的学习,首先呢我们来看一下这一个章节的一个整体的脉络。那么首先这个章节呢分了两个部分,第一叫做cat的安装,第二呢就是cat的使用啊,这个脉络非常的清晰,第一我要把它装好好,第二,那么我就要学怎么来使用它。那么首先我们先进入第一部分的学习,叫做cat的安装开头。 |
Kettle的初步使用
安装
使用
转换的基本概念
1 | 转换是ETL解决方案中最主要的部分,他负责处理抽取、转换、加载各阶段对数据行的各种操作。 |
注释
1 | 注释是一个小的文本框,可以放在转换流程图的任何位置,注释的主要目的是使转换文档化。 |
步骤
1 | 步骤是转换中的基本组成部分。大多数步骤都会读写数据行。大多数步骤可以有多个输出跳。 |
跳
1 | 定义了步骤之间进行数据传输的单向通道。 |
数据行
1 | 数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合。字段有数据类型。 |
核心对象
主对象树
执行结果
1 | 执行结果状态栏是对转换、作业执行过程的监控。 |
日志
步骤度量
状态栏
参数配置
全局变量(环境变量)
1 | 写在配置文件里 |
局部变量(命名参数)
1 | 仅对当前转换、作业有效 |










