DataStage简介-365bet官方投注-365bet官方投注-mobilegame365-365bet最稳定网址

本文遵循BY-SA版权协议，转载请附上原文出处链接。

本文作者: 黑伴白

本文链接: http://heibanbai.com.cn/posts/e3c56d42/

DataStage简介

数据整合的核心内容是从数据源中抽取数据，然后对这些数据进行转化，最终加载的目标数据库或者数据仓库中去，这也就是我们通常所说的

ETL 过程(Extract,Transform, Load)。

什么是DataStageDataStage是一款ETL工具，属于IBM® WebSphere® Data Integration Suite中一个用于ETL的组件。DataStage企业版支持大容量数据的收集、整合和转换，数据从简单结构到复杂结构。

DataStage服务端

Server：运行可执行job；

Repository：存储元数据的档案资料库；

DataStage Package Installer：安装打包的job以及插件。

DataStage客户端DataStage客户端在安装完成后, 可以在桌面看到一下几个图标:

其中, 主要用的是下面几个组件:

Administrator：设置服务器端属性，建立用户、project，设置project属性;

Manager：管理Repository，导入元数据，导入job和project，备份job和project;

Director：验证job，运行Job，schedule job，monitor job，查看job日志;

Designer：设计job，编译job，调试job。

开发作业常用组件DataStage的基本逻辑处理单位是Job，每个Job由许多Stage组成；由Stage来完成对数据的抽取，转换，加载等，现对常用的Stage做说明.

如下图所示, 可以从 View - Palette 打开组件列表, 下面为常用的数据库Stage:

从对应数据库中读取数据或者写数据到对应数据库中

下图为常用的文件Stage:

Sequential File: 适用于一般顺序文件（定长或不定长），可识别文本文件或IBM大机ebcdic文件。

Data Set: 从data set文件中读取数据或者写数据到data set文件中，一个Date Set Stage只能有一个输入连接（input link）或者一个输出连接（output link）

File Set: 从file set文件中读取数据或者写数据到file set文件中，一个File Set Stage只能有一个输入连接（input link）、一个输出连接（output link）和一个拒绝连接（rejects link）。并且只能在并行模式下执行

下面为常用的加工处理Stage:

Change Capture: Change Capture Stage 有两个输入，分别标记为 before link 及 after link。输出的数据表示 before link 和 after link 的区别，我们称作 change set。Change Capture Stage 可以和 Change Apply Stage 配合使用来计算 after set

Copy: Copy Stage 可以有一个输入，多个输出。它可以在输出时改变字段的顺序，但是不能改变字段类型

Filter: Filter Stage 只有一个输入，可以有多个输出。根据不同的筛选条件，可以将数据输出到不同的 output link

Funnel: 将多个字段相同的数据文件合并为一个单独的文件输出

Tansformer: 一个功能极为强大的 Stage。有一个 input link，多个output link，可以将字段进行转换，也可以通过条件来指定数据输出到那个 output link。在开发过程中可以使用拖拽

Sort: 只能有一个输入及一个输出，按照指定的Key值进行排列。可以选择升序还是降序，是否去除重复的数据等等

LookUp: LookUp Stage 把数据读入内存执行查询操作，将匹配的字段输出，或者在在符合条件的记录中修改或加入新的字段

Join: 将多个表连接后输出

Merge: 将 Merge Key 值相同的记录合并。将其中的一个输入设定为 Master，其余的为 Update。把 Update 中 Merge Key 相同的记录合并入 Master

Aggregator: 将输入的数据分组，计算各组数据的总和或者按组进行其他的操作，最后将结果数据输出到其他的stage

Remove Duplicates: 输入根据关键字分好类的有序数据，去除所有记录中关键字重复的记录，通常与sort stage配合使用

作业类型在进行新建作业时, 可以看到有几个选择, 是DataStage中的几个作业类型:

Parallel Job: Server Job 简单而强大，适合高速开发 ETL 流程。Parallel Job 与 Server Job 的不同点在于其提供了并行机制，在支持多节点的情况下能够迅速提高数据处理效率。Parallel Job 中包括很多其它的 Stage 并用于不同的需求。每种 Stage 使用上的限制也往往大于 Server Job。

Sequence Job: Sequence Job 用于 Job 之间的协同控制，使用图形化的方式来将多个 Job 汇集在一起，并指定了 Job 之间的运行顺序。逻辑关系和出错处理等。

Server Job: 一个 Job 就是一个 Datastage 的可执行单元。Server Job 是最简单经常使用的 Job 类型，它使用拖拽的方式将主要的设计单元 -Stage 拖拽到工作区中。并通过连线的方式代表数据的流向。通过 Server Job，能够实现下面功能:

定义数据怎样抽取

定义数据流程

定义数据的集合

定义数据的转换

定义数据的约束条件

定义数据的聚载

定义数据的写入

抽库作业

从DB2数据库抽取落地文件

配置数据库, 抽取SQL等信息

抽取的字段信息

抽取后落地文件的属性信息

抽取后落地文件的格式信息

抽取后落地文件的字段信息

标准化入库作业

对文件数据进行标准化处理后入库

LookUp组件对代码进行转换

Transformer组件对其他字段进行标准化处理

入库方式选择

库表动作(追加/清表等)

入库前操作

常用菜单按钮

蚂蚁🐜再小也是肉🥩！

DataStage简介

相关推荐

海尔冰箱怎么调温度冷冻和冷藏智能

仙魔变(无罪)最新章节全本在线阅读

三星电脑显示屏怎么开机

合作伙伴