最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

ETL解决方案资料

来源:动视网 责编:小OO 时间:2025-10-02 00:58:06
文档

ETL解决方案资料

1.1.ETL流程调度设计1.1.1.ETL流程调度总体结构ETL(ExtractTransformLoad,简称ETL)是将数据从源系统抽取、清洗转换、并加载到数据仓库的实现过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是经营分析项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到经营分析项目的成败。ETL也是一个长期的过程,因此只有对ETL总体架构和模型进行优化设计,才能使ETL运行效率更高,为项目
推荐度:
导读1.1.ETL流程调度设计1.1.1.ETL流程调度总体结构ETL(ExtractTransformLoad,简称ETL)是将数据从源系统抽取、清洗转换、并加载到数据仓库的实现过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是经营分析项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到经营分析项目的成败。ETL也是一个长期的过程,因此只有对ETL总体架构和模型进行优化设计,才能使ETL运行效率更高,为项目
1.1.ETL流程调度设计

1.1.1.ETL流程调度总体结构

ETL(Extract Transform Load,简称ETL)是将数据从源系统抽取、清洗转换、并加载到数据仓库的实现过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。 ETL是经营分析项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到经营分析项目的成败。ETL也是一个长期的过程,因此只有对ETL总体架构和模型进行优化设计,才能使ETL运行效率更高,为项目后期开发提供准确的数据。 

从业务和竞争力角度,可以用两个词来概括对ETL的要求:速度和灵活。ETL需要迅速响应业务要求,并部署实施。同时,ETL需要可灵活配置、可靠和安全。因此需要不断扩展现有ETL能力,同时还能提供像Web服务这样的新技术。目前先进的SOA思想和数据封装技术成为了ETL的基础,面向服务的体系结构SOA(Service-Orentied Architecture,简称SOA)是一个组件模型,它提供一种通用接口将各种实现功能的组件以Web服务的方式集成在一起的解决方案。采用面向服务体系结构增加了软件的复用性和系统集成的灵活性,降低了系统维护成本。通过SOA,完成ETL任务的方式是执行一系列“服务”以及具有良好定义的与服务的交互方式的作业,还有良好定义的交互取消方式。

ELT工具将各个子功能处理模块为采用Webservice技术和标准数据格式封装,实现ETL标准服务组件,所谓的服务是一种实体,它能够完成标准的业务功能,如:FTP、数据抽取、数据清洗等。通过清晰的定义和松散的耦合提高灵活性。服务根据 SOA 原则利用现有的中间件实现交互。充分利用新的开放标准以及 XML 数据定义(Web Services――Web 服务),快速融合ETL解决方案中。通过统一ETL调度引擎,实现ETL处理过程中,各处理流程的统一调度。

实现SOA标准的数据总线,实现各环节数据有效流转,完成各个处理流程环节的灵活组装,从而实现对各种数据接口,转换规则,数据校验规则以及多种数据入库处理方式等的通用性组装处理。解决应用系统之间数据不一致、数出多头、数据质量、各应用系统内数据重复转换加工等问题,实现信息资源价值的最大化。

整体功能结构如下:

在整个经营分析系统中,涉及各个层面,各个环节、以及大批量数据的处理过程,每个环节所关注点不同,且存在一定的调度逻辑。ETL流程调度系统就是负责整个数据处理过程,保证数据正确、可靠、快速地处理。

当新增数据源、新增转换需求、新增接口表、新增库内处理逻辑等需求时,只需通过配置即能快速解决,使技术人员的精力主要集中在业务逻辑处理上,而无需在流程调度细节上过多关注。

为简化ETL的配置管理,降低系统维护开销,实现基于WEB的业务流程管理(BPM)。引入对象管理组织(Object Management Group OMG)标准: BPMN,即Business Process Modeling Notation,业务流程建模符号,实现对ETL的可视化业务流程定制。采用100%的纯Java技术,跨多种浏览器平台,实现可视化的ETL流程配置,监控,处理结果查询等一系列的管理监控功能。ETL流程定制界面:

●ETL底层功能模块

包含所有ETL数据处理过程的子功能模块,以实现对数据的抽取,传输,转换,校验,清洗,入库,上传等基础功能。并通过WebService技术封装为标准组件,以提供给ETL调度引擎作为Job进行调度,从而完成不同数据来源接口的不同处理流程。并在一定程度上屏蔽异构系统的底层功能,从而在整体上提高ETL在异构系统间的可移植性。

●ETL中间逻辑层

 以ETL调度引擎为核心,以SOA总线为基础,通过引入Job的概念,屏蔽ETL处理过程中数据多样性和复杂性,并能灵活扩展不同的数据处理流程,使不同的数据处理流程的定制和配置成为可能。其调度的策略可以包括以下几种类型:

前导Job驱动:ETL过程中各个处理环节需按一定次序进行,前导Job表示ETL流程中先要进行处理的Job,Job的前导Job可以有多个。

时间驱动:当到达某个时间点时,这个时间点可以是时间周期,也可以是定时,Job便开始运行。

上述两种条件综合驱动:当以上两种条件只要满足一种条件时,Job便开始运行。

●前台展现

通过可视化的前台配置和监控界面,实现对ETL处理过程的流程定制,处理环节的参数配置,不同数据接口的定义,不同数据来源的定义,各种转换规则,清洗规则的定义,以及处理进度和结果的实时监控和查询,并进行出错状态的告警和处理。

流程定制:实现对不同数据处理流程的可视化配置,根据接口规范以及处理规则,灵活组装底层处理处理子功能模块,设置相应的调度策略类型,实现数据的处理过程。

参数配置和规则定义:通过对各个处理流程的可视化参数配置以及各种规则的定义。使灵活扩充ETL处理环节成为可能。

监控和报表:通过对各个处理环节的日志信息的提取和统计,以实现对ETL处理进度和结果的实时监控,以及整体的处理状态报告。

出错处理:根据各个接口不同的出错处理规则,对数据处理过程中出现的任意环节的错误,进行相应的处理,包括:数据回退,自动重入,手工重入等。

1.1.2.ETL流程调度产品特点

序号特点名称特点描述
1模块横向化各模块的关注点、处理机制、技术重点都有不同,可以有针对性地对各模块进行性能优化,从而提高整体数据处理性能。各模块之间依靠接口文件进行通信,简单可靠。
2调度引擎跨平台支持

调度引擎支持多种UNIX平台(HP、Solaris、Compaq、AIX)和Linux平台(RedHat、RedFlag),跨平台的兼容性,并充分利用unix主机高性能处理机制。

3全Web页面操作

客户端程序web编写,无需安装客户端。

4支持多种数据源文件(指定分隔符或定长)和数据库,本地和远程;数据库类型支持Oracle,Sybase,DB2,TeraData。

5调度规则灵活

支持多种调度方式(实时、定时、和条件触发),基本能满足现有电信行业需求。 

6高端并行处理不同模块启用不同的进程,不同的进程按需动态启动多进程。这样的方式能充分利用系统资源,以及系统多CPU的并行处理能力,提高运行效率。

7所见即所得完全可视化的配置、运行监控环境,图形化操作模式,方便用户配置、操作与维护。且配置的过程就是数据流的处理过程,方便易懂。
8良好的扩展性当出现特殊的需求而目前的工具平台无法满足的时候,可以通过开发出新的模块并纳入整个工具,来满足客户的新需求。

文档

ETL解决方案资料

1.1.ETL流程调度设计1.1.1.ETL流程调度总体结构ETL(ExtractTransformLoad,简称ETL)是将数据从源系统抽取、清洗转换、并加载到数据仓库的实现过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是经营分析项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到经营分析项目的成败。ETL也是一个长期的过程,因此只有对ETL总体架构和模型进行优化设计,才能使ETL运行效率更高,为项目
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top