数据服务

数据融合与组织

数据提取利用 DataStage、Kettle 等 ETL工具进行数据抽取,包括结构化和非结构化数据

数据清洗按数据质量标准对各阶段数据进行清洗,包括过滤、去重、格转、校验等,例如:Datastage数据清洗、数据上云清洗

数据关联关联提取、关联回填

数据对账包括结构化对比、非结构化对比以及结构化融合对比:1) 数据总量一致性;2) 数据增量一致性;3) 最新数据一致性;4) 数据准确性

数据分级根据数据开放及敏感度进行分级管控

数据分类根据来源、种类、属性进行资源级别的分类

数据入库上云利用DataStage、Kettle等ETL工具进行数据解析入库及数据融合上云服务

标准字典管理根据国际部标省标市进行标准字体管理

资源目录管理建立大数据平台的资源目录,提供资源目录生命周期管理、流程管理及联动机制

主数据管理对大数据平台结构化的主数据进行管理,保证主数据的一致性、合规性

元数据管理对大数据平台涉及的技术元数据、业务元数据、管理元数据进行管理,实现对数据的完整生命周期管理

标签管理完成标签的创建、上线、停用、打标等工作,并开放给各业务单元使用

数据质量管理通过样例数据、指标信息,完成对数据质量检测、巡检等任务,并根据质量评估标准形成数据质量告警、分析

数据地图以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或业务上不同应用场景的图形查询和辅助分析需要

血缘分析从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口,包括血缘关系管理、关系分析与查询

影响分析从某一实体出发,寻找依赖该实体的处理过程实体或其他实体

实体关联分析从某一实体关联的其他实体和其他参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度

实体差异分析对元数据的不同实体进行检查,用图形和表格的形式展现他们之间的差异,包括名字、属性及数据血缘和对系统其它部分影响的差异等,在数据系统中存在许多类似的实体

指标一致性分析用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致

资源库各类主体或主体间要素的关系与时空分布维护

主题库各业务单元主题库维护

知识库基础知识库、基础算法库、标签知识、规则等的维护

业务库业务资源、业务知识、业务标签等的运维

业务要素索引库业务库的关键要索全局索引,元数据索引维护

优化分析

辅助应用优化元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化

数据接口

汇聚接口ETL阶段接口开发,例如:MBMQ接口开发、脚本等

查询接口提供微服务数据查询接口,实现动态查询,实现接口与第三方应用的集成

比对接口提供微服务数据对比接口,实现接口与第三方应用的集成,为数据对账提供基础服务

分发接口基于微服务架构,开发数据对外分发数据接口,包含下载

数据服务

数据标识基于标签知识库,利用标签引擎对数据进行比对分析、模型计算、为上层应用提供支撑,例如:疫情数据、服务人员背景信息、核查人员轨迹数据核查等比对服务

查询检索根据业务单元需求,提供数据范围内的指定字段数据进行修改

数据修改在授权下对指定范围内的指定字段数据进行修改

数据分发根据定义的分发策略,对数据进行同步或异步处理,并将数据分发到原始库、资源库、主题库、知识库及业务库

服务要点

在数据治理与迁移过程中,由于数仓架构的差异性对数据模型、作业和脚本进行优化;使用可视化任务调度工具提高自动化程度及任务的管理。

img
img

场景案例

SCENARIO CASE

img img img