数据提取利用 DataStage、Kettle 等 ETL工具进行数据抽取,包括结构化和非结构化数据
数据清洗按数据质量标准对各阶段数据进行清洗,包括过滤、去重、格转、校验等,例如:Datastage数据清洗、数据上云清洗
数据关联关联提取、关联回填
数据对账包括结构化对比、非结构化对比以及结构化融合对比:1) 数据总量一致性;2) 数据增量一致性;3) 最新数据一致性;4) 数据准确性
数据分级根据数据开放及敏感度进行分级管控
数据分类根据来源、种类、属性进行资源级别的分类
数据入库上云利用DataStage、Kettle等ETL工具进行数据解析入库及数据融合上云服务
标准字典管理根据国际部标省标市进行标准字体管理
资源目录管理建立大数据平台的资源目录,提供资源目录生命周期管理、流程管理及联动机制
主数据管理对大数据平台结构化的主数据进行管理,保证主数据的一致性、合规性
元数据管理对大数据平台涉及的技术元数据、业务元数据、管理元数据进行管理,实现对数据的完整生命周期管理
标签管理完成标签的创建、上线、停用、打标等工作,并开放给各业务单元使用
数据质量管理通过样例数据、指标信息,完成对数据质量检测、巡检等任务,并根据质量评估标准形成数据质量告警、分析
数据地图以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或业务上不同应用场景的图形查询和辅助分析需要
血缘分析从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口,包括血缘关系管理、关系分析与查询
影响分析从某一实体出发,寻找依赖该实体的处理过程实体或其他实体
实体关联分析从某一实体关联的其他实体和其他参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度
实体差异分析对元数据的不同实体进行检查,用图形和表格的形式展现他们之间的差异,包括名字、属性及数据血缘和对系统其它部分影响的差异等,在数据系统中存在许多类似的实体
指标一致性分析用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致
资源库各类主体或主体间要素的关系与时空分布维护
主题库各业务单元主题库维护
知识库基础知识库、基础算法库、标签知识、规则等的维护
业务库业务资源、业务知识、业务标签等的运维
业务要素索引库业务库的关键要索全局索引,元数据索引维护