数据治理包括哪些内容

如题所述

第1个回答  2024-04-16
1. 数据资源梳理
数据治理的初步步骤是从业务角度清晰组织的数据资源环境和数据资源清单,包括组织结构、业务事项、信息系统以及以数据库、网页、文件和API接口形式存在的数据项资源。这一步骤的输出物是各类详细的数据资源清单。
2. 数据采集清洗
通过使用可视化的ETL工具(例如阿里的DataX,Pentaho Data Integration),将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将分散和无序的数据集中存储起来。
3. 基础库主题库建设
数据通常分为基础数据、业务主题数据和分析数据。基础数据指的是核心实体数据或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。分析数据则是基于业务主题数据综合分析得出的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。基础库和主题库的建设是在对业务理解的基础上,基于易存储、易管理、易使用的原则设计数据存储结构,即基于一定原则设计数据库表结构,并根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
4. 元数据管理
元数据管理涉及基础库和主题库中的数据项属性的管理,并将数据项的业务含义与数据项进行关联,便于业务人员理解数据库中的数据字段含义。元数据是自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理通常针对基础库和主题库中的核心数据资产进行数据项属性的管理,而数据资源清单则涉及各类数据来源的数据项管理。
5. 血缘追踪
当数据被业务场景使用时,若发现数据错误,数据治理团队需要快速定位数据来源并修复数据错误。为此,数据治理团队需要了解业务团队的数据来自哪个核心库,以及核心库的数据又来自哪个数据源头。实践中,在元数据和数据资源清单之间建立关联关系,确保业务团队使用的数据项由元数据组合配置而来,从而建立数据使用场景与数据源头之间的血缘关系。
6. 数据资源目录
数据资源目录通常应用于数据共享场景,如政府部门之间的数据共享。数据资源目录基于业务场景和行业规范创建,并依托于元数据和基础库主题实现自动化的数据申请和使用。
7. 质量管理
高质量的数据是成功发掘数据价值的关键,因此需要从多个维度分析数据质量,如偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等。优秀的数据质量模型设计需依赖对业务的深刻理解,并且推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,如Hadoop、MapReduce、HBase等。
8. 商业智能(BI)
数据治理的目的是促进数据使用。对于大型数据仓库,数据使用场景和需求多样,BI类产品如派可数据可帮助快速获取所需数据并分析形成报表。
9. 数据共享交换
数据共享包括组织内部和组织之间的数据共享,共享方式包括库表、文件和API接口三种。库表共享较为直接,文件共享通过ETL工具实现反向数据交换。推荐使用API接口共享方式,使中心数据仓库保留数据所有权,通过API接口形式转移数据使用权。API接口共享可以使用API网关实现,常见的功能包括自动化接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等。
相似回答