中国4200万家企业需要精益生产;全球70亿人都需要精益思维;
学精益,就上环球精益网
  • 精益管理名词解释大全
    栏目分类
    热门精益质量文章推荐

    主页 > 精益质量 > INTRODUCE

    谈谈怎样进行企业级数据质量管理

    2021-01-06 00:42 作者:晓晓 来源: 浏览: 我要评论 (条) 字号:

    摘要:点击蓝色字免费订阅,每天收到这样的好信息

    点击蓝色字免费订阅,每天收到这样的好信息

        企业在发展过程中积累了大量的生产数据和经营数据,利用这些数据发掘有价值的信息,已经成为企业普遍关心的问题。随着数据整合度的提升,以及数据使用范围的扩大,在使用过程中发现了大量数据质量问题,如何更好地管理和控制数据,做好数据标准化和数据服务体系建设,成为当前企业迫在眉睫的任务。

        一、数据治理体系简介

        数据治理是为满足企业数据需求,提升数据服务水平制订的相关流程、政策、标准以及相关技术手段,用于保证数据的可用性、可获取性、高质量、一致性以及安全性。数据治理体系建设的目的是建立数据拥有者、使用者、数据以及支撑系统之间有效协同关系,从全企业视角协调、统领各层面的数据管理工作,确保企业各类人员能够得到及时、准确的数据支持和服务。通常认为,数据治理至少应涵盖如下管理域:数据质量管理、元数据管理、数据标准管理、数据安全管理和主数据管理。

        数据质量管理。对数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制订,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。

        元数据管理。元数据是关于数据的数据,即对数据的描述信息。元数据管理是对元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用,保证数据的完整性,控制数据质量,减少业务术语歧义,建立业务人员、技术人员、以及业务人员与技术人员之间的沟通通道。

        数据标准管理。通过建立一整套数据规范、管控流程和技术工具来确保各种重要信息,包括产品、客户、物料、账户等在企业内外使用和交换一致、准确。

    数据安全管理。通过一系列对数据及相关信息系统保护措施,使数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,可分为管理和技术两大类措施。

        主数据管理。主数据指描述核心业务实体的数据,如客户、供应商、员工、产品等。这些数据变化相对缓慢并通常在企业内跨业务使用。主数据管理是用于管理、协调、监控与企业主要业务实体相关联主数据的一系列规则、技术、应用、策略和程序。

        二、数据质量管理相关问题

        数据质量定义为:数据对其期望目的的适合度。即:数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。

        1.数据质量管理基础和问题分类

        数据质量管理的基础需要具备4个要素。

        第一,数据质量的好坏是由用户以及数据使用价值决定的。

        第二,数据质量的好坏代表数据在数据知识应用中、数据所存在的系统中以及数据使用过程中被应用的频次或者自身价值。

        第三,只有当数据被下游过程(系统或用户)所接收并使用时讨论数据质量问题才有意义。

        第四,由于数据是持续变更化的,因此,数据质量管理也是一个持续的过程。

        企业关注的常见数据质量问题可以归成以下7类。

        第一,定义缺失。缺少关键业务元素定义,导致对同一字段的理解偏差。

        第二,数据异常。指系统的个别字段出现了异常信息,包括取值错误、格式错误、多余字符、乱码等。

        第三,信息缺失或不准确。指在系统表中已经设计了相关字段,但使用过程中,很多记录没有收集该字段信息,或出现信息不准确、信息重复登记等情况。数据缺失情况通常以客户信息最严重。

        第四,系统间数据不一致。主要体现在系统间数据维护不一致和系统间数据同步时效性造成的不一致。

        第五,数据完整性问题。主要体现在参照完整性和数据含义冲突。

        第六,数据生命周期问题。企业中的关键数据,例如员工、客户、产品信息等,都有若干日期字段记录其生命周期,但是在业务系统中往往存在修改了记录状态,但未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接物理删除记录。

        第七,代码问题。主要体系在代码不统一问题,即不同应用之间相同用途代码的编码不一致;未代码化问题,常见情况是用文字存储,而非将信息代码化,很多时候会发现信息存储得不少,但不利于分析使用;意外代码,即实际数据中出现了未定义的代码值。

        2.数据质量管理方法论

        第一步:定义及验证

        从技术和业务两个层面定义数据应当满足的质量目标。数据质量度量标准最终定义应当以规范的形式描述,例如:属性X的缺失率不超过2%。对于派生数据,源数据和转换的规则必须详细说明。

        最终,上面描述的定义和规则将作为数据质量评估计划的输入。数据质量评估计划用来验证定义和规则的正确性,并且将详细描述数据必须满足、适合它预期用途的属性,即:它定义了数据质量。这个计划将指导初始的数据度量,通常也称为数据剖析。

        第二步:影响分析与共性分析

        完成数据质量目标定义后,需评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,根据影响分析可以确定数据质量问题的重要性与优先级。

    所谓共性分析就是分析错误的共性,我们期望许多错误都可以找出共同归类。这个分析为下一步追踪根本原因作准备。

        第三步:追踪根本原因

        鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具。它反映了需要达到的和实际数据质量之间的差距原因,通常是:信息、流程、技术,人员。

        第四步:预防/修复数据质量问题

        导致数据质量问题的根本原因最常见的有:人员、流程、业务系统前端、业务系统数据库、抽取和加载过程,这些方面都可能产生数据质量问题,对于人员、流程、业务系统前端重点在于预防,业务系统数据库、抽取、加载过程则通常通过修复的手段来解决。

        每类数据质量问题的预防/修复都有有利和不利方面,比如:由于人员产生的质量问题,有利方面是可以在源头预防,不利方面在于人员往往会疏于管理、容易遗忘、不同人员的差异性和专注点不同,这些都会不可避免地产生一定的数据质量问题。

        涉及数据量:数据质量问题需要修复的数据量有大致规律,比如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库、抽取、加载等后台环节导致的数据质量问题通常涉及数据量较大。对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远看,重视预防措施,在源头控制错误的产生更为重要。

        第五步:趋势监控

        一个已知的数据质量问题被修复后并不意味着这个特定问题被永远解决了。如果没有有效的预防措施,错误仍有可能再现。因此,对重要数据质量问题应当做持续监控。

        第六步:识别和研究偏差

        当监控流程识别到问题,例如当一个已知数据质量超出了允许控制范围,流程将需要从该分支返回到步骤三再识别根本原因。

        3.数据质量问题特性分析

        根据数据质量定义,数据的不同使用目的会导致不同的数据质量定义,例如:业务系统对数据的使用目的主要是为了保证业务流程的正常运转和满足一些简单的统计功能,因此,只要业务流程和统计正常,就可以认为数据质量满足要求;而分析型系统对数据的使用目的则多种多样,涵盖企业运营的方方面面,满足业务流程正常运转的需要并不一定能保证满足分析的需求。因此,分析型应用的需求是决定数据质量管理目标的主要因素。

        在这一前提下,对企业内部数据流转过程中各环节呈现出来的数据质量问题特性做如下分析。数据流转过程分成3个阶段。

        第一阶段,数据产生环节。企业内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据产生于分析型系统。

        第二阶段,数据集成环节。在基础数据平台类系统(ODS/数据仓库和数据集市)中,集成来自不同源系统的数据,并按照数据模型整合。

        第三阶段,数据使用环节。由各类分析型应用组成,也包括随机业务查询、数据分析、数据挖掘等信息访问手段。

        数据质量问题主要在数据产生环节,其次在数据集成环节的数据加工过程,数据使用环节由于原则上不对数据做修改,基本不产生数据质量问题。

        数据质量问题的发现基本呈相反特征,业务源系统虽然是数据的主要产生环节,但通常只能发现业务流程相关的数据质量问题,而且仅限于系统内部;数据集成环节由于是企业内部数据的一个最主要汇聚点,因此通常也是数据质量问题暴露最多的环节;数据使用环节是数据质量问题频繁暴露的另一个环节,因为对数据的使用决定了数据质量问题的定义,很多质量问题都在使用时首次发现。

        基于数据质量管理的关键环节和质量问题特性,建议在不同流转环节侧重完成的重点如下。

        (1)数据产生环节

        修正:数据质量问题必须在源头得到修正,这是数据质量管理的一项基本原则。

        预防:相对于修正,预防的意义更大,因为可以防止产生新的数据质量问题。

        定义:根据数据质量问题的定义主要取决于使用目的原则,数据质量问题主要应当结合数据使用环节发起定义,但通常都会基于源系统的数据结构进行定义。

        (2)数据集成环节

        检查:基础数据平台类系统作为企业数据的主要汇聚点,在这里进行数据质量问题的检查,效率最高。

        报告:对于数据质量检查结果,应当以报告形式展现,并通过一定的机制(工作流程或人工流程)通知到相关的数据质量问题责任人,例如业务源系统项目组、业务部门、数据仓库或应用项目组等。

        跟踪:由于来自业务源系统的数据每天都会加载到基础数据平台类系统,因此,应当利用基础数据平台类系统对数据质量问题的解决情况进行跟踪,作为数据质量问题治理成效的一个依据。

        (3)数据使用环节

        定义:在数据使用环节根据对数据的使用目标定义数据应当满足的质量标准,作为上下游系统之间服务水平协议的输入。

        评估:作为数据的最终使用者,在使用环节应当评估数据质量治理的成效,并作为设定下一阶段数据质量管理目标的依据之一。

        4.数据质量管理流程的关键点

        数据质量管理流程应当涵盖从“数据产生”到“数据集成”再到“数据使用”在内的全过程,为了在企业范围能进行有效的数据质量管理,数据质量管理的重点应当分布在流程的恰当环节,基于基础数据平台类系统构建数据质量管理系统,并将源系统、相关应用和业务用户都纳入到数据质量的发现-修正-跟踪-评估的闭环流程当中,是实施数据质量管理的重要基础。

        同时,数据质量管理成败的关键在于合理有效的组织和流程保障,而不是管理系统自身,因此应当更重视数据质量管理配套的组织架构和流程建设。

        在构建数据质量管理体系时,需考虑以下5个关键因素。第一,跨部门以上领导的重视和牵头;第二,专门负责解决数据质量问题的组织;第三,专门负责解决数据质量问题的流程;第四,专门负责解决数据质量问题的平台;第五,专门负责监测数据质量问题的工具。

        三、数据质量管理与数据治理体系有机结合

        数据质量管理应当与企业数据治理体系有机结合在一起。

        数据标准为数据质量管理提供质量检查规则来源,而数据是否符合标准,是一个典型的数据质量问题,通过部署数据质量管理系统,可以对数据标准的落地实施提供监控和检验手段。

        元数据管理可以作为数据质量管理的一个输入,辅助数据质量检查脚本的自动生成;而数据质量管理系统中存储的检核规则等信息又是一项元数据,应当被元数据管理系统采集。

       数据安全管理中定义的数据所有者,是构建数据质量治理闭环流程,确定数据整改权责的重要依据。

    欢迎关注

    往期推荐

    谈谈联想集团的数据治理与数字化转型启示

    谈谈工业企业中台建设

    谈谈大型集团数据资产管理能力建设方法

    谈谈数据中台建设启示

    DMBOK 读书笔记系列 数据治理

    谈谈企业数据治理的几点思考

    谈谈如何认识数据治理的5W1H

    谈谈主数据建设过程中历史数据清理策略和方法

    (责任编辑:环球精益网)
    顶一下
    (0)
    0%
    踩一下
    (0)
    0%
    ------分隔线----------------------------
    特别说明

    此处放横条广告

    ◎最新评论
        谈谈您对该文章的看
        表  情:
        评论内容:
        * 请注意用语文明且合法,谢谢合作 审核后才会显示! Ctrl+回车 可以直接发表

        精益疑问
        免费咨询

        一键加群交流

        石老师

        18970479044