谁是数据质量英雄?

作者: Wilfried Lemahieu, Bart Baesens,  Seppe vanden Broucke

翻译: 朱兵 

数据管理指对数据及其对应的数据定义和元数据进行适当的管理。它旨在确保(元)数据的质量,因此是有效和高效管理决策的关键资源。数据质量(DQ)通常被定义为“适用性”,这意味着该概念有一定相对性。即使对于同一个用户,在某个决策环境中质量可接受的数据,在另一个决策环境中却可能被视作质量差。例如,对用于分析性销售预测任务的数据不需要有用于会计任务数据的完善程度。数据质量决定了数据对企业的内在价值。信息技术只能作为这个内在价值的放大镜。因此,高质量的数据与有效的技术相结合将成为一项巨额的资产,但低质量数据即使与有效的技术相结合也只能成为企业的一项巨额负债。这也被称为GIGO或Garbage In,Garbage Out原则:哪怕你采用了最好的技术,坏的数据只能导致错误结果。基于无用数据做出的决策可能会让公司损失数十亿美元。以客户地址数据为例,据估计,约有10%的客户每年更换一次地址,而客户过期的地址会对电商,快递公司或政府机关产生重大影响。

糟糕的数据质量会以多种方式影响组织。在运营层面上,它会影响客户满意度,增加运营支出,并导致员工工作满意度下降。同样,在战略层面上,它会影响决策过程的质量。随着数据库规模呈指数级增长,导致数据质量问题不断加重。这使得数据质量管理成为当今数字经济中最重要的商业挑战之一。

因此,很多组织开始设置多个与数据管理相关的岗位,以确保数据的质量并将数据转化为商业价值。在下文中,我们将对信息架构师、数据库设计师,数据所有者、数据管理员、数据库管理员和数据科学家这六种职业进行概述。在部分企业中由于数据库和公司的规模的限制,有时同一个工作描述中会涉及到多个岗位职责。

信息架构师(也称信息分析师)主要负责与业务用户进行交流,并设计数据概念模型。他们弥合了业务流程和IT环境之间的鸿沟,他们与数据库设计师密切合作帮助他们选择数据概念模型(如EER或UML)和数据库建模工具。在数据准确性和完整性方面,一个好的概念数据模型是存储高质量数据的关键。

数据库设计师负责将数据概念数据模型转换为逻辑和内部模型。他还协助程序开发人员定义外部数据模型的视图,以保障数据安全。同时,为了便于将来对数据库应用程序进行维护,数据库设计师在创建强制数据一致性的各种数据模型时,需要在全公司范围内统一命名方式。

组织中每个数据库中的每个数据字段都应由数据所有者负责,数据所有者有权决定数据的访问和使用。数据所有者可以是原始数据的生产者,消费者或第三方。数据所有者应能完善和更新其拥有的数据,并且知道字段的含义,并能通过联系客户、查看文件等方式访问当前的正确值。数据管理员可以要求数据所有者检查或完善某个字段的值,以提升数据质量。

数据管理员是数据质量方面的专家,他负责确保实际业务数据和相应元数据的质量。他们通过定期执行广泛的数据质检来评估数据质量。这些检查涉及到数据质量相关维度指标的计算。他们也同时负责根据评估结果,主动采取进一步措施。第一类应采取的是纠正措施。然而数据管理员不负责自行更正数据,因为那是数据所有者的责任。第二类措施涉及深入调查以发现导致数据质量问题的根本原因。了解这些原因后,才能设计旨在消除数据质量问题的预防措施。预防措施包括对数据来源操作信息系统进行修改(如使字段成为强制性的,提供可能值的下拉列表,使界面合理化等)。此外,可以根据预定义的完整性规则对系统中的输入值进行有效性检查,如果违反这些规则,用户可能会被要求更正数据。例如,企业税务登陆门户可能要求根据其社会安全号码对员工进行识别,以便可以通过联系社会安全号码数据库进行实时检查。显然,这些预防措施的施行需要负责应用程序的IT部门的密切参与。总体而言,防止错误数据进入系统通常比后来纠正错误更能节约成本增加效益。但是,也应小心因输入数据无光痛痒的数据质量问题而延缓关键进程。

数据库管理员(DBA)负责数据库的运行和监控。例如,数据库软件的安装、升级、备份和恢复管理、性能优化和监控、内存管理、复制管理,安全性及授权等。数据库管理员与网络和系统管理员密切合作,他们还与数据库设计师进行互动,以降低运营管理成本并保证达到一致的服务级别(例如响应时间和吞吐率)。 数据库管理员的工作还积极数据质量的另外两个关键维度:数据的可用性和可访问性。

在数据管理的场景中,数据科学家在数据管理场景下是一个相对较新的职业。他们负责使用最先进的分析技术分析数据,以对商业模式提供新的见解,如顾客行为。数据科学家通常具有ICT技能(如编程)、定量建模(如统计)、商业理解、沟通和创造力等在内的多种能力。一位优秀的数据科学家应该具有良好的Java,R,Python,SAS等语言的编程能力。编程语言本身并不是非常重要,数据科学家只需熟悉编程的基本概念,并知道如何使用这些语言来自动执行重复的任务或特定例行程序即可。显然,数据科学家应该有统计学、机器学习和定量建模方面的全面背景知识。本质上讲,数据科学是一项技术练习。分析模型和商业用户之间往往存在巨大鸿沟,为弥合这一鸿沟,沟通和可视化工具是关键。数据科学家应该知道如何通过使用交通灯方法,OLAP在线分析处理工具,If-then商业规则等以用户友好的方式报告其中的统计数据和分析模型。数据科学家至少在两个层面上需要创造力。首先,在技术层面上需要在数据选择、数据转换和清理方面进行创新。标准化的分析过程的步骤也应针对每个特定的应用进行修正,“正确的猜测”往往会造成很大的差异。其次,数据分析是一个快速发展的领域。新的问题,技术和相应的挑战不断涌现。数据科学家必须紧跟这些新技术,并且有足够的创造力去思考如何应用他们创造新的商业机会。具有这些能力的数据科学家在如今的就业市场上很稀缺,数据科学家确实有助于从新产生的数据中得到见解,发掘新的商业机会。

总而言之,确保高质量的数据需要综合应用多学科各种技能。在本文中,我们从数据质量的角度回顾了以下六种数据管理职业的概况:信息架构师,数据库设计师,数据所有者,数据管理员,数据库管理员和数据科学家。

本文内容来自于我们即将出版的新书:《数据库管理原理:数据储存、管理及分析实用指南》。欲了解更多相关内容可以登陆配套网站 http://www.pdbmbook.com 也可观看免费视频 频道https://www.youtube.com/watch?v=o36Z_OqC2acHYPERLINK 

转载本文请联系原作者获取授权

转载请注明出处及作者译者信息