当前位置:主页 > 管理论文 > 质量管理论文 >

大数据的研究方向_国外数据质量管理研究综述

发布时间:2016-10-16 09:38

  本文关键词:国外数据质量管理研究综述,由笔耕文化传播整理发布。


国外数据质量管理研究综述

(2008-10-16 10:39:55)

1 引言

数据(data)是为反映客观世界而记录下来的可以鉴别的数字或符号。如数字、文字、图形、图像、声音等。随着信息技术应用的不断普及,信息系统中数据质量问题受到越来越多的关注,特别是统计、管理和计算机等领域。数据质量问题的研究,在统计领域始于1960年代末期,管理领域始于1980年代初,计算机领域始于1990年代初[1]。

本文对国外近十年管理领域的数据质量研究进行总结和评述,并提出进一步的研究方向。文章结构的第二部分是数据质量定义和质量维度,第三部分是数据产品制造过程,第四部分是数据质量的测量和评估,第五部分是数据质量管理体系,第六是结束语。

2 数据质量的定义和维度

从20世纪50年代开始,人们从不同的角度定义质量[2,3]。基本上可以分为五种:基于消费者的,基于制造的,基于产品的,基于价值的,先验的。比较流

[4][5]行的定义有:质量是一组固有特性满足要求的程度;质量是使用的适合性;

质量意谓对要求的符合性[6]。

在许多文献中,数据质量DQ(data quality)与信息质量IQ(information quality)两个术语通用,定义多种多样。文献[7]将数据质量定义为“使用的适合性”,此定义的基础是当时全面质量管理中广泛接受的质量概念,因此关于数据质量的这个定义也被广泛接受。文献[8]将数据质量定义为“一个信息系统表达的数据视图与客观世界同一数据的距离”。有些文献将DQ直接定义为一组属性(特征),如正确性、适时性、完全性、一致性和相关性等。

采用文献[7]的定义,数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同,数据质量是相对的,不能独立于使用数据的消费者来评价数据质量[9]。因此,识别数据质量维度成为有价值的研究工作。数据质量维度是一组表达数据质量构成或者数据质量单一方面的数据质量属性[7]。 文献[7]采取二阶段调查方法识别出4类共15个数据质量维度。固有质量包括:正确性(没有错误),客观性,可信性,声誉。可访问性质量包括:可访问性,访问安全。语境质量包括:相关性,增值性,及时性,全面性,数据量。表达质量包括:可解释性,易理解性,简明性,一致性。

文献[10]识别出6个Web数据数据特征共32个子特征。功能性特征包括:适宜性,正确性,互用性,灵活性,安全,可追溯性。可靠性特征包括:成熟度,可恢复性,可用性,可降解性,容错。效率特征包括:时间行为,资源行为。合用性特征包括:可理解性,可学习性,可操作性,乐趣,清晰性,帮助性,直率性,习俗化,用户友好。维护特征包括:可分析性,可改变性,稳定性,可测试性,可管理性,可复用性。可移植性特征包括:适应性,一致性,可替代性,可安装性。

文献[11]提出6个Web数据质量标准,包括:权威,正确性,客观性,流通,定位,导向。

文献[12]在文献[7]的基础上,采用调查方法得到Web数据质量维度。固有质量指正确性和内容错误,包括:准确性,可用性,相关超级链接。语境质量指提供作者信息。表达质量包括:组织,视觉效果,版面特点,一致性,活泼有吸引力,内容混乱。可访问性质量指提供导航工具。

文献[13]以符号学为基础,建立4个符号学层次共11个质量维度。句法层次的维度是良好定义或者正规的句法。语义层次的维度包括:易理解,明确,有意味,恰当。语用层次的维度包括:适时,简明,易于访问,声誉好。社会层次的维度包括:获知,明白差异。每个维度都有具体的改进策略。

文献[14]给出3类共22个评估标准。主观类包括:可信性,简明表达,可解释性,相关性,声誉,可理解性,增值。客观类包括:完全性,客户支持,文档,客观性,价格,可靠性,安全,适时性,可验证性。过程类包括:精确性,数据量,可用性,表达一致性,等待时间,响应时间。对每个标准有特定的评估方法。

文献[15]识别出5类28个数据质量维度。人类工程学质量类维度包括:易于导航,舒适性,可学习性,视觉信号,音频信号。可访问性质量类维度包括:技术访问,系统可用性,技术安全,数据可访问性,数据共享,数据可转换性。处理质量类维度包括:可控性,容错,适应性,系统反馈,效率,响应。语境质量类维度包括:增值,相关性,适时性,完全性,适当的数据。表达质量类维度包括:可解释性,一致性,简明性,结构,可读性,对照。

文献[16]给出6个Web数据检索的质量度量,包括:流通,可用性,信噪比,权威,流行,内聚性。

文献[17]给出2种4类共16个Web数据质量维度,包括:理解,正确,清晰,适用,简明,一致,恰当,流通,方便,适时,可追溯,交互,可访问,安全,可维护,快捷。

文献[18]对包括上述9个数据质量维度方案在内的12个方案进行了分析和评述,12个方案中有3个是引用另外两个的成果。文献[19]对包括文献[18]的12个方案在内的13个方案进行分析和评述。

美国国家统计科学研究所(NISS)关于数据质量的研究表明[20]:(1)数据是产品。(2)作为产品,数据有质量,这个质量来自产生数据的过程。(3)数据质量原则上可以测量和改进。(4)数据质量的重要性正在增加,但不平衡。(5)在大学里,实质上不存在数据质量作为一个重要研究领域的认识。(6)数据质量与环境有关。(7)数据质量是多维度的。(8)数据质量是多尺度的。(9)人的因素是核心。

从上述数据质量维度方案可以看出,现有方案较多地涉及Web数据质量。尽管有些维度的重要性得到广泛认同,由于数据质量依赖使用数据的个体,无论是研究人员还是数据质量的从业人员都未对数据质量维度集形成共识。同一词汇在不同的维度方案中的语义不完全相同,这点在文献[18]和[19]对维度频次的统计差异可以看出。由于管理学强调环境和个体差异,作者认为没有必要(似乎也不可能)建立一套广泛接受的完整的数据质量维度。因此,在特定的背景中识别数据质量维度是有价值的。识别出来的数据质量维度得到认同的程度,依赖于识别的方法和过程。

3 数据产品制造过程

文献[21]和[22]利用信息系统环境和制造环境的相似性,建立起数据产品与物质产品的联系。原始数据对应原材料,数据加工对应材料加工,数据产品对应物质产品。这样,全面质量管理(TQM)的原则、方法、指南和技术就可以用于数据质量管理。在数据产品制造环境中有四种角色:数据提供者,数据生产者,数据消费者,数据管理者。

过程是一组将输入转化为输出的相互关联或相互作用的活动。过程方法和过程的系统方法是质量管理的基本原则[3]。确定数据质量相关的过程是质量管理的重要任务之一。由于数据是由信息系统加工的,计算机科学技术领域现有的信息系统建模方法可以用于数据质量相关过程的识别,如数据流图(DFD)、实体-关系(E-R)图和面向对象模型等。但是这些方法缺乏系统地描述数据制造过程的能力,同时缺乏用来清楚地表达制造细节的构件。因此,人们试图设计更加适合数据质量测量和改进的数据制造系统建模方法。

文献[23]给出的数据制造系统模型,通过建立表达数据单元和系统构件关联关系的数据制造系统分析矩阵,系统地追踪数据产品相关属性,这些属性的测量值可以用以数据制造系统的改进。

文献[24]给出一种称为IP-MAP(information product map)的数据制造系统建模方法。IP-MAP包括8种组装块:源(原始输入数据)块,消费者(输出)块,数据质量块,加工块,,数据存储块,决策块,业务边界块,信息系统边界块。采用自顶向下的设计方法得到的IP-MAP可以使数据管理者看见数据产品制造中的最重要环节,识别影响数据质量的关键环节,确认数据制造系统的瓶颈。IP-MAP不仅能帮助识别过程拥有者,还能帮助实现质量的源头控制,在数据制造过程的不同阶段用适当的质量维度进行产品质量测量。

计算机科学技术领域的信息系统建模方法,主要目的是系统分析。文献[23]和[24]的模型主要针对投入运行后信息系统中数据质量管理问题。事实上,数据质量不仅依赖信息系统的运行维护,还依赖信息系统的分析、设计和实现。因此,开发适用于信息系统从分析设计到运行维护全过程的、适合数据质量管理的信息系统模型,不仅可以从整体上考虑信息系统开发的数据质量和运行的数据质量,还可以降低解决系统开发和运行过程中数据质量问题的总体成本。

4 数据质量的测量和评估

4.1 数据质量要求

数据质量要求是为使用户获得特定质量数据而需要附加在数据上或者在数据文档中列明的指标[25],它是检验质量的标准。文献[25]在几个基本概念的基础上,系统地论述了建立数据质量要求的方法和步骤。数据质量参数(简称质量参数)是用户评价数据质量定性的或者主观的维度。如来源可信、适时等。数据质量指标(简称质量指标)是提供数据客观信息的数据维度。如来源、创建时间、收集方式等。

建立数据质量要求的过程如图1所示,共四个步骤:

第一步,建立应用视图。输入是应用需求,输出是应用视图。

第二步,确定质量参数。输入是应用视图、应用质量要求和侯选质量属性,输出是参数视图(附加在应用视图上的质量参数)。

第三步,确定质量指标。输入是参数视图,输出是质量视图(包含质量指标的应用视图)。

第四步,质量视图集成和应用视图求精。输入是质量视图,输出是集成的质量计划。


  本文关键词:国外数据质量管理研究综述,由笔耕文化传播整理发布。



本文编号:141467

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/zhiliangguanli/141467.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d81e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com