当前位置:主页 > 管理论文 > 质量管理论文 >

数据质量管理与数据清洗技术的研究与应用

发布时间:2016-06-16 09:05

  本文关键词:数据质量管理与数据清洗技术的研究与应用,由笔耕文化传播整理发布。


数据质量管理与数据清洗技术的研究与应用

CAJ全文下载

分享到:

数据质量管理与数据清洗技术的研究与应用

分享到QQ空间

数据质量管理与数据清洗技术的研究与应用

数据质量管理与数据清洗技术的研究与应用

作    者: 陈孟婕

来    源: 北京邮电大学 2013年

摘    要: 公司的竞争实力已经从有形的产品转变为无形的信息。数据是信息的载体,当挖掘其中有价值的信息或者将其应用于某个领域时,数据质量都应该作为基本的需求得到保证。然而,数据往往存在一些质量问题,例如不完整、不一致、冗余、冲突、错误等,这些问题不仅影响了人们对信息的判断,甚至直接造成经济损失。清除坏数据、提高数据质量,对于应用服务、系统架构以及项目运维具有重要的现实意义。本论文选题来源于“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”项目,主要解决项目中的健康检查数据的质量问题,为项目提供数据质量管理方案并设计清洗工具,使管理者掌握数据质量情况并能够对其进行有效控制,达到提高数据质量的目标。 论文的研究工作主要体现在以下几方面:1.调查国内外数据质量研究现状、取得的研究成果以及相关国际标准,从数据质量定义、数据质量管理方法及模型、数据质量评估等理解数据质量问题,对不同需求的质量工具进行分类总结。2.数据清洗技术是数据质量控制的基本方法,其实现原理是对不同类型的缺陷数据运用统计学方法、数据挖掘算法、语义分析技术等进行数据修正,研究并总结了常用的清洗算法,包括异常记录检测和重复记录检测两大类。3.研究并借鉴成熟的六西格玛质量管理理论,结合项目业务需求及数据特点,设计了面向健康检查项目的质量管理流程及质量管理框架,将质量问题化解为业务流程控制问题。4.在质量工程总体设计阶段,分析项目中数据特征,分析数据模式中的数据关联关系,划分业务流程并识别质量问题,定义质量工程需求,并运用数据清洗原理,制定了符合业务需求的数据清洗策略。5.在研究的基础上,总结项目开发过程中数据质量处理经验,基于原有清洗工具设计了数据质量管理功能,在业务逻辑层设计了缺陷数据的识别以及处理流程,并在测试数据集上实施质量工程,从而实现了数据质量的提高。 论文的主要贡献是,提出了一种基于数据模式的数据质量管理方法,建立质量管理流程与质量管理模型,在业务环节、数据模型中建立数据的对应关系,识别质量问题,并运用清洗技术处理不一致的数据。通过实验研究表明,本文提出的模式层次数据清洗方案能够有效识别以及控制数据质量。

关 键 词:

学位级别:  硕士

所属学科馆:

信息科技馆

计算机软件及计算机应用馆

数据库类型:


目  录

摘要

4-6

ABSTRACT

6-10

第一章 绪论

10-16

1.1 课题研究背景与意义

10-11

1.1.1 论文背景及问题提出

10-11

1.1.2 研究意义

11

1.2 国内外研究现状

11-13

1.3 硕士期间主要工作

13-14

1.4 论文目标与组织结构

14-16

第二章 数据质量管理研究

16-23

2.1 数据质量

16-18

2.1.1 数据质量起源

16

2.1.2 数据质量解释

16-17

2.1.3 数据质量度量

17-18

2.2 数据质量管理框架

18-20

2.2.1 数据质量管理基本措施

18-19

2.2.2 数据质量管理与控制模型研究

19-20

2.3 数据质量评估算法及模型

20

2.4 数据质量工具

20-21

2.5 本章小结

21-23

第三章 清洗技术及数据质量领域的应用

23-26

3.1 清洗技术介绍

23-24

3.1.1 数据清洗技术

23

3.1.2 数据清洗分类

23-24

3.2 数据清洗常用算法

24

3.3 清洗技术在数据质量领域的应用

24-25

3.4 本章小结

25-26

第四章 面向生殖健康服务的数据质量管理框架

26-31

4.1 六西格玛质量管理工程

26-27

4.2 数据质量工程实施流程

27-30

4.2.1 工程实施流程

27-29

4.2.2 面向生殖健康服务的数据质量框架

29-30

4.3 本章小结

30-31

第五章 质量管理系统设计与实现

31-60

5.1 信息系统设计原则

31-32

5.2 需求定义和分析

32-39

5.2.1 质量工程需求定义

32-33

5.2.2 业务子系统及决策支持管理系统现状分析

33-39

5.3 质量工具总体设计

39-50

5.3.1 总体设计思路

39-42

5.3.2 识别数据质量问题

42-48

5.3.3 数据质量问题解决方案

48-50

5.4 质量工程实施

50-58

5.4.1 XML配置文件及数据接口

50-51

5.4.2 逻辑控制层

51-57

5.4.3 用户接口业务流程设计

57-58

5.4.4 实验结果分析

58

5.5 本章小结

58-60

第六章 总结与展望

60-62

6.1 论文总结

60

6.2 下一步工作

60-62

参考文献

62-65

致谢

65-66

攻读学位期间发表的学术成果

66

中国学术期刊网络出版总库[1] 李志辉;;ETL实施的数据质量问题研究[J];电脑知识与技术;2006年26期[2] 阮喜珍;;六西格码与ISO9000的“兼容”[J];中国管理信息化(综合版);2007年08期[3] 胡桂华;;国外人口普查质量评估方法综述[J];调研世界;2011年11期[4] 王学良;商广娟;;多指标的数据质量评价方法综述[J];航空标准化与质量;2007年06期[5] 周东山;李喜英;;数据仓库建设中数据质量问题的研究[J];华南金融电脑;2007年07期[6] 叶鸥;张璟;李军怀;;中文数据清洗研究综述[J];计算机工程与应用;2012年14期[7] 曹建军;刁兴春;汪挺;王芳潇;;领域无关数据清洗研究综述[J];计算机科学;2010年05期[8] 徐俊刚;裴莹;;数据ETL研究综述[J];计算机科学;2011年04期[9] 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期[10] 王和勇;吕威;陈冰川;;基于加速度趋势比较的异常数据清洗研究[J];计算机应用与软件;2010年08期 中国硕士学位论文全文数据库[1] 张兴华;数据清洗方法在电力企业数据中心的应用研究[D];兰州理工大学;2011年[2] 徐壮;M公司精益六西格玛运作管理体系设计[D];天津大学;2007年[3] 张联超;基于本体的数据清洗系统框架研究[D];南京航空航天大学;2008年[4] 袁小冬;基于关联规则的临床行为异常检测的应用研究[D];江苏大学;2010年


  本文关键词:数据质量管理与数据清洗技术的研究与应用,由笔耕文化传播整理发布。



本文编号:57781

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/zhiliangguanli/57781.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户19261***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com