基于视觉信息的Deep Web信息自动抽取技术的研究

发布时间：2017-03-26 03:10

本文关键词：基于视觉信息的Deep Web信息自动抽取技术的研究，由笔耕文化传播整理发布。

【摘要】：随着互联网技术日新月异的发展，web已经成为一个巨大的信息源，拥有着海量的重要数据。目前数据挖掘在许多领域应用广泛，如：金融、医疗保险、市场分析等。通过分析挖掘得到的数据，可以获得许多有用知识，最大程度的进行辅助决策。然而，Web数据的特点是数量多，形式异构，自治的，分布存储，这使得Web数据挖掘的分析工作变得尤为困难，所以当务之急是对数据进行集成，为高质量数据分析奠定基础。根据web中所蕴含信息的“深度”，可以将web分为Surface Web和DeepWeb。在数量和质量上，Deep Web远远超过了Surface Web，具有较高的应用价值。因此，如何进行抽取Deep Web中的数据，以便于更有效的分析，具有重要的现实意义和广阔的应用前景。 Internet上的各个网站的信息相互独立，，Deep Web数据收集起来十分困难，在这种情况下，通常的搜索引擎发挥的作用微乎其微。虽然手工编写信息的抽取规则准确率较高，但技术门槛低，而且由于信息源的多元性和改版的潜在风险，手工方法无法满足人们对信息获取的需求。在这样的背景下，可以发现Deep Web信息自动提取技术的实现与研究是一个非常重要的问题。针对这一问题，本文在Deep Web信息自动抽取技术方面，包括基于网页视觉信息、机器学习训练模型、Deep Web数据区域定位、数据项的对齐等方面，进行了深入而系统的研究，同时开发了Web信息自动抽取系统。本文具体的研究工作和研究成果如下： (1)基于页面中的视觉信息，分割网页得到视觉块树，然后在视觉块树上，整合数据区域判定所需的视觉属性，得到进行实验的训练集。 (2)使用机器学习的有效工具进行训练，结合人工编写的规则进行去重去噪，准确地完成了Deep Web数据区域的查找和定位。 (3)提出了有效的对齐规则，大大提高了数据项的对齐准确率。 (4)在以上研究内容的基础上，设计开发了Deep Web信息自动抽取系统，系统实现功能包括：1)网页视觉块树的转换；2)数据区域的自动定位；3)数据项的完整抽取与对齐；4)生成Wrapper；5)实现了自动翻页功能实现表明，本文提出的技术方法可以在基本无人工干预下快速、自动地抽取列表页面的丰富数据。
【关键词】：deep web 信息抽取 视觉信息 机器学习
【学位授予单位】：中国海洋大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP181;TP311.13
【目录】：

摘要6-8
Abstract8-12
1 引言12-19
1.1 研究背景和意义12
1.2 Web 信息抽取技术的发展12-16
1.2.1 概述12-15
1.2.2 面临的问题15-16
1.3 本文研究内容及创新点16-17
1.4 本论文的组织17-19
2 决策树分类算法19-26
2.1 决策树简介19-24
2.1.1 决策树的学习算法20-22
2.1.2 问题22-24
2.2 决策树的评估24
2.3 WEKA 工具描述24-25
2.4 小结25-26
3 机器学习与规则融合的列表页面抽取26-45
3.1 网页的视觉特征27-28
3.2 Deep Web 页面的视觉化表示28-32
3.3 页面分割算法 VIPS 的概述与应用32-35
3.3.1 VIPS 分割算法32-34
3.3.2 DOM4J 解析 xml 字符串34-35
3.4 数据区域的自动定位35-40
3.4.1 数据区域的视觉特征35-36
3.4.2 机器学习数据区域的判定规则36-38
3.4.3 手工编写规则完成区域节点的筛选38-40
3.5 数据项的对齐并输出40-43
3.5.1 视觉匹配算法41
3.5.2 数据项对齐算法41-43
3.5.3 数据项的对齐示例43
3.6 小结43-45
4 列表页面自动抽取系统45-53
4.1 系统简介45-52
4.1.1 实验训练样例的获取45-46
4.1.2 训练集的优化46-47
4.1.3 训练样例的获取47-48
4.1.4 列表页面抽取及过滤48-50
4.1.5 数据项对齐实验结果50-51
4.1.6 分页数据的自动连续抽取51-52
4.2 小结52-53
5 总结与展望53-54
5.1 总结53
5.2 展望未来的工作53-54
参考文献54-57
致谢57-58
个人简历58
发表的论文58
科研成果58-59

【共引文献】

中国博士学位论文全文数据库前2条

1 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年

2 吴共庆;基于标签路径特征的Web新闻内容抽取研究[D];合肥工业大学;2012年

本文关键词：基于视觉信息的Deep Web信息自动抽取技术的研究，由笔耕文化传播整理发布。

本文编号：268184

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/268184.html

上一篇：流量劫持的网络不正当竞争行为研究
下一篇：基于asp的换客交易网站系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|