基于Hadoop的Deep Web查询结果自动抽取研究

发布时间：2017-08-22 18:39

本文关键词：基于Hadoop的Deep Web查询结果自动抽取研究

【摘要】：随着互联网技术的快速发展与广泛应用，网络提供给用户的资源与日俱增。特别是不能被传统搜索引擎通过静态链接而获取的海量信息资源规模增长显著，这部分资源称为深层网（Deep Web）。关于Deep Web的研究，是近年来Web数据管理方向的研究热点。 Deep Web中的信息是通过在特定查询接口提交查询后，以结果页面的方式显示，对Deep Web查询结果进行抽取，将信息资源进行集成，使其以统一的模式进行存储，才能为用户提供更好的、统一的索引服务。因此，Deep Web查询结果抽取是Deep Web数据集成系统中的关键步骤。本文主要对基于DOM树结构与模板方法相结合的抽取算法进行了深入的研究，主要研究及成果如下： ①深入研究比较了几种主要的抽取技术，重点对基于DOM树结构与基于模板的抽取算法进行了详细的介绍，并对各种技术在复杂性、适用范围和自动化程度等方面进行了分析与比较； ②综合基于DOM树结构与基于模板抽取算法的优点，提出了基于DOM树结构与模板方法相结合的抽取算法FIME（Filtering, Iterating, Matching, andExtracting）算法，FIME算法在进行DOM树结构比较之前，首先对页面进行预处理操作，使页面遵守XHTML规则，同时清除页面中对于抽取信息无用的标签及部分属性元素，使得页面更精简，以提高后续匹配算法的效率； ③针对基于DOM树结构抽取算法中回溯处理页面中冗余迭代项导致匹配算法复杂度高的问题，FIME在进行匹配之前首先对页面中的迭代项进行合并，降低了后续匹配算法的时间复杂度； ④结合基于模板抽取算法的思想，FIME将在匹配算法中通过比较DOM树结构而获得的待抽取数据的位置信息作为同一网站页面的模板Wrapper，，对所有同源页面进行待抽取信息的自动抽取，而不是对同源结构相似的页面做重复的处理，提高信息抽取的效率和自动化程度。由于Deep Web查询结果页面返回时为海量数据，基于单一节点的抽取算法存在计算瓶颈。目前，开源的分布式系统基础架构Hadoop平台已经非常稳定，因此，本文将FIME算法部署在Hadoop平台中进行实验，实验结果表明FIME算法具有较高的抽取准确率和执行效率。
【关键词】：Deep Web查询结果 DOM树 模板 FIME算法 Hadoop
【学位授予单位】：重庆大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP391.3
【目录】：

摘要3-4
ABSTRACT4-8
1 绪论8-13
1.1 背景和意义8-10
1.2 国内外研究现状10-11
1.3 本论文研究工作11-12
1.4 本章小结12-13
2 Hadoop 平台概述13-20
2.1 Hadoop 平台背景13
2.2 Hadoop 分布式文件系统 HDFS13-16
2.2.1 HDFS 体系结构13-15
2.2.2 HDFS 的工作流程15
2.2.3 HDFS 的特点15-16
2.3 Hadoop 的 MapReduce 计算框架16-19
2.3.1 MapReduce 模型16-17
2.3.2 MapReduce 的实现17-18
2.3.3 Shuffle 过程18-19
2.3.4 MapReduce 的特点19
2.4 本章小结19-20
3 Deep Web 信息抽取技术20-27
3.1 信息抽取技术历史20
3.2 Deep Web 信息抽取技术20-25
3.2.1 基于 DOM 树结构的信息抽取21-23
3.2.2 基于模板的信息抽取23-24
3.2.3 基于视觉特征的信息抽取24
3.2.4 基于统计理论的信息抽取24-25
3.3 Deep Web 信息抽取技术分析25-26
3.4 本章小结26-27
4 基于 DOM 树和模板方法相结合的 Deep Web 查询结果抽取技术27-48
4.1 FIME 算法名词解释27-28
4.2 FIME 算法架构28-30
4.3 清噪模块30-31
4.4 迭代模块31-34
4.5 匹配模块34-37
4.6 抽取模块37-40
4.7 基于 Hadoop 的 FIME 算法设计与实现40-47
4.7.1 清噪模块分布式执行算法41-44
4.7.2 抽取模块分布式执行算法44-47
4.8 本章小结47-48
5 实验设计与结果分析48-57
5.1 实验数据与评价指标48
5.2 集群环境48
5.3 实验结果及分析48-56
5.4 本章小结56-57
6 总结与展望57-60
6.1 本文总结57-58
6.2 工作展望58-60
致谢60-62
参考文献62-66
附录66
A. 作者在攻读硕士学位期间成果目录66
B. 作者在攻读硕士学位期间参加的项目66

【相似文献】

中国期刊全文数据库前10条

1 恽佳丽;何军;黄厚宽;;基于语料库的多词单位抽取算法[J];北京交通大学学报;2009年05期

2 乔磊;李存华;仲兆满;王俊;刘冬冬;;基于规则的人物信息抽取算法的研究[J];南京师大学报(自然科学版);2012年04期

3 于琨,糜仲春,蔡庆生;可应用于互联网的自学习中文关键词抽取算法[J];中国科学技术大学学报;2002年03期

4 赵鹏;蔡庆生;王清毅;耿焕同;;一种基于复杂网络特征的中文文档关键词抽取算法[J];模式识别与人工智能;2007年06期

5 胡志敏;;基于综合权重的多文档关键词抽取算法[J];计算机与数字工程;2010年06期

6 袁晓峰;;基于词语相关度的文档主题抽取算法[J];成都大学学报(自然科学版);2012年04期

7 沈媛媛;刘益成;郑恭明;;利用VBA在Word中实现试卷的自动生成[J];电脑学习;2007年01期

8 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期

9 刘云峰;;基于标签路径聚类的文本信息抽取算法[J];计算机工程;2010年12期

10 沈元一;郑骁庆;顾轶灵;;基于语义的互联网药品信息抽取算法[J];计算机系统应用;2011年01期

中国重要会议论文全文数据库前4条

1 穆亚东;周秉锋;;基于信念传播的图像抽取算法[A];中国感光学会第七次全国会员代表大会暨学术年会和第七届青年学术交流会论文摘要集[C];2006年

2 胡佳妮;郭军;徐蔚然;;一种基于短文本的独立语义特征抽取算法[A];全国网络与信息安全技术研讨会论文集（上册）[C];2007年

3 周毅;;基于逻辑行列切分树的表格数据抽取算法[A];第二十届全国数据库学术会议论文集（技术报告篇）[C];2003年

4 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年

中国硕士学位论文全文数据库前10条

1 沈元一;互联网药品信息抽取算法的研究[D];复旦大学;2010年

2 周赵鹏;基于互联网的构件库系统构件描述信息抽取算法研究[D];华中科技大学;2012年

3 韩雪娇;英语试题关键词抽取算法研究[D];北方工业大学;2013年

4 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年

5 李兴东;智能抽取算法在专家库抽取系统中的应用研究[D];吉林大学;2013年

6 柳凌燕;基于免疫规划的图像情感规则抽取算法的研究[D];太原理工大学;2010年

7 张鹏;中文意见挖掘的特征层次构建和抽取算法[D];重庆大学;2010年

8 王敬普;基于包装器模型的文本信息抽取算法研究[D];湖南大学;2006年

9 皮珊;Web信息抽取系统的设计与实现[D];浙江工业大学;2013年

10 李知颖;基于包装器模型的信息抽取算法研究[D];东北师范大学;2009年

本文编号：720791

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/720791.html

上一篇：中国煤炭杂志投稿须知及防诈骗声明
下一篇：一种室内导盲机器人的RFID-语音交互系统设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|