web信息抽取技术研究与应用

发布时间：2017-05-19 23:09

本文关键词：web信息抽取技术研究与应用，由笔耕文化传播整理发布。

【摘要】：近几十年来,互联网的迅猛发展改变了人们获取信息的方式,从原始的纸质书本转移到了网络上。怎样能在互联网这个巨大的信息宝库中发现有价值的信息并为人们所用,至关重要。Web信息抽取技术就是在这样一种情况下,产生、发展并发挥作用。其主要的目标是在web这种半结构化的信息池中,精准的获取有研究价值的信息。本文主要研究如何准确高效地从大量的web网页中,获取有价值的信息并规则化存储。具体工作如下： 1、利用正则表达式对文本的处理,构建了一个基于正则表达式的增量式统一信息抽取系统。该系统可以对论坛,博客,新闻网站进行增量式爬取。应用统一的架构对大量的网站进行信息的采集和信息的抽取。在采集之前把相应的正则表达式存储在模板表中,每增加一个新的网站,只需要在种子和模板添加或修改信息即可。从而简化web信息抽取系统的构建,大幅度降低抽取系统的开发成本,增加该系统的可拓展性,减少后期维护的工作量。 2、本文把基于正则表达式的信息抽取技术进一步应用到了实际系统中——图书馆信息采集系统。通过对国内各大高校图书馆馆藏资源检索系统的分析和研究,把这些系统分成四类,分别制定抽取策略。该系统成功采集抽取数据一千七百多万条,并规则化存储在数据库中。 3、提出一种基于网页分块的BBS信息抽取技术,该算法不但保证了准确率且具有一定的普适性,减少人工的参与和开发的成本。首先,本文提出基于信息论的网页分块方法,进行噪音信息的去除。其次,根据BBS的评论信息具有一定的相似性的特点,本文在网页分块的基础上提出基于深度加权的DOM树相似度算法来抽取评论信息,在减少人工参与和开发难度的同时保证了正确率。本文提出的两种信息抽取算法可以快速精准地提取网页中的信息,在舆情分析和搜索引擎的信息抽取方面有很好的应用前景和参考价值。
【关键词】：信息抽取 网页分块 树深度加权 相似度 正则表达式
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP393.092
【目录】：

摘要4-5
ABSTRACT5-9
第一章绪论9-15
1.1 研究背景与意义9-10
1.2 国内外研究现状10-12
1.2.1 爬虫技术国内外研究现状10
1.2.2 web信息抽取技术国内外研究现状10-12
1.3 论文的主要内容12-13
1.4 论文结构安排13-15
第二章 web信息抽取系统相关技术介绍15-20
2.1 网络爬虫技术15-17
2.1.1 全网爬虫15-16
2.1.2 增量式爬虫16-17
2.2 Web信息抽取技术17-19
2.2.1 基于包装器的web信息抽取系统17-18
2.2.2 基于视觉的网页分块技术18-19
2.2.3 Web信息抽取系统的评价标准19
2.3 本章小结19-20
第三章正则表达式在web信息抽取技术中的应用20-35
3.1 正则表达式应用在信息抽取技术中的可行性分析20
3.2 增量式统一信息抽取系统需求20-21
3.3 增量式统一信息抽取系统架构21-23
3.4 各模块详细设计23-27
3.4.1 模板定制模块详细设计23-24
3.4.2 网页下载模块详细设计24-25
3.4.3 匹配模块详细设计25-26
3.4.4 增量处理模块详细设计26-27
3.5 主程序接口介绍27
3.6 系统流程27-30
3.7 数据存储30-31
3.8 结果展示31-34
3.9 本章小结34-35
第四章图书馆信息采集系统35-46
4.1 需求分析35-36
4.2 系统架构36-37
4.3 采集模块实现37-42
4.3.1 图书馆网站分类38-39
4.3.2 断点续爬机制39-40
4.3.3 采集模块的流程40-42
4.4 采集程序监控模块42
4.5 数据校对模块42-43
4.6 数据存储模块43-44
4.7 结果展示44-45
4.8 本章小结45-46
第五章基于网页视觉分块的BBS评论信息抽取技术研究46-60
5.1 HTML预处理46-47
5.2 网页清洗47-48
5.3 构造带有视觉信息的DOM树48-49
5.4 获取网页正文块49-54
5.4.1 基于视觉信息的网页分块50-51
5.4.2 基于信息论模型的网页分块51-54
5.5 基于树的深度相似度算法提取BBS评论信息54-56
5.5.1 子树最优自由匹配准则54-55
5.5.2 基于深度加权的DOM树相似度度量55-56
5.5.3 评论信息抽取方法56
5.6 实验结果分析56-59
5.7 本章小结59-60
第六章总结与展望60-61
参考文献61-63
致谢63-64
攻读学位期间发表的学术论文目录64

【参考文献】

中国期刊全文数据库前9条

1 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期

2 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

3 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期

4 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

5 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

6 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

7 王灿辉;张敏;马少平;;自然语言处理在信息检索中的应用综述[J];中文信息学报;2007年02期

8 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[J];中文信息学报;2008年01期

9 张鑫;陈梅;王翰虎;王嫣然;;基于视觉特征和领域本体的Web信息抽取[J];计算机技术与发展;2011年02期

本文关键词：web信息抽取技术研究与应用，由笔耕文化传播整理发布。

，

本文编号：380167

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/380167.html

上一篇：基于MapReduce的Web链接结构分析算法研究
下一篇：基于索引结构的关系数据库关键词检索

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|