当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web服务信息抓取与整合方案研究

发布时间:2017-05-25 10:08

  本文关键词:Web服务信息抓取与整合方案研究,由笔耕文化传播整理发布。


【摘要】:随着Web服务的广泛应用和数量的大量增长,如何从互联网中快速准确地发现满足用户需求的Web服务成为研究的焦点问题,而解决这一问题的一种有效方式就是抓取Web服务及相关描述信息,建立统一格式的Web服务信息库。 本文以抓取互联网上的Web服务及其相关描述信息为目标,,设计并实现了一种面向Web服务及其描述信息的抓取与整合方案。首先,调查、分析互联网上的Web服务存在现状,在此基础上,设计基于通用搜索引擎的种子收集与筛选机制;其次,根据收集的种子信息抓取互联网上的Web服务及其相关描述信息;最后,整合通过格式验证的Web服务及其相关描述信息,补全不完整的Web服务的描述信息,建立统一格式的Web服务信息库。本文共抓取了320个互联网站点,共8177个Web服务,并且能够保证76.6%以上的信息获取的准确率,和45%以上的文档覆盖率。 综上,本文提出的Web服务信息抓取与整合方案能够高效地抓取到互联网上的Web服务并整合其相关描述信息,为Web服务的研究提供有质量的数据,并且通过整合Web服务的相关信息为后续的Web服务开发与管理提供依据。
【关键词】:Web服务 抓取 整合
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第一章 绪论8-10
  • 1.1 研究背景8
  • 1.2 研究目标和主要研究内容8-9
  • 1.3 论文结构9-10
  • 第二章 文献综述10-18
  • 2.1 Web 服务概述10-13
  • 2.1.1 Web 服务10-12
  • 2.1.2 Web 服务核心技术12
  • 2.1.3 Web 服务研究现状12-13
  • 2.2 网络爬虫研究现状13-14
  • 2.3 信息抽取相关技术14-16
  • 2.4 网页去噪技术16-17
  • 2.4.1 基于网页结构的去噪技术16
  • 2.4.2 基于模板的网页去噪技术16-17
  • 2.5 本章小结17-18
  • 第三章 Web 服务信息抓取与整合方案的设计18-31
  • 3.1 方案需求分析18-20
  • 3.2 方案的整体架构与各个模块的设计20-24
  • 3.2.1 种子收集部分的设计20-22
  • 3.2.2 过滤冗余信息部分的设计22-23
  • 3.2.3 服务信息整合与扩充部分的设计23
  • 3.2.4 功能组件之间的数据流动23-24
  • 3.3 基于开源爬虫框架的改进设计24-30
  • 3.3.1 对于 Frontier 组件的改进25-27
  • 3.3.2 对于 Processing chains 组件的改进27-30
  • 3.4 本章小结30-31
  • 第四章 Web 服务信息抓取与整合方案的相关技术实现31-41
  • 4.1 面向 Web 服务的主题爬虫搜索策略31-33
  • 4.2 URL 的调度策略33-34
  • 4.3 种子收集模块的实现34-36
  • 4.4 爬取过程中信息的去“噪”36-39
  • 4.5 异构信息的整合39-40
  • 4.6 Web 服务信息的扩充40-41
  • 第五章 Web 服务信息抓取与整合方案的效果分析41-43
  • 5.1 实验分析41
  • 5.1.1 数据来源41
  • 5.2 实验结果与分析41-42
  • 5.3 本章小结42-43
  • 第六章 总结与展望43-44
  • 6.1 论文总结43
  • 6.2 工作展望43-44
  • 参考文献44-47
  • 发表论文和参加科研情况说明47-48
  • 致谢48

【参考文献】

中国期刊全文数据库 前8条

1 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期

2 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期

3 罗成;李弼程;张先飞;;一种有效的网页噪声消除的方法[J];计算机工程;2007年08期

4 丁宝琼;谢远平;吴琼;;基于改进DOM树的网页去噪声方法[J];计算机应用;2009年S1期

5 龚秋艳;陈良育;曾振柄;;简单高效的URL消重的方法[J];计算机应用;2010年S1期

6 刘丹;程晓;侯德林;;一种基于RMI的分布式架构设计[J];计算机应用与软件;2007年09期

7 刘书一;;基于文本相似度的网页消重策略[J];计算机应用与软件;2011年11期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期


  本文关键词:Web服务信息抓取与整合方案研究,由笔耕文化传播整理发布。



本文编号:393399

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/393399.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92d2f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com