当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向领域的Deep Web查询接口发现与元数据信息抽取研究

发布时间:2017-06-08 04:13

  本文关键词:面向领域的Deep Web查询接口发现与元数据信息抽取研究,由笔耕文化传播整理发布。


【摘要】:在互联网中,大量的信息隐藏在深处而导致普通搜索引擎不能直接搜索到,然而绝大部分这些搜索引擎无法搜索到的信息正是我们需要的重要内容。这些在互联网上存储在网络数据库里,用户却无法通过超链接的形式访问的资源被称为Deep Web数据。为了获得这些深层网的信息,需要通过它们的查询接口提交查询,建立一个Deep Web信息集成系统,查询接口的发现分类和构建元数据库等是首要任务。但是,深度网中的信息存储在不同的Web数据库里,并且随时都在进行动态变化,相应的查询接口也经常变化着,对元信息的获取产生了巨大的困难。作为集成框架的基础,如何正确、有效的进行Deep Web查询接口的发现、元数据信息抽取显得尤为重要。针对上面的主要问题,本文研究的重点内容在于:(1)对Deep Web查询接口的发现进行研究,本文提出了基于规则的方法,通过爬取相关URL获得相应信息源的查询接口所在的网页,定位该网页中查询接口所在的位置,并获取该信息源的接口信息进行存储。(2)对Deep Web源信息的抽取进行研究,本文主要采用了基于视觉特征和自定义规则的方法,来获取到源查询接口中的属性信息,并将这些信息存储在元信息库中。(3)对获取到的Deep Web源信息进行管理,主要采用表格方式存储数据,为系统集成和结果处理提供便利。(4)通过多线程的技术初步解决了多个信息源元数据更新的效率问题。本文最后对Deep Web元数据信息的抽取结果进行了实验验证。实验结果表明所使用的发现、抽取方法具有可行性和较好的性能,所获取的结果适用于Deep Web系统集成以及查询结果处理。同时,查询接口元信息的管理模块具有一定的可扩展性,为Deep Web集成系统的设计打下较好的基础。
【关键词】:Deep Web 查询接口发现 元数据信息抽取 集成
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 绪论8-15
  • 1.1 研究背景8-9
  • 1.2 研究现状9-10
  • 1.3 本文研究内容和目标10-13
  • 1.4 本文解决的关键问题13
  • 1.5 论文研究特色13
  • 1.6 论文结构安排13-15
  • 第二章 Deep Web源查询接口的发现15-27
  • 2.1 Deep Web源查询接口发现的重要性及其难点15
  • 2.2 源查询接口发现的相关技术15-18
  • 2.3 Deep Web源查询接口发现过程18-26
  • 2.3.1 源查询接口发现的整体流程18-19
  • 2.3.2 信息源首页发现算法19-20
  • 2.3.3 信息源主页最大相似度计算20-24
  • 2.3.4 源查询接口的判定规则24-25
  • 2.3.5 源查询接口发现算法时间复杂度分析25-26
  • 2.4 本节提出算法的优缺点26-27
  • 第三章 Deep Web源查询接口信息抽取及元信息的管理27-42
  • 3.1 Deep Web源查询接口信息抽取的重要性及其难点27-29
  • 3.2 源查询接口信息抽取的相关技术29-30
  • 3.3 Deep Web源查询接口信息抽取过程30-39
  • 3.3.1 源查询接口信息抽取的具体流程31-34
  • 3.3.2 元数据信息库设计34-36
  • 3.3.3 源查询接口信息的抽取规则36-39
  • 3.4 元信息更新与多线程技术39-40
  • 3.5 本节采用的信息抽取方法优缺点40-42
  • 第四章 面向领域的Deep Web查询接口发现与元数据信息抽取系统的设计与实现42-47
  • 4.1 系统简介42
  • 4.2 系统设计目标42-43
  • 4.3 系统总体设计43-44
  • 4.4 系统详细设计44-47
  • 4.4.1 领域选择模块44
  • 4.4.2 接口发现模块44-45
  • 4.4.3 接口抽取模块45
  • 4.4.4 元信息管理模块45-47
  • 第五章 实验结果及相关分析47-54
  • 5.1 源查询接口发现的结果及相关分析47-51
  • 5.1.1 实验环境47
  • 5.1.2 源查询接口发现的结果47-48
  • 5.1.3 源查询接口发现的准确率48-51
  • 5.2 源查询接口信息抽取的结果及相关分析51-54
  • 5.2.1 源查询接口信息抽取的结果51-53
  • 5.2.2 源查询接口抽取比率53-54
  • 第六章 总结与展望54-56
  • 6.1 工作总结54
  • 6.2 工作展望54-56
  • 参考文献56-60
  • 致谢60

【相似文献】

中国期刊全文数据库 前10条

1 郑冬冬;崔志明;;Deep Web查询接口选择[J];计算机应用;2006年09期

2 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期

3 周爱武;李玉梅;周闪闪;王宝铜;;基于返回结果的Deep Web查询接口识别[J];计算机技术与发展;2009年07期

4 李齐会;;Deep Web查询接口的判定技术研究[J];计算机与数字工程;2009年03期

5 杨丽华;;基于规则的Deep Web查询接口的抽取[J];电脑知识与技术;2010年01期

6 钱程;阳小兰;;Deep Web查询接口研究[J];计算机与现代化;2012年06期

7 李雪玲;施化吉;兰均;李星毅;;基于决策树和链接相似的Deep Web查询接口判定[J];计算机应用研究;2011年11期

8 徐和祥;王述云;胡运发;;基于本体的Deep Web查询接口分类[J];小型微型计算机系统;2008年10期

9 董永权;李庆忠;丁艳辉;张永新;;一种基于证据理论和任务分配的Deep Web查询接口匹配方法[J];模式识别与人工智能;2011年02期

10 崔晓军;彭智勇;曾承;;基于多标注源的Deep Web查询结果自动标注[J];计算机应用;2009年01期

中国重要会议论文全文数据库 前1条

1 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

中国博士学位论文全文数据库 前1条

1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年

中国硕士学位论文全文数据库 前8条

1 项江;面向领域的Deep Web查询接口发现与元数据信息抽取研究[D];暨南大学;2016年

2 廖柳燕;Deep Web查询结果集成处理研究与实现[D];暨南大学;2016年

3 唐博;基于概念格的Deep Web查询接口建模系统研究与设计[D];西安电子科技大学;2013年

4 李振兴;面向领域的Deep Web查询接口发现研究[D];暨南大学;2014年

5 陈海;Deep Web查询接口发现与模式抽取的研究[D];首都师范大学;2012年

6 陈雅冰;基于领域的Deep Web查询接口抽取[D];华南理工大学;2011年

7 张云冬;特定领域的Deep Web查询集成及结果抽取[D];复旦大学;2008年

8 曹庆皇;Deep Web查询接口匹配技术研究[D];江苏大学;2009年


  本文关键词:面向领域的Deep Web查询接口发现与元数据信息抽取研究,,由笔耕文化传播整理发布。



本文编号:431354

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/431354.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ede87***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com