当前位置:主页 > 科技论文 > 搜索引擎论文 >

DeepWeb查询接口的模式匹配研究

发布时间:2017-03-27 02:08

  本文关键词:DeepWeb查询接口的模式匹配研究,由笔耕文化传播整理发布。


【摘要】:随着互联网和计算机学科技术的超快速发展,Web网页信息是通过静态和动态的2种方式向服务器端发布网页信息,其发布的在网络数据库中网页数据量十分可怕的,但是,存在服务器上的网页可以分为浅层网SurfaceWeb和深度网DeepWeb两种,Surface Web则是通过一种静态的链接方式即可被访问到的网页,SurfaceWeb网页信息则可以被大多数的搜索引擎抓取网页内容,而相对于SurfaceWeb而言,DeepWeb则是指存在服务器上的某些的网络数据库,,那么,对于这些网络数据库来说,其网页内容是根据用户查询条件动态可变的,这些网络数据库并不能被传统的搜索引擎抓取到信息,DeepWeb中潜藏更大价值的数据信息。 目前,越来越多人们获取信息的主要来源是DeepWeb,而网页信息内容则是以结构化的分布形式存储到网络数据库之中。DeepWeb中包含着海量的数据信息,很高质量的数据信息隐藏在DeepWeb中,如何在DeepWeb中快速有效地获取高质量的数据信息?DeepWeb却不能被传统搜索引擎搜索到隐藏在深度网中数据,研究DeepWeb查询结果的目的是有助于实现对DeepWep中的数据信息的自动抽取,可以更快捷、更准确地获取知识。 在form表单中体现用户多种查询条件组合,由于DeepWeb只关注于某个领域,因此,本文将引入WordNet的语义关系作为DeepWeb查询接口表单模式匹配过程。本文将会提出一种研究DeepWeb查询接口的模式匹配的新方法,论文框架包括4个方面: 1)对网页文档中form表单的进行查询接口表单的定位与识别,并通过一种启发式规则排除非查询接口的form表单,获取到存在查询接口表单位置列表; 2)分析并排除有效的查询接口表单属性并进行解析操作,获得查询接口中表单的文本标记和控件标记信息; 3)基于HTML内部编码规则和网页视觉单元内部存在的规则进行查询接口中form自动抽取表单属性; 4)在WordNet的指导控制下定位与识别、抽取表单属性信息中的各种语义关系,然后,根据它们之间的语义关系进行属性关系重组,获得语义关系上表单匹配模式。 本文设计一种基于WordNet的DeepWeb查询接口的模式匹配方法研究,并实现了定位于识别表单位置、匹配文本标签与控件标记的语义相似度的基础之上,本文又提出一种新的查询接口表单属性匹配的新方法,更好地实现了各个语义标签与控件标签之间的语义相似度计算和查询接口的属性匹配模式,实验结果分析表明,这种算法的实际应用是有效可行的。
【关键词】:DeepWeb 查询接口 模式匹配 WordNet
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09;TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 引言10-17
  • 1.1 研究背景10-11
  • 1.2 研究目的11-12
  • 1.3 研究现状12-14
  • 1.4 研究内容14-15
  • 1.5 研究意义15-16
  • 1.6 论文结构16-17
  • 第2章 相关知识简介17-24
  • 2.1 HTML 介绍17-20
  • 2.1.1 HTML 元素17-18
  • 2.1.2 HTML 表单18-20
  • 2.2 本体知识20-21
  • 2.2.1 本体20
  • 2.2.2 领域本体20-21
  • 2.2.3 本体构建21
  • 2.3 DeepWeb 介绍21-23
  • 2.3.1 DeepWeb 概念21-22
  • 2.3.2 DeepWeb 特点22
  • 2.3.3 DeepWeb 类型22-23
  • 2.4 小结23-24
  • 第3章 DeepWeb 查询接口的模式匹配算法24-34
  • 3.1 查询接口模式匹配定义24-26
  • 3.2 查询接口模式匹配过程26-28
  • 3.2.1 模式匹配类型定义26
  • 3.2.2 模式匹配预处理过程26-27
  • 3.2.3 模式匹配过程27-28
  • 3.3 DeepWeb 查询接口的模式匹配算法28-33
  • 3.3.1 表单区域识别定位28-29
  • 3.3.2 查询接口表单解析29-30
  • 3.3.3 查询接口表单属性的自动抽取30-32
  • 3.3.4 模式匹配算法32-33
  • 3.4 小结33-34
  • 第4章 实验结果及分析34-38
  • 4.1 实验环境34
  • 4.1.1 硬件环境34
  • 4.1.2 软件环境34
  • 4.2 实验数据34-36
  • 4.3 实验结果及实验分析36-37
  • 4.4 小结37-38
  • 第5章 结论与展望38-40
  • 5.1 结论38-39
  • 5.2 展望39-40
  • 参考文献40-43
  • 作者简介及在学期间所取得的科研成果43-44
  • 致谢44

【参考文献】

中国期刊全文数据库 前4条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期

3 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期

4 梁浩;左万利;任斐;赫枫龄;;基于本体实例信息的深度网表单属性自动抽取[J];小型微型计算机系统;2009年05期


  本文关键词:DeepWeb查询接口的模式匹配研究,由笔耕文化传播整理发布。



本文编号:269733

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/269733.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户922a3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com