当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎主题特征提取及相关度算法研究

发布时间:2016-06-30 23:05

  本文关键词:垂直搜索引擎主题特征提取及相关度算法研究,由笔耕文化传播整理发布。


《长安大学》 2007年

垂直搜索引擎主题特征提取及相关度算法研究

段一飞  

【摘要】: 搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困难,综合性的搜索引擎已不能适应用户对信息检索的准确性要求,专业化的、面向主题的垂直搜索引擎正成为研究的热点与发展趋势。 本文重点研究中文Web主题信息获取与检索技术,设计和实现了一个以计算机专业技术文献信息采集为核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。 论文分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略存在的缺陷。针对中文分词中歧义字段的切分问题,提出一种对中文句子进行分词预处理的方法,在预处理的基础上实现了一种改进的MM算法,使分词系统在机械分词阶段具有比MM算法更好的效果。 针对垂直搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的V-Page-Rank搜索策略,指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效地实现搜索引擎的专业化。在信息检索方面,提出了基于向量空间模型的自适应分类算法IVSM对网页从内容和结构两方面进行相关性过滤。 论文提出了基于网页分块的爬行算法。解决了网页多主题的困难,并有效地去除了网页中的噪音信息,使得网络爬行的启发信息能准确地被收集。提出了一种比较理想的垂直搜索引擎设计方案,并实现了一个面向计算机主题的垂直搜索引擎系统CTLS。研究并设计出了适合专业资源采集的分布式Robot体系结构。 最后总结了面向计算机专业技术主题的垂直搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。

【关键词】:
【学位授予单位】:长安大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3
【目录】:

  • 摘要5-6
  • Abstract6-11
  • 第一章 绪论11-20
  • 1.1 课题研究的背景和意义11
  • 1.2 垂直搜索引擎的研究现状11-13
  • 1.2.1 基于内容的搜索11-12
  • 1.2.2 基于链接分析的搜索12-13
  • 1.3 课题研究内容和技术难点13-17
  • 1.3.1 网页主题特征提取13-15
  • 1.3.2 网页主题的相关度分析15-17
  • 1.4 课题研究的创新点和难点17-20
  • 第二章 搜索引擎发展概述20-37
  • 2.1 搜索引擎简介20-27
  • 2.1.1 搜索引擎产生的背景20
  • 2.1.2 搜索引擎的发展现状20-23
  • 2.1.3 搜索引擎的分类23-25
  • 2.1.4 搜索引擎的性能评价指标25-27
  • 2.2 通用搜索引擎27-33
  • 2.2.1 通用搜索引擎的基本工作原理27-31
  • 2.2.2 通用搜索引擎面临的挑战和发展趋势31-33
  • 2.3 垂直搜索引擎33-37
  • 2.3.1 垂直搜索引擎产生的背景33-34
  • 2.3.2 垂直搜索引擎的特点34-35
  • 2.3.3 垂直搜索引擎的发展35-37
  • 第三章 垂直搜索引擎技术分析37-55
  • 3.1 垂直搜索引擎工作原理37-43
  • 3.1.1 垂直搜索引擎的系统架构37-39
  • 3.1.2 垂直搜索引擎的工作流程39-41
  • 3.1.3 垂直搜索引擎的搜索策略41-43
  • 3.2 信息检索模型43-47
  • 3.2.1 布尔模型43-44
  • 3.2.2 向量空间模型44-45
  • 3.2.3 概率模型45-46
  • 3.2.4 神经网络模型46-47
  • 3.3 网络机器人信息采集技术47-50
  • 3.3.1 Web Spider爬行算法47
  • 3.3.2 Web Spider主题采集策略47-48
  • 3.3.3 Web Spider遍历优先策略48-49
  • 3.3.4 Web Spider页面内容预测技术49-50
  • 3.4 信息索引技术50-55
  • 3.4.1 倒排文件索引50-52
  • 3.4.2 后缀树与后缀数组52
  • 3.4.3 Web页面的加权索引52-55
  • 第四章 文档特征提取模型研究及改进55-84
  • 4.1 页面解析和中文分词55-60
  • 4.1.1 页面解析的任务和过程55-56
  • 4.1.2 中文分词技术56-60
  • 4.2 中文分词算法的改进60-68
  • 4.2.1 正向最大匹配(MM)算法60-63
  • 4.2.2 基于MM分词算法的改进63-68
  • 4.3 改进的自适应分类模型IVSM68-72
  • 4.3.1 现有信息检索模型的局限性68-69
  • 4.3.2 VSM模型分析69-70
  • 4.3.3 自适应分类模型IVSM设计70-72
  • 4.4 基于词语相关度的特征提取72-84
  • 4.4.1 分块主题爬行72-76
  • 4.4.2 特征抽取方法76-79
  • 4.4.3 自动主题聚类79-84
  • 第五章 相关度排序算法的研究与改进84-96
  • 5.1 网页评价要素分析84-85
  • 5.2 基于网页链接关系的排序85-89
  • 5.2.1 PageRank算法85-86
  • 5.2.2 HITS算法86-88
  • 5.2.3 SALSA算法88-89
  • 5.3 基于内容相关度的排序89-92
  • 5.3.1 现有算法分析89-90
  • 5.3.2 排序算法的选择90-92
  • 5.4 改进的排序算法V-Page-Rank92-96
  • 5.4.1 现有排序算法的局限性92-93
  • 5.4.2 基于内容和链接结构的V-Page-Rank算法93-96
  • 第六章 基于IVSM和V-Page-Rank的搜索引擎系统96-116
  • 6.1 系统开发概述96-98
  • 6.1.1 系统开发环境96
  • 6.1.2 系统功能介绍96-97
  • 6.1.3 系统体系结构97-98
  • 6.2 信息采集和更新策略设计98-103
  • 6.2.1 基于V-Page-Rank的综合评价采集策略98-101
  • 6.2.2 搜索引擎页面更新策略101-103
  • 6.3 功能模块设计103-116
  • 6.3.1 信息采集模块103-111
  • 6.3.2 索引模块111-114
  • 6.3.3 检索模块114-116
  • 第七章 系统运行与性能分析116-125
  • 7.1 垂直搜索引擎评价方法116-118
  • 7.2 系统部署和运行118-122
  • 7.3 系统性能分析122-125
  • 第八章 结论与展望125-127
  • 参考文献127-133
  • 攻读学位期间取得的研究成果133-134
  • 致谢134
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 刘博卿;;基于军事工程兵的垂直搜索引擎研究[J];科技创新导报;2011年18期

    2 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期

    3 王晓春;李慧;;面向教育的垂直搜索引擎框架及其应用[J];电化教育研究;2011年09期

    4 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期

    5 郭锐;;新型垂直育儿搜索引擎“智能育儿通”的研究与实现[J];天津科技;2011年03期

    6 李光敏;陈年生;许新山;;面向网页结构特征的Hopfield算法[J];计算机系统应用;2011年07期

    7 孔云;杨婷;;开源信息检索技术在高校图书馆的应用——以昆明理工大学图书馆为例[J];湖南科技学院学报;2011年08期

    8 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期

    9 ;[J];;年期

    10 ;[J];;年期

    中国重要会议论文全文数据库 前3条

    1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    中国重要报纸全文数据库 前10条

    1 赛迪网 方刚;[N];中国计算机报;2000年

    2 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

    3 王艳;[N];中国旅游报;2000年

    4 王靖;[N];人民日报海外版;2000年

    5 记者 王浒;[N];中国旅游报;2009年

    6 本报记者 王宏;[N];中国计算机报;2001年

    7 徐瑾 张玉;[N];人民邮电;2009年

    8 记者 吴德群;[N];深圳特区报;2009年

    9 本报记者 王晓雁;[N];法制日报;2009年

    10 本报记者 胡钰;[N];华夏时报;2009年

    中国博士学位论文全文数据库 前3条

    1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

    中国硕士学位论文全文数据库 前10条

    1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

    2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年

    3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年

    4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

    5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年

    6 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年

    7 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

    8 刘大伸;垂直搜索引擎技术的研究及实现[D];东北大学;2008年

    9 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年

    10 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年


      本文关键词:垂直搜索引擎主题特征提取及相关度算法研究,,由笔耕文化传播整理发布。



    本文编号:64166

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64166.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户38e19***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com