当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题爬虫的主题相关度算法研究

发布时间:2017-08-22 11:15

  本文关键词:主题爬虫的主题相关度算法研究


  更多相关文章: 搜索引擎 网络爬虫 主题相关度 向量空间模型


【摘要】:主题爬虫核心问题是主题的相关性判别问题。如何在爬取过程中,快速、准确地判别爬取页面的主题相关度,是决定主题爬虫搜索策略好坏的关键所在。提出利用两步向量空间模型计算的方法进行主题识别,并将基于两步向量空间模型的主题爬虫与传统基于一步向量空间模型的主题爬虫进行比较,实验表明基于两步向量空间的主题爬虫在主题相关度判别和执行效率方面都有较好的表现,同时对"隧道现象"也有一定的改善。
【作者单位】: 上海海事大学信息工程学院;
【关键词】搜索引擎 网络爬虫 主题相关度 向量空间模型
【分类号】:TP391.3
【正文快照】: 0引言伴随着互联网的发展,网络资源日益丰富。传统通用搜索引擎的弊端日益突显,资源的覆盖率、搜索结果的准确性和相关性均有所下降,用户的搜索难度日益增大。于是,垂直搜索引擎应运而生,在近几年得到了快速的发展,并成为搜索引擎领域的发展的热点和难点之一。对于搜索引擎而

【相似文献】

中国期刊全文数据库 前10条

1 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

2 张玉连;张敏;张波;;一种扩展的向量空间模型-隐含语义索引模型研究[J];燕山大学学报;2006年01期

3 李雪峰;刘鲁;张f,

本文编号:718812


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/718812.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4269e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com