当前位置:主页 > 科技论文 > 搜索引擎论文 >

融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法

发布时间:2022-07-20 12:20
  针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。 

【文章页数】:7 页

【文章目录】:
0 引言
1 主题相关度计算
    1.1 构建主题词权重向量和网页文本特征词权重向量
        1.1.1 主题语义权重向量获取
        1.1.2 网页文本特征词权重向量获取
    1.2 文本主题相关度计算
    1.3 网页PR值及链接综合优先度计算
2 基于On-ITS策略的主题爬虫方法
    2.1 禁忌搜索算法
    2.2 链接的邻域集和扩展邻域集
    2.3 禁忌对象
    2.4 藐视准则与改进的接受原则
    2.5 主题爬虫设计
3 实验结果与分析
    3.1 算法评价指标
    3.2 结果分析
4 结语


【参考文献】:
期刊论文
[1]基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法[J]. 刘景发,李帆,蒋盛益.  计算机科学. 2019(02)
[2]基于LDA扩展主题词库的主题爬虫研究[J]. 费晨杰,刘柏嵩.  计算机应用与软件. 2018(04)
[3]词向量聚类加权Shark-Search的主题爬虫策略研究[J]. 程元堃,廖闻剑,程光.  计算机与数字工程. 2018(01)
[4]基于HITS算法的双语句对挖掘优化方法[J]. 刘昊,洪宇,姚亮,刘乐,姚建民,周国栋.  中文信息学报. 2017(02)
[5]自适应遗传算法在主题爬虫搜索策略中的应用研究[J]. 荆文鹏,王育坚,董伟伟.  计算机科学. 2016(08)
[6]基于用户兴趣与主题相关的PageRank算法改进研究[J]. 王冲,纪仙慧.  计算机科学. 2016(03)
[7]一种基于本体语义的灾害主题爬虫策略[J]. 马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.  计算机工程. 2016(11)
[8]基于SVM的主题爬虫技术研究[J]. 李璐,张国印,李正文.  计算机科学. 2015(02)
[9]基于禁忌搜索的启发式算法求解带平衡约束的圆形装填问题[J]. 李刚,刘景发.  中国科学:信息科学. 2011(09)



本文编号:3663992

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3663992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17ab3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com