当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式架构的海量文本快速相似度检测研究

发布时间:2021-12-09 14:27
  为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。 

【文章来源】:中国传媒大学学报(自然科学版). 2019,26(01)

【文章页数】:6 页

【文章目录】:
1 引言
2 关键技术
    2.1 Elasticsearch
    2.2 余弦相似度
    2.3 TF-IDF
3 分布式海量文本快速相似度检测技术研究改进
4 实验验证
    4.1 实验数据及工具
    4.2 实验结果分析
5 结束语


【参考文献】:
期刊论文
[1]开源搜索引擎Elasticsearch和Solr对比和分析[J]. 魏涛,孟方园,袁平,殷锋.  现代计算机(专业版). 2018(06)
[2]一种基于ElasticSearch的推荐系统架构[J]. 郝胜男,赵领杰.  电脑知识与技术. 2017(36)
[3]基于语义指纹的海量文本快速相似检测算法研究[J]. 姜雪,万正景,梁燕,陶以政.  电脑知识与技术. 2016(36)
[4]基于ElasticSearch的海量AIS数据存储方法[J]. 郑义成,莫钦华,王海鸿.  指挥信息系统与技术. 2016(03)
[5]基于Simhash算法的重复数据删除技术的研究与改进[J]. 陈春玲,陈琳,熊晶,余瀚.  南京邮电大学学报(自然科学版). 2016(03)
[6]结合汉明距离及语义的文本相似度量方法研究[J]. 胡维华,鲍乾,李柯.  杭州电子科技大学学报(自然科学版). 2016(03)
[7]基于Simhash的海量相似文档快速搜索优化方法[J]. 张广庆,葛唯益,贺成龙.  指挥信息系统与技术. 2015(02)
[8]文本相似性在抄袭问题中的应用研究[J]. 丁智斌,霍豫宗,杜念.  华北科技学院学报. 2013(01)

硕士论文
[1]向量空间模型与语义理解相结合的论文相似度算法研究[D]. 严春梅.西南交通大学 2015



本文编号:3530797

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3530797.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1bc6d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com