基于搜索引擎的查询推荐算法研究

发布时间：2021-12-10 12:08

　　传统的基于搜索日志的查询推荐方法无法快速有效处理和存储海量日志信息,无法抓住用户兴趣特点。为此,融合网络爬虫、数据挖掘和自然语言处理技术等多种方法,在原有查询日志数据基础上进一步爬取和挖掘,基于腾讯AI意图分析和自然语言处理技术,提出一种新的推荐词生成方法。实验结果表明,该方法与单纯基于查询意图的推荐和单纯基于相似度计算与聚类的推荐相比,用户查询准确性提升3%,能更加高效准确地为用户提供快速检索服务,提升了搜索引擎的用户体验。

【文章来源】：软件导刊. 2020,19(10)

【文章页数】：4 页

【部分图文】：

基于搜索引擎的查询推荐算法研究

离线阶段处理流程2.2实验环境搭建

可视,环境,聚类,用户输入

对象相似，不同组中的对象不相似。本实验采用改进的重分二分聚类算法对关键词进行聚类，步骤如下：①挑选一个簇进行划分；②通过K均值算法将挑选出的簇划分成两个不同的子集；③重复步骤①和步骤②，直到产生足够数量的簇。聚类结束后，结合用户意图分析筛选出相关聚类结果。2.3.4推荐词生成当用户输入关键词查询时，基于用户输入进行意图分析和聚类，给出若干个与用户输入关键词相似度很近的词。本文搭建ElasticSearch环境可视化展示数据，用于直观展示线上结果，如图5所示。图5ElasticSearch环境可视化展示3实验结果3.1实验结果分析基于搜索引擎的查询推荐技术，因为融合技术较多且推荐结果存在不确定性，所以目前为止还没有评价实验结果的统一方法。常用的评价主要分为人工评估和自动评估两类。人工评估主要对系统推荐的结果手动进行评估和判断，消耗人力且严重依赖个人偏好；自动评估通常是通过分析查询之间的语义关系或其它辅助工具对推荐结果进行评估［15-19］。本文使用P@N（Precision@N）评价指标作为评价标准，其中P表示正确率，N表示返回的推荐结果中取前N个结果。本文对N取值1、3、5、10，分别通过人工评估和自动评估评测本文实验效果。实验中随机选出500个查询词，根据推荐词的相关性进行打分，5分表示完全相关，0分表示完全不相关。（1）人工评估。为保证不受个人偏好影响，实验取5个人打分的平均值，结果如表2所示。表2人工评分结果评分543210P@130316028531P@234012033412P@34007018921P@4467292110（2）自动?

【参考文献】：
期刊论文
[1]利用嵌入方法实现个性化查询重构[J]. 张晓娟. 情报学报. 2018(06)

博士论文
[1]基于搜索引擎日志挖掘的搜索满意度评估方法研究[D]. 范阿琳.浙江大学 2019
[2]搜索引擎中的实体推荐关键技术研究[D]. 黄际洲.哈尔滨工业大学 2019

硕士论文
[1]面向主题的网络爬虫系统的设计与实现[D]. 赵康.北京邮电大学 2019
[2]基于ElasticSearch的分布式搜索引擎的设计与实现[D]. 张月.北京交通大学 2019
[3]融合主题模型和词嵌入的查询优化方法研究[D]. 宋雅迪.北方工业大学 2019

本文编号：3532601

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3532601.html

上一篇：基于K-CV优化的PCA和SVM人脸识别算法
下一篇：多角度极化SAR图像散射特征建模及其应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|