当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于日志分析的搜索引擎查询结果缓存研究.ppt

发布时间:2016-05-21 23:06

  本文关键词:基于日志分析的搜索引擎查询结果缓存研究,,由笔耕文化传播整理发布。


网友wz_198614近日为您收集整理了关于基于日志分析的搜索引擎查询结果缓存研究的文档,希望对您的工作和学习有所帮助。以下是文档介绍:基于日志分析的搜索引擎查询结果缓存研究马宏远王斌ICTIR1引言网民增多,对搜索引擎的使用日益频繁。同时互联网网页的规模也在不断膨胀。搜索引擎需要尽可能多的索引网页并迅速提供查询结果。缓存通过复制频繁请求的数据到速度较快的存储层次,使后续相同的请求得以快速访问,并减少服务器的系统负载。21.主要工作对sogou搜索引擎一个月的用户查询日志进行分析,研究其面向缓存应用的工作负载特性。通过实验和分析,研究缓存设置对搜索引擎系统优化的贡献。这是在中文商业搜索引擎环境下,第一次对搜索引擎缓存特性进行分析。32.搜索引擎查询结果缓存特性分析本文中性能特性的衡量指标是命中率(Hit)Hit=Requstcache / Requst#4命中缓存的查询所有查询2.搜索引擎查询结果缓存特性分析 ess=Hit*T1 + (1-Hit)*T2T1 为缓存访问时间, T2 为磁盘访问时间有 T1 << T252.1 局部性计算机在较短时期内,程序访问局限在一定区域。这只是一种经验性质,不能保证成立,但可能性通常很高。查询的词符合Zipf定律,即一个单词出现的频率与它在频率表里的排名成反比。62.1 局部性对查询日志的分析7查询频率(次数)查询词按照查询频率的排序频率最高的20%查询占据了80.45%的查询请求量80200040006000800010000120000 100000 200000 300000 400000 500000 600000查询频率(次数)查询词按照查询频率的排序用搜狗实验室中,sogou搜索引擎2008.8.26的53万查询数据实验,也能得出相同结果2.2 查询结果缓存策略分为静态策略和动态策略静态策略是离线方法。通过对用户查询日志的频率统计,将频率最高的一部分查询结果放到缓存中。动态策略是在线方法。缓存的容量是固定的,随着时间推进,当所存的内容超过缓存容量时,就需要到替代算法。最常用的算法即为LRU(最近最少使用算法)9102.2 查询结果缓存策略命中率(%)缓存容量(千个查询词)以8月23日的用户查询日志作为历史信息8月24日的用户查询日志作为测试集动态策略静态策略实验:

1



播放器加载中,请稍候...
系统无法检测到您的Adobe Flash Player版本
建议您在线安装最新版本的Flash Player 在线安装


  本文关键词:基于日志分析的搜索引擎查询结果缓存研究,由笔耕文化传播整理发布。



本文编号:47994

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/47994.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户e6e63***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com