当前位置:主页 > 科技论文 > 搜索引擎论文 >

实时垂直搜索引擎数据抓取调度研究分析.pdf文档全文免费阅读、在线看

发布时间:2016-06-30 23:07

  本文关键词:实时垂直搜索引擎数据抓取调度研究,由笔耕文化传播整理发布。


浙江大学计算机科学与技术学院 硕士学位论文 实时垂直搜索引擎数据抓取调度研究 姓名:周佳庆 申请学位级别:硕士 专业:计算机应用技术 指导教师:陈刚 座机电话号码 浙江大学硕士学位论文 摘要 摘要 实时垂直搜索引擎的发展解决了互联网用户对大规模高时间敏感度数据的 搜索需求,而抓取任务调度相关技术是实时垂直搜索引擎的关键技术,决定了实 时垂直搜索引擎的性能和用户体验。但是,,目前学术界对实时垂直搜索引擎数据 抓取任务调度的相关研究尚未开展,导致现有的实时垂直搜索引擎数据过期、抓 取资源浪费的现象非常严重。 本文对实时垂直搜索引擎的抓取任务调度相关技术进行了详细的总结和研 究。首先对数据抓取的基本问题做了系统的归纳和分析,总结了实时垂直搜索引 擎的抓取策略和数据变化规律的预测方法。然后提出了一种新的实时垂直搜索引 擎抓取分发优化策略:OLCO策略,基于对象及其属性间的关联设计热门对象预 测模型,对热门对象的变化趋势进行预测;基于用户查询及对象变化符合泊松过 程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平 衡的最优策略。最后基于OLCO策略提出了一种自适应的实时垂直搜索引擎的任 务抓取分发模型:SACD模型,该模型巧妙地利用了白适应的思想,有效地解决 了实时垂直搜索引擎抓取分发模块配置复杂,维护成本高的问题。 本文使用实际数据对所提出的理论和观点进行了详细的实验测试,验证了 OLCO策略和SACD模型在处理实时数据时,用户查询结果平均数据新鲜度和准 确率上显著优于传统垂直搜索引擎的各个策略,具有较大的实用价值。 关键词: 数据抓


  本文关键词:实时垂直搜索引擎数据抓取调度研究,由笔耕文化传播整理发布。



本文编号:64171

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64171.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d256c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com