当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文搜索引擎分块倒排索引存储模式

发布时间:2017-08-09 00:21

  本文关键词:中文搜索引擎分块倒排索引存储模式


  更多相关文章: 倒排索引 搜索引擎 全文检索 分块结构 检索效率


【摘要】:针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。
【作者单位】: 新疆农业大学计算机与信息工程学院;中国农业大学信息与电气工程学院;
【关键词】倒排索引 搜索引擎 全文检索 分块结构 检索效率
【基金】:新疆维吾尔自治区科技攻关项目(200931103)
【分类号】:TP391.3
【正文快照】: 0引言倒排索引是搜索引擎检索系统实现的核心技术之一[1-2],人们对倒排索引做了大量研究,主要方向有:1)结合索引检索效率、更新效率等因素,对倒排索引在主存和硬盘上的存储结构进行合理化设计[3-9];2)根据倒排索引的特性和存储结构设计优化的压缩算法,减小倒排索引的体积[3,10

【参考文献】

中国期刊全文数据库 前5条

1 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期

2 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期

3 刘小珠;彭智勇;陈旭;;高效的随机访问分块倒排文件自索引技术[J];计算机学报;2010年06期

4 吴文娟;车明;;搜索引擎倒排索引技术的改进[J];微处理机;2006年06期

5 杨晓波;;倒排文件索引缓存机制的优化[J];计算机系统应用;2012年05期

【共引文献】

中国期刊全文数据库 前10条

1 李文;洪亲;滕忠坚;石兆英;;一种由B+树实现的倒排索引[J];电脑知识与技术;2011年08期

2 周斌;王新春;;一种海量数据库记录归档处理和查询方案[J];信息技术与标准化;2011年10期

3 乔亚男;齐勇;;查询语义图辅助的信息检索性能预测模型[J];电子学报;2011年S1期

4 邓攀;刘功申;;一种高效的倒排索引存储结构[J];计算机工程与应用;2008年31期

5 王远定;梁久祯;;利用关键词倒排表实时检索中文网页[J];计算机工程与应用;2010年28期

6 长孙妮妮;张毅坤;华灯鑫;邹子夏;陈浩;;一种基于B+树的混合索引结构[J];计算机工程;2012年14期

7 周远超;叶枫;高依e,

本文编号:642706


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/642706.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户22aae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com