当前位置:主页 > 科技论文 > 搜索引擎论文 >

Geeking:基于胜者表的体育新闻搜索引擎系统

发布时间:2017-08-07 06:15

  本文关键词:Geeking:基于胜者表的体育新闻搜索引擎系统


  更多相关文章: 搜索引擎 体育新闻 胜者表 编辑距离 聚类 查询词校正


【摘要】:文章介绍了体育新闻搜索引擎系统Geeking的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面4个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合tf-idf权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的Geeking搜索引擎系统各项功能协调效果好,检索响应速度快。
【作者单位】: 中国科学院深圳先进技术研究院;中国科学院上海高等研究院;中国科学院计算技术研究所;中国科学院沈阳计算技术研究所;河北大学数学与信息科学学院;
【关键词】搜索引擎 体育新闻 胜者表 编辑距离 聚类 查询词校正
【基金】:国家自然科学基金(61433012,U1435215,11171086) 河北省自然科学基金(F2013201064)
【分类号】:TP391.3
【正文快照】: 1引言传统搜索引擎没有对不同领域的各个主题设立一个专门的搜索栏目,如百度等搜索引擎有“新闻”这个栏目,但没有在这个栏目下设更加细致的划分,如“体育新闻”、“军事新闻”等。在信息爆炸的当代,人们希望更加准确快捷地获取需要的特定领域的信息,因此搜索需求会逐渐领域化

【参考文献】

中国期刊全文数据库 前1条

1 刘一佳;车万翔;刘挺;张梅山;;基于序列标注的中文分词、词性标注模型比较分析[J];中文信息学报;2013年04期

【共引文献】

中国期刊全文数据库 前1条

1 张东香;江长柱;;基于多重语义的词典管理方法和实现[J];信息技术;2015年09期

中国博士学位论文全文数据库 前1条

1 刘松;基于全信息的问答系统研究[D];北京邮电大学;2014年

【二级参考文献】

中国期刊全文数据库 前1条

1 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期

【相似文献】

中国期刊全文数据库 前10条

1 吴清江;吴政;刘琳琅;;面向侨务信息主题的搜索引擎系统[J];华侨大学学报(自然科学版);2006年04期

2 张颖超;段雪英;;个性化搜索引擎系统机制的研究[J];计算机工程与设计;2007年13期

3 梁涤尘;任桢;;电力文献搜索引擎系统设计[J];计算机与数字工程;2007年07期

4 高劲松;张俊丽;;几种典型网格搜索引擎系统的结构体系分析[J];图书情报工作;2008年05期

5 姚烨;周盼;;迷你搜索引擎系统的设计[J];信息与电脑(理论版);2010年11期

6 张伟哲;张宏莉;许笑;何慧;;分布式搜索引擎系统效能建模与评价[J];软件学报;2012年02期

7 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期

8 周福才,张利,邵世煌,范晓明;面向远程教育的搜索引擎系统的开发[J];东北大学学报;2001年06期

9 刘玲;;搜索引擎系统的研究与实现[J];科学之友(B版);2007年02期

10 傅勉;李伟芬;张杰;林雅金;;基于Directory的装备论证搜索引擎系统设计[J];微计算机信息;2007年36期

中国重要会议论文全文数据库 前4条

1 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年

3 陈e,

本文编号:633170


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/633170.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d690***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com