应用语义相似的海量网页文本去重策略研究

发布时间：2017-06-26 06:08

本文关键词：应用语义相似的海量网页文本去重策略研究，，由笔耕文化传播整理发布。

【摘要】：互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下.
【作者单位】：中国科学院大学;中国科学院沈阳计算技术研究所;国家电网辽宁省电力有限公司信息通信分公司;
【关键词】： 语义相似 近似检测 信息指纹 特征提取
【基金】：安徽大学青年科研基金项目(KJQN1118)资助
【分类号】：TP391.1
【正文快照】： 1引言互联网的快速发展导致网站的数量成倍的增加.据统计,全球的网站截止2014年底已达到10亿个[4],其中中国的网站总数量近364.7万余个[8].网站的增多导致了数据爆炸性的增长,因此人们不得不借助搜索引擎来寻找所需的信息.在互联网时代信息的复制及传播成本极低,研究表明,在一

本文关键词：应用语义相似的海量网页文本去重策略研究，由笔耕文化传播整理发布。

本文编号：485067

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/485067.html

上一篇：购物比价网站设计方法的实践与认知研究
下一篇：基于本体的教育资源组织及语义检索的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|