基于排序算法的垃圾网页检测技术

发布时间：2017-05-02 07:03

本文关键词：基于排序算法的垃圾网页检测技术，由笔耕文化传播整理发布。

【摘要】：研究表明，80%的搜索引擎使用者查看返回结果不超过三页，因此在搜索引擎返回结果中，排名越高带来的利润越大，很多网页通过欺骗搜索引擎的手段获得较高的排名，这类网页被称为垃圾网页。垃圾网页在利益的驱使下采用作弊手段欺骗搜索引擎获得更高的排名，干扰了用户对信息的获取。垃圾网页损害搜索引擎的声誉，削弱了其用户对搜索引擎的信任，检测垃圾网页已是搜索引擎面临的重大的挑战之一。为了有效的检测出垃圾网页，分析了数据集中垃圾网页与正常的网页内容特征与链接特征分布，通过结合网页的内容特征与链接特征结合机器学习方法及其他排序算法对垃圾网页进行检测。具体工作如下： 1. TrustRank算法是著名的基于链接信息的网页排序算法。传统的TrustRank算法基于链接特征的垃圾网页检测方法，这种方法不是对所有作弊网页都有效。譬如一组网页提供一些有用资源，吸引其他网站的链接，但这组网页包含了许多指向目标作弊页面的链接，这些链接可能是隐蔽的，目标作弊网页的TrustRank值就有可能很高。而且有的垃圾网页的拓扑结构和正常网页的拓扑结构相似，这时基于内容特征的垃圾网页检测方法就比较有效了。因此，我们在基于链接分析的TrustRank算法基础上对网页内容特征进行提取，并分析网页内容特征的分布，根据正常网页与垃圾网页内容特征分布的不同结合网页链接特征对Web spam进行检测。 2.基于内容特征的垃圾网页检测方法只考虑了网页的文本内容特征，没有考虑网页的链接结构，很难适应不断发展的网页作弊技术，而基于链接结构的垃圾网页检测方法则忽略了网页的内容信息，如果只考虑网页的拓扑结构，很难检测出那些拓扑结构与正常网页十分相似的垃圾网页。我们在分析数据集网页特征分布的基础上，用各种分布函数拟合网页的内容特征分布和链接特征分布，由于正常网页的特征分布比较有规律，而垃圾网页的特征分布混乱，因此用分布函数拟合之后求差值，正常网页差值较小而垃圾网页差值较大。根据网页特征值与拟合函数的差值利用决策树检测垃圾网页。 3.目前大多数研究把垃圾网页检测看作是分类问题，并且使用机器学习方法譬如SVM、决策树等对垃圾网页进行检测。我们把垃圾网页检测问题看作排序问题，结合网页的内容特征和链接特征建立排序模型对网页进行排序。排序模型的基本要求是能够保证正常网页排名靠前，，垃圾网页排名靠后，从而使得用户使用搜索引擎时不会被垃圾网页干扰。我们结合网页的链接信息和网页的内容特征信息建立数学模型。首先，我们通过分析网页的内容特征分布，用分布函数拟合计算得到内容特征向量，用内容特征向量逼近网页的链接信息值求得权值向量，计算内容特征向量与权值向量的乘积作为网页值对网页排序。垃圾网页不仅影响了用户通过搜索引擎寻找有用的信息，而且严重浪费了搜索引擎的资源，搜索引擎在根据用户的请求索引网页时，需要处理大量的垃圾的网页，所以检测垃圾网页的相关研究有切实的意义。
【关键词】：垃圾网页 搜索引擎 网页排名 信任指数 内容特征 链接特征 排序算法
【学位授予单位】：山东师范大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP393.092;TP391.3
【目录】：

目录4-5
摘要5-7
ABSTRACT7-9
第一章绪论9-13
1.1 研究背景和意义9
1.2 垃圾网页的概述及国内外研究现状9-11
1.2.1 垃圾网页的概述9-10
1.2.2 国内外研究现状10-11
1.3 本文创新点11-12
1.4 论文的组织结构12-13
第二章垃圾网页检测方法研究综述13-20
2.1 基于机器学习的垃圾网页检测方法13-15
2.1.1 支持向量机13-14
2.1.2 决策树14-15
2.2 基于排序检测垃圾网页方法15-19
2.2.1 Pagerank 算法16-17
2.2.2 Trustrank 算法17-19
2.3 本章小结19-20
第三章基于结合内容特征的 TrustRank 算法改进20-24
3.1 内容特征分析20-21
3.2 结合内容特征的 TrustRank 算法21
3.3 实验及结果分析21-23
3.4 本章小结23-24
第四章基于拟合内容与链接特征分布的垃圾网页检测方法24-30
4.1 数据集24
4.2 网页内容特征及链接特征24-28
4.3 实验结果及其分析28-29
4.4 本章小结29-30
第五章基于排序算法的垃圾网页检测方法30-36
5.1 特征分布30-32
5.2 结合内容特征与链接信息的排序模型32-33
5.3 实验结果及分析33-35
5.4 本章结论35-36
第六章总结与展望36-37
6.1 研究内容总结36
6.2 下一步工作36-37
参考文献37-40
攻读硕士学位期间发表的论文、申请专利和参与的项目40-41
致谢41

【参考文献】

中国期刊全文数据库前1条

1 ;The new interpretation of support vector machines on statistical learning theory[J];Science in China(Series A:Mathematics);2010年01期

本文关键词：基于排序算法的垃圾网页检测技术，由笔耕文化传播整理发布。

本文编号：340467

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/340467.html

上一篇：基于蚁群优化的网页作弊检测技术研究
下一篇：国家助学贷款智能在线考试系统的研究与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|