当前位置:主页 > 农业论文 > 农艺学论文 >

基于ELM的爬虫检测算法研究及在水保网站上的应用

发布时间:2020-04-28 19:19
【摘要】:当前,水土流失已经变成我国最紧要的环境问题,制约着人口、资源、环境和经济的共同发展。为了防止水土流失和恢复生态环境,全国各地先后开展了水土保持工作,并逐步建立起了各个水土保持信息共享网站。随着互联网搜索引擎技术的突飞猛进,搜索引擎的网络爬虫日渐泛滥。这些网络爬虫给网站服务器带来了巨大的处理负担,很多水保网站因此陷入瘫痪,给水土保持工作带来了巨大的压力。为了维护湖北水土保持网站的稳定,本文运用机器学习的思想,设计了能够根据访问者特征来检测爬虫的算法,并应用到湖北水土保持网站上抵御爬虫。本文主要研究内容如下:(1)论文分析了目前国内外检测网络爬虫的算法现状。深入研究了网络爬虫的工作原理和单隐层前馈式神经网络算法-极限学习机ELM,提出了基于ELM的爬虫检测算法。(2)论文在仔细研究湖北水土保持网站后,根据网站特点建立能够充分描述水土保持网站访问者特征的特征模型。(3)设计实现了基于极限学习机算法的网络爬虫拦截器,将其应用到湖北水土保持网站中。通过使用网络爬虫访问网站来测试实际检测效果,结果表明基于ELM的爬虫检测算法具有良好的爬虫检测性能,包括较高的检测精度与较短的爬虫检测周期。最后分析了这种算法的适用性与局限性。
【图文】:

站长,网站,水土保持,统计信息


图 1-1 湖北省水土保持网站站长之家统计信息随着网络的发展,网络爬虫迅速兴起。有一些爬虫不考虑网站的负担,使用并行的方式对网站循环往复的提取信息,而不考虑重复的问题,这些爬虫会极大增加网站服务器的负担,占用网站大部分的带宽,使得网站性能大大降低甚至卡死。此外,网络爬虫还会引发窃取用户隐私,盗用知识产权,窃取商业秘密等严重问题。如何检测,防范爬虫,保护用户以及网站的数据隐私,防止爬虫大量占用带宽已成为目前网站维护人员必须面对和解决的难题。湖北水土保持网站不仅要承受恶意爬虫攻击的风险,还会定期被各大搜索引擎的网络爬虫访问,无形中又增加了网站的负担。搜索引擎是指按照一定的规则从互联网上抓取数据,并对其进行编码和索引的系统。目前几乎每个大型的互联网公司都有自己的搜索引擎,,例如谷歌,雅虎,百度,360,搜狗,新浪等等。互联网上超过一半的网络爬虫来自于搜索引擎,搜索引擎中的爬虫系统负责将海量数据抓取,对数据信

网络爬虫,网络机器人,网站,水土保持


图 1-2 搜索引擎工作原理综上所述,由于网络爬虫的影响,湖北水土保持网站承受了巨大的负载压力。何设计爬虫检测算法,使湖北省水土保持网站免受爬虫的攻击,减小网站的负担对护整个水土保持系统具有重要意义。1.2 国内外研究现状1.2.1 网络爬虫的发展现状网络爬虫是一种为了定位和检索信息而设计的自动解析网页超文本结构的程序又称为网络机器人。 网络机器人首次出现在 1993 年,随着互联网的发展,网络机人迅速兴起。这些机器人在网上以不同的目的抓取各自的目标信息:离线浏览器下机器人用于进一步浏览的特定网页资源;链接机器人检查 URL 超链接有效性;购
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:S157;TP18

【参考文献】

相关期刊论文 前10条

1 翟敏;张瑞;王宇;;极限学习机(ELM)网络结构调整方法综述[J];西安文理学院学报(自然科学版);2014年01期

2 王凤娇;上官周平;;水土保持生态自然修复与生态文明建设[J];中国水土保持科学;2013年06期

3 王沫;;对湖北省水土保持工作的回顾与展望[J];中国水土保持;2013年04期

4 黄太安;生佳根;徐红洋;黄泽峰;;一种改进的简化粒子群算法[J];计算机仿真;2013年02期

5 吴登国;李晓明;;基于极限学习机的配电网重构[J];电力自动化设备;2013年02期

6 毛力;王运涛;刘兴阳;李朝锋;;基于改进极限学习机的短期电力负荷预测方法[J];电力系统保护与控制;2012年20期

7 吴晓晖;纪星;;Web爬虫检测技术综述[J];湖北汽车工业学院学报;2012年01期

8 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期

9 刘志雄;梁华;;粒子群算法中随机数参数的设置与实验分析[J];控制理论与应用;2010年11期

10 范纯龙;袁滨;余周华;徐蕾;;基于陷阱技术的网络爬虫检测[J];计算机应用;2010年07期



本文编号:2643783

资料下载
论文发表

本文链接:https://www.wllwen.com/nykjlw/nyxlw/2643783.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户40be1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com