当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎爬虫系统的研究与实现

发布时间:2016-11-11 17:33

  本文关键词:垂直搜索引擎爬虫系统的研究与实现,由笔耕文化传播整理发布。


贵州大学

硕士学位论文

垂直搜索引擎爬虫系统的研究与实现

姓名:吴建强

申请学位级别:硕士

专业:计算机软件与理论

指导教师:罗文俊

20080401

摘要

随着因特网的迅猛发展,WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎服务能成为最受欢迎的服务是因为它帮助用户在浩瀚的互联网快速的查找信息。在海量的网页里找信息,按照传统方式需要用户逐个网站逐级目录查找。要耗费大量的精力和时间,几乎是不可能实现的任务。互联网的信息量爆炸性增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加带来的是搜索服务的品质下降,查询的结果集已经是海量级的,多达数十万条结果,结果里存在大量的重复信息和垃圾信息。用户越来越感觉到很难在短时间内准确的筛选出需要的内容,很难迅速的找到需要的信息。因此,搜索服务需要细化,需要提供更专业,更有效的服务。

垂直搜索引擎是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。垂直搜索引擎主要涉及的技术有:爬虫,网页结构化信息抽取技术或元数据采集技术,分词和索引,其它信息处理技术。本文的工作主要研究垂直搜索引擎的爬虫系统,,并用程序实现整个爬虫系统。

网络爬虫(也叫网络蜘蛛或网络机器人)通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环直到把这个网站所有需要的网页都抓取完为止。整个互联网当成一个网站,爬虫就可以用这个原理把互联网上所有的网页都抓取下来。爬虫系统需要运用到的技术有分布式、并发、链接选择算法、链接过滤消重算法等。

有色网(ColoredPetriNet,以下简称ClaN)是具有层次性的高级Petri网,是分布式并发系统建模和分析的最佳工具之一,用它建立的模型是可执行的,有利于动态仿真。CPN库所的颜色可以是任意复杂的数据,大大简化系统的复杂度;具有层次结构,可以从整体到局部、由粗到精地把系统分页,逐步细化,突出重点。CPN是一种图形化建模工具,也是一种形式化数学工具。本文采用CPN来为爬虫系统建立模型,并验证其正确性。m

但是,CPN是用来描述和分析要开发的系统模型的工具,不是计算机的实现】:具。一本文的最终目标是要开发出能够运行的爬虫系统,需要把CPN建立的模型转化成计算机的实现。当前主流的软件开发技术是面向对象技术,我们也将用面向对象技术实现爬虫系统。在面向对象系统使用最为广泛的建模工具是UML,UML是一种定义良好、易于表达、功能强大且普遍适用的建模语言。它溶入了软件工程领域的新思想、新方法和新技术,它的作用域不限于支持面向对象的分析与设计,还支持从需求分析开始的软件开发的全过程。在CPN模型的基础上,提取用例,建立系统的用例图,结合用例图和CPN模型图,设计系统静态图,主要设计系统的关键类,并崩状态图说明系统的关键部分。

本文选.Hjjava语言作为软件的实现1:具,因为java语言有良好的跨平台性,可以在window平台开发,移植至lJlinux平台运行。系统选用mysql数据库存储数据,linux为运行平台。作为北京人正语言知识处理有限公司农业难商搜索引擎项目的数据采集系统,要抓取的网站数量总共92个,新闻资讯类网站82个,供求类网站10个。爬虫开启10个线程抓取新闻资讯类网站,3个线程抓取供求类网站。第一次完全抓取时,新闻资讯类网站平均每小时抓取1.5万个网页,供求类的平均每小时抓取4000个网页,平均每天可以抓取40万网页(晚上速度会快些)。十天的时间完成除阿里巴巴供求信息外所有网站的完全抓取,总共抓剑网页410万。此后每天属于增量更新,目标网站所发布的信息可以在半小时以内被抓取,每天人约更新8000条数据。.

关键词:垂直搜索引擎;爬虫;CPN;UML;面向对象;Java:3

Abstract

withtherapiddevelopmentoftheInteractandincrea∞ofWEBinformation,peoplehavemoredifficultyinfindinginformationintheinformationsea.SearchenginecanbecomethemostpopularservicesbecauseithelpsusersinthevastnessoftheInteracttofindinformationquickly.Findinginformationinthemassivepage,inaccordancewiththetraditionalmethodrequirestheuserstepbystep—by?sitedirectorytofind,tospendalotofenergyandtime,itisalmostimpossibletoachievethetask.TheexplosivegrowthofIntemetinformation,afewyearsagotheglobalsearchengineincludedonlyafewpagesof10million,andhasnowreachedsomelbillion.neincreaseinthenumberofpagesisthedeclineinthequalityofsearchservices,theresultsofinquirieshavebeensetisthemassivelevel,asmanyas100,000oftheresults。Therearealo|联informationandrefusetorepeatinformation.Usersfeelmoreandmoredifficultinashortperiodoftimerequiredtoaccuratelyfilterthecontent.Itisdifficulttoquicklyfindtheinformationneeded.Therefore,thesearchserviceneedsrefinement,theneedtoprovideamoreprofessional,moreeffectiveservices.

Verticalsearchengineprovidesacertainvalueoftheinformationandrelatedservicesforaparticulararea,aspecificgroupofpeopleoraspecificneeds.Verticalsearchenginesmainlyinvolvestechnology:crawler,structureoftheWebinformationextractiontechnologyormetadatacollection,segmentationandindexing,informationprocessingtechnology.Ⅲspaperstudiestheverticalsearchengin,escrawlersystem,anddevelopsthesystem..

Networkcrawler(alsocallednetworkspidersornetworkrobot)viathewebtofindthelinkpage.Fromapage(usuallyhome)orasite,readthecontentstofindtheWebaddressoftheotherlinks,andthenthroughtheselinkstofindtheaddressofother、№bpage,soithasbeencirculatinguntilallpagesorthesitehasbeencrawled.IftheentireInteractasaW曲site,crawlerCallcrawlea珏theweb-pagesonthisprinciple.Crawlersystemneedstousethetechnologydistributed,concurrency,linkselectionalgorithmandlinks-eliminationfilteralgorithm.

ColoredPetriNet(calledCPN)isalevelofhigh—levelPetrinetandoneofthebesttoolstomodelandanalyzedistributedconcurrentsystem.nlemodelwithCPNisexecutiveandconducivetodynamicsimulation.ColorsetofCPNplacecanbearbitrarycomplexdata,greatlysimplifyingthecomplexityofthesystem.CPNishierarchicalstructureandpagessystemandgraduallyrefinedfromwholetolocal.coarse—to—fine.CPNisnotonlyagraphicalmodelingtool,butalsoaformalmathematicalt001.CrawlersystemismodeledwithCPNandverifieditscorrectnessinthispaper.

Howeve毛theCPNisadeveloptoolbeingusedtodescribeandanalyzethesystemmodel,nottherealizationofcomputertools.Becausetheultimategoalofthispaperistodevelopanexecutivecrawlersystem,weneedtoCPNmodelintoacomputerprogram.Crawlersystemisdevelopeduseobject-orientedtechnologybecausethecurrentmainSoftwaredevelopmenttechnologyisobject-orientedtechno!ogy.UMLmodelingtoolismostwidelyusedinobject-orientedsystem.UM已isawelldefinition,easytoexpress,powerfulanduniversallyapplicableModelingLanguage.UMLincludesthefieldofSoftwareengineeringofnewideas,newmethodsandnewtechnologies。Itsscopeisnotlimitedtosupportforobject-orientedanalysisanddesign,butsupportthewholeprocessofsoftwaredevelopmentfromthebeginningofrequirementsanalysis.ExtractingusecaseandprovidingusecasediagrambasedonCPNmodel。4

Thesystemstaticdiagram,mainlytheimportantclass,isdesignedwith毪secasediagramandtheCPNmodel。Andthekeypartofsystemisilluminatedwith

Thispaperusejava

cross-platform

linuxasastatediagram。toolfortherealizationofsoftware,becausejavahasgoodruncharacteristic.Theusesysteme强hedevelopedinthewindowandtransplantedtoplatform.Thesystemmysqldatabasefordatastorageandisrunninglinuxplatform.As

OildataacquisitionsystemofagriculturalVerticalsearchenginesLanguageKnowledgeServiceslad,thereareprojectof&鼋堍DaZheng92sitestobecrawled,newsandinformationsite

82,thesupplyanddemandWebsite10.Thecrawlersopen10-threadcrawlNewsWebsite,threethreadstOcrawlsupplyanddemandWebsite.Thefirstfullcrawl,NewsWebsitecategoryaverage

ashourlycrawl15,000pages,suchsupplyanddemandof4,000perhourtOcrawlthepage,the

speeddailyaveragecancrawl400,000pages(atfaster).Apartfrom10daystocompleteAlibaba

asupplyanddemandinformation,thefullcrawlallsites,caughttotalof4.1millionpages.Aftera

calldayofincrementalupdates,thetargetsiteissuedbytheinformationbecrawledwithinhalf锺

hour,aboutthedailyupdated8000data.

Keyword:VerticalSearchEngine;Crawler;CPN;UML;Object—Oriented;Java;5

原创性声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。,

论文作者签名::殷兰‰霹期:瀣舔.£!i

关于学位论文使用授权的声明

本人完全了解贵州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权贵州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文.

(保密论文在解密后应遵守此规定)

论文作者签名:.垃蕴导师签名:匾]鑫日期:迢亟:h企。】。


  本文关键词:垂直搜索引擎爬虫系统的研究与实现,由笔耕文化传播整理发布。



本文编号:171266

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/171266.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c0098***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com