当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于强化学习的垂直搜索引擎网络爬虫的研究与实现

发布时间:2016-05-30 13:15

  本文关键词:基于强化学习的垂直搜索引擎网络爬虫的研究与实现,由笔耕文化传播整理发布。


《苏州大学》 2008年

基于强化学习的垂直搜索引擎网络爬虫的研究与实现

刘忠  

【摘要】: 本文将强化学习方法引入到垂直搜索引擎网络爬虫中,设计实现了面向餐饮业的基于强化学习的垂直搜索引擎网络爬虫RL-Spider(Reinforcement Learning Spider)。建立了RL-Spider的流程架构,并设计实现了面向餐饮业的垂直搜索引擎RL-Searcher(Reinforcement Learning Searcher)原型系统。本文主要包括以下几方面内容: (1)针对传统搜索引擎爬虫程序抓取信息全但不够细化的特点,设计了一个面向餐饮业领域的聚焦爬虫。提出了基于强化学习的网络爬虫算法,并应用于餐饮类站点的发现中。实验表明,该系统在信息查全率、查准率等方面都有较大的提高。 (2)针对网络爬虫在URL提取过程中,采用深度、宽度搜索策略等方法,容易使网络爬虫陷入“维数灾”问题,在研究逻辑程序设计与强化学习方法结合的基础上,提出了基于逻辑强化学习的网络自主搜索方法,并在RL-Spider中得到了应用。实验表明,系统在大规模网络爬虫中,可大幅度提高网络自主搜索效率。 (3)针对在RL-Spider中,“主题网页发现”等方面的问题,根据强化学习的自身策略,实现了强化学习在“主题网页发现”中的应用,并提出Detail页的URL识别算法。实验表明,该算法能够大幅度地提高“主题网页发现”的准确率。 (4)在RL-Spider架构的Detail模块中,对Detail页面的关键信息进行提取,如Title、Meta、文本信息等,并建立索引、去除无关信息、建立网页快照,采用Lucene建立索引,供查询系统调用。 (5)设计实现了一个面向餐饮业的垂直搜索引擎原型系统RL-Searcher,并利用该系统对RL-Spider的抓取效果进行了验证和实验数据分析。

【关键词】:
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.092
【目录】:

  • 摘要3-4
  • Abstract4-8
  • 第1章 引言8-19
  • 1.1 问题的提出8-10
  • 1.2 国内外主要研究现状10-16
  • 1.3 论文主要研究内容16-18
  • 1.4 内容安排18-19
  • 第2章 理论基础19-35
  • 2.1 强化学习基础19-25
  • 2.1.1 强化学习简述19-21
  • 2.1.2 强化学习算法简介21-25
  • 2.1.3 强化学习应用25
  • 2.2 搜索引擎基础25-30
  • 2.2.1 搜索引擎产生25-28
  • 2.2.2 搜索引擎分类28-30
  • 2.3 网络爬虫技术30-34
  • 2.3.1 搜索引擎原理30
  • 2.3.2 网络爬虫原理30-31
  • 2.3.3 网络信息搜索策略31-34
  • 2.4 本章小结34-35
  • 第3章 RL-SPIDER 的分析系统35-45
  • 3.1 RL-SPIDER 爬虫策略35-39
  • 3.1.1 垂直搜索引擎网络爬虫搜索策略35-36
  • 3.1.2 RL-Spider 的策略36-39
  • 3.2 RL-SPIDER 架构图39-41
  • 3.3 页面更新的处理策略41-44
  • 3.4 本章小结44-45
  • 第4章 垂直搜索引擎架构设计45-54
  • 4.1 LUCENE 系统结构设计45-48
  • 4.1.1 Lucene 的应用与特点45-46
  • 4.1.2 Lucene 系统架构46-47
  • 4.1.3 Lucene 索引的组成47-48
  • 4.2 垂直搜索引擎架构设计48-53
  • 4.2.1 索引系统和查询系统的架构设计48-49
  • 4.2.2 搜索系统的组成49
  • 4.2.3 中文分词处理49-51
  • 4.2.4 运行结果51-53
  • 4.3 本章小结53-54
  • 第5章 实验结果与分析54-64
  • 5.1 实验评价标准54
  • 5.2 实验环境54-55
  • 5.3 实验数据分析55-63
  • 5.4 本章小结63-64
  • 第6章 结论64-67
  • 6.1 工作总结64-65
  • 6.2 工作展望65-67
  • 参考文献67-71
  • 在攻读学位期间发表的学术论文和参加科研情况71-72
  • 致谢72-73
  • 详细摘要73-75
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国硕士学位论文全文数据库 前2条

    1 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

    2 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年

    【参考文献】

    中国期刊全文数据库 前8条

    1 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

    2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

    3 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期

    4 邓顺国;试论搜索引擎的发展趋势[J];图书馆理论与实践;2003年05期

    5 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期

    6 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期

    7 高志奎,曹锦丹;对中文网站信息分类体系的调查与比较[J];图书馆学研究;2003年12期

    8 阎平凡;;再励学习——原理、算法及其在智能控制中的应用[J];信息与控制;1996年01期

    中国硕士学位论文全文数据库 前2条

    1 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年

    2 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年

    【共引文献】

    中国期刊全文数据库 前10条

    1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

    2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

    3 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期

    4 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期

    5 张峰;王金超;陈雪波;;机器人队形控制中的二叉树方法[J];辽宁科技大学学报;2010年05期

    6 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期

    7 胡玉新,李宇成;模糊控制系统的模拟调试[J];北方工业大学学报;1999年03期

    8 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期

    9 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期

    10 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

    中国重要会议论文全文数据库 前10条

    1 刘智勇;马凤伟;;城市交通信号的在线强化学习控制[A];第二十六届中国控制会议论文集[C];2007年

    2 王红;周越;;移动机器人的分层式运动规划方法研究[A];第二十七届中国控制会议论文集[C];2008年

    3 仲朝亮;刘士荣;吕强;;RobSim:一种多移动机器人仿真系统[A];第二十七届中国控制会议论文集[C];2008年

    4 付佳;王美玲;杨毅;周培德;;基于计算几何算法的多智能体快速编队[A];第二十九届中国控制会议论文集[C];2010年

    5 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年

    6 张超;王少萍;;自动导航模块控制系统设计[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年

    7 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年

    8 唐昊;周雷;陆阳;袁继彬;;SMDP基于TD(λ)学习的统一神经元动态规划优化方法[A];2005中国控制与决策学术年会论文集(上)[C];2005年

    9 李鑫;井元伟;;基于强化学习方法的ATM拥塞控制器的设计[A];2007中国控制与决策学术年会论文集[C];2007年

    10 林岳松;王俊宏;薛安克;;二级倒立摆的简易多PD控制算法[A];第二十一届中国控制会议论文集[C];2002年

    中国博士学位论文全文数据库 前10条

    1 张子迎;多机器人协作及环境建模技术研究[D];哈尔滨工程大学;2009年

    2 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年

    3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年

    4 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年

    5 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

    7 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年

    8 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年

    9 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年

    10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

    中国硕士学位论文全文数据库 前10条

    1 何慧娟;基于多传感器的移动机器人障碍物检测与定位研究[D];安徽工程大学;2010年

    2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年

    3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

    4 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年

    5 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年

    6 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年

    7 沈扬;协商僵局消解优化问题研究[D];郑州大学;2010年

    8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年

    9 张家飞;机器人群体协同任务规划与协调避碰[D];哈尔滨工程大学;2010年

    10 姜辉;二级倒立摆控制方法研究[D];哈尔滨工程大学;2010年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期

    2 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期

    3 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期

    4 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期

    5 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期

    6 李广丽;张红斌;;面向计算机教育资源的垂直搜索引擎系统的设计[J];情报理论与实践;2010年05期

    7 孙庚;冯艳红;于红;史鹏辉;;一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J];软件导刊;2010年05期

    8 王冬;雷景生;李壮;;基于PageRank的页面排序改进算法[J];计算机工程与设计;2008年22期

    9 段淮川;胡平;;基于主题特征和时间因子的改进PageRank算法[J];计算机工程与设计;2010年04期

    10 王春花;朱俊平;;改进的非平均传递权值PageRank算法[J];计算机工程与设计;2010年10期

    中国硕士学位论文全文数据库 前10条

    1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

    2 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

    3 谢琴;蚁群算法在Web日志挖掘中的研究与应用[D];重庆大学;2006年

    4 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年

    5 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年

    6 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年

    7 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年

    8 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年

    9 张宏松;基于Lucene的web站内英文PDF文档全文检索研究[D];辽宁工程技术大学;2007年

    10 李沛环;基于Lucene的搜索引擎的设计和优化[D];吉林大学;2008年

    【二级引证文献】

    中国硕士学位论文全文数据库 前4条

    1 陈永彬;基于聚焦爬虫技术的教学资源搜集与自动整理方法研究[D];东北师范大学;2011年

    2 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年

    3 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年

    4 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 苏瑞竹,吴英姿;论网络信息资源的组织[J];广西民族学院学报(自然科学版);2001年04期

    2 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期

    3 杨璐,洪家荣,黄梯云;用加强学习方法解决基于神经网络的时序实时建模问题[J];哈尔滨工业大学学报;1996年04期

    4 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期

    5 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期

    6 张汝波,周宁,顾国昌,张国印;基于强化学习的智能机器人避碰方法研究[J];机器人;1999年03期

    7 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期

    8 郭茂祖;陈彬;王晓龙;洪家荣;;加强学习[J];计算机科学;1998年03期

    9 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期

    10 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期

    【相似文献】

    中国期刊全文数据库 前10条

    1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期

    2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

    3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

    4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

    5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

    6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

    7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

    8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

    9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期

    10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

    中国重要会议论文全文数据库 前10条

    1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    2 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年

    3 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年

    4 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    5 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年

    6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年

    7 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年

    8 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年

    9 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    10 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年

    中国重要报纸全文数据库 前10条

    1 孙佳宇;[N];人民公安报;2009年

    2 首席记者 朱丽华;[N];盘锦日报;2009年

    3 王良豪 记者 刘伟 龙先华;[N];六盘水日报;2008年

    4 书分;[N];焦作日报;2006年

    5 记者 刘琰;[N];周口日报;2009年

    6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

    7 王艳;[N];中国旅游报;2000年

    8 赛迪网 方刚;[N];中国计算机报;2000年

    9 王靖;[N];人民日报海外版;2000年

    10 谭育才;[N];赤峰日报;2008年

    中国博士学位论文全文数据库 前10条

    1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

    4 金钊;加速强化学习方法研究[D];云南大学;2010年

    5 徐明亮;强化学习及其应用研究[D];江南大学;2010年

    6 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年

    7 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年

    8 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年

    9 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年

    10 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年

    中国硕士学位论文全文数据库 前10条

    1 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年

    2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年

    3 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年

    4 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年

    5 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年

    6 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年

    7 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年

    8 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年

    9 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年

    10 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年


      本文关键词:基于强化学习的垂直搜索引擎网络爬虫的研究与实现,,由笔耕文化传播整理发布。



    本文编号:51947

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/51947.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户fac4e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com