当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于本体的多媒体素材网络爬虫设计与实现

发布时间:2017-04-27 23:06

  本文关键词:基于本体的多媒体素材网络爬虫设计与实现,,由笔耕文化传播整理发布。


【摘要】:当今网络时代的网络资源极大丰富,每一秒钟都有数以万计的资源出现。大型搜索引擎每天都要提供数亿的搜索服务。因而对于资源的获取的准确性逐步成为网络爬行网络搜索等研究领域的热门选题。对于网络资源的获取方法,已经有了长足的发展。网络爬虫的结构和基本算法已经相对稳定。先后出现了聚焦爬虫、语义爬虫和学习爬虫等分支。聚焦爬虫主要针对的是所爬行的网页与爬行目标的相关性;包括相关资源的待爬行URL的发现和预测;以及待爬行URL列表的排序等问题。语义爬虫在传统聚焦爬虫的基础上计算话题的语义相关性以得到所爬行网页的优先级。目前已经有基于本体的语义爬行尝试。学习爬行从统计角度入手,如马尔科夫模型、基于内容图的方法等,通过训练来指导网页的处理优先级。这个研究分支是与语义爬行并行的方向,也取得了部分有意义的成果。本文的作者关注了语义爬行的研究热点,尝试使用本体技术对于语义爬虫进行设计与实现。具体的工作包括如下几个部分。首先,根据作者的本职工作需要,通过与相关工作人员进行调研和对实际工作中遇到的问题进行汇总的方式,发现和整理梳理CAI课件制作方面相关的的多媒体资源知识。通过本体建模工具,建立多媒体资源本体知识库。其次,根据多媒体资源本体知识库中对于CAI课件多媒体的分类,设计基于Word Net语料库的语义相似网络爬行算法。对于URL的语义标签和相似度进行了定义,并给出了计算方法的具体算法。再次,基于.Net框架使用C#语言,设计实现了本文提出的算法以及一个简单的网络爬虫程序。给出了URL存储、Http请求的发布和响应等实际的实现细节代码。最后,对于算法的功能进行了测试并尝试改进。鉴于作者的专业背景和学术水平,作者的能力不能够胜任完整的设计开发一个功能齐备的多媒体网络爬虫的工作。但本人根据工作实际,在软件工程硕士读书期间学习过的老师的指导和帮助下,完成了一个对自己工作有利的小软件,对软件工程领域的相关理论和编程方法有了一定的深入理解。
【关键词】:网络爬行 本体 语义相似
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • Abstract6-9
  • 第1章 绪论9-12
  • 1.1 选题背景9-10
  • 1.2 选题意义10-11
  • 1.3 主要工作11
  • 1.4 本章小结11-12
  • 第2章 相关工作12-17
  • 2.1 多媒体搜索引擎12-13
  • 2.2 垂直搜索研究13-15
  • 2.3 语义主题搜索15-16
  • 2.4 本章小结16-17
  • 第3章 领域建模17-27
  • 3.1 领域描述17-18
  • 3.2 领域建模方法18-19
  • 3.3 模型建立19-26
  • 3.3.1 多媒体资源分类21-22
  • 3.3.2 多媒体领域词汇管理22-26
  • 3.3.3 多媒体情景划分26
  • 3.4 本章小结26-27
  • 第4章 算法设计27-37
  • 4.1 理论基础27-30
  • 4.2 具体算法设计30-36
  • 4.2.1 标签向量构造算法31-35
  • 4.2.2 基于语义相似的爬行算法35-36
  • 4.3 本章小结36-37
  • 第5章 算法实现37-45
  • 5.1 编程环境37
  • 5.2 实现细节37-42
  • 5.2.1 爬行中间结果的处理37
  • 5.2.2 网络HTTP请求的处理37-41
  • 5.2.3 语义相似度计算41-42
  • 5.3 实现效果42-44
  • 5.4 本章小结44-45
  • 总结45-46
  • 参考文献46-48
  • 作者简介48-49
  • 致谢49

【相似文献】

中国期刊全文数据库 前10条

1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期

3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期

6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期

7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

10 杨松梅;;网络爬虫[J];硅谷;2009年15期

中国重要会议论文全文数据库 前5条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

4 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年

中国硕士学位论文全文数据库 前10条

1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年

2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

3 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年

4 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年

5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

6 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

7 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年

8 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

9 刘晶晶;面向微博的网络爬虫研究与实现[D];复旦大学;2012年

10 耿令宝;分布式环境下的网络爬虫系统研究与优化[D];北京邮电大学;2015年


  本文关键词:基于本体的多媒体素材网络爬虫设计与实现,由笔耕文化传播整理发布。



本文编号:331601

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/331601.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户255ba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com