针对互联网公共服务的搜索引擎关键技术研究
本文关键词:针对互联网公共服务的搜索引擎关键技术研究
更多相关文章: 互联网公共服务 搜索引擎 网络爬虫 文本建模
【摘要】:进入21世纪,面向服务架构(SOA)被视作是企业应用开发中的重要架构而得到长足的发展。起初,SOA仅仅是作为企业内部应用的架构模式,各应用通过服务的提供与消费来降低耦合。随着互联网的高速发展,有相当多的社区和公共组织将其业务以服务的形式发布到互联网上。这类互联网公共服务并不像Web Service规范下有着严格的描述规则,而是由服务提供者自行编写一篇HTML文档进行描述。为了能够有效发现并检索这些服务,本文对面向互联网公共服务的搜索引擎技术进行了深入的研究。针对互联网公共服务的发现、索引、检索三大问题,本文主要研究工作及关键技术包括:(1)互联网公共服务发现爬虫的研究。互联网公共服务发现爬虫解决了互联网公共服务的发现问题,它通过互联网公共服务描述文档来发现服务。针对互联网公共服务描述文档多由网页脚本生成的特点,本文基于浏览器内核改进了简单网络爬虫并提出了服务参数返回值示例过滤方法,解决了文档内容获取不准确的问题。为了使网络爬虫能识别互联网公共服务描述文档,考察了多种分类算法,测定了最合适的算法及参数。(2)互联网公共服务索引技术的研究。互联网公共服务索引技术解决了互联网公共服务的索引问题,同时给互联网公共服务的检索问题提供支撑。本文采用的是词-文档矩阵作为互联网公共服务的索引机制。针对搜索引擎环境下词-文档矩阵为一个稀疏矩阵的问题,本文改进了词-文档矩阵,设计了一种压缩存储的数据结构,减少了存储空间消耗。同时,本文针对该压缩存储的数据结构设计了压缩词-文档矩阵的转置算法,仍然能够保证搜索时的性能。(3)用户搜索请求处理与执行的研究。用户搜索请求处理与执行解决了互联网公共服务的搜索问题。本文通过分词、匹配、结果合并排序三个步骤处理用户以自然语言提出的搜索请求。其中在结果合并排序阶段,本文改进了基于TF-IDF值和值的方法,设计了基于TF-IDF值均值以及标准差的排序方法,与普通搜索引擎的结果排序方法相比,能够更加准确地返回户需要的互联网公共服务。(4)在上述研究成果的基础上,本文设计并实现了一个面向互联网公共服务的搜索引擎原型系统APISE,并利用APISE从互联网抓取的实验数据,对本文关键技术及解决方案进行了实验验证,验证了本文成果能够帮助用户方便、快捷、准确地找到所需的互联网公共服务API。
【关键词】:互联网公共服务 搜索引擎 网络爬虫 文本建模
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 引言9-14
- 1.1 研究背景9
- 1.2 互联网公共服务研究现状9-12
- 1.2.1 互联网Web Service9-10
- 1.2.2 语义Web10
- 1.2.3 文本分析10-11
- 1.2.4 百度apistore11
- 1.2.5 apis.io11
- 1.2.6 小结11-12
- 1.3 本文工作概述12
- 1.3.1 研究目标与内容12
- 1.3.2 技术方案与关键技术概述12
- 1.3.3 研究成果12
- 1.4 本文组织结构12-14
- 第二章 相关理论与关键技术14-23
- 2.1 互联网公共服务描述文档14-15
- 2.2 中文分词方法15-16
- 2.2.1 最大正向匹配法和最大逆向匹配法15
- 2.2.2 正向迭代最细粒度切分算法15
- 2.2.3 ICTCLAS15-16
- 2.3 文本特征提取16-17
- 2.3.1 词频-逆文档频率(TF-IDF)16-17
- 2.3.2 互信息法17
- 2.4 文档分类方法17-19
- 2.4.1 支持向量机(SVM)17-19
- 2.4.2 朴素贝叶斯19
- 2.4.3 k近邻19
- 2.5 网页索引技术19-21
- 2.5.1 倒排索引20
- 2.5.2 词-文档矩阵20-21
- 2.6 字典索引结构21
- 2.6.1 B+树21
- 2.6.2 Log-Structure Merge树(LSM树)21
- 2.7 搜索引擎评价指标21-22
- 2.8 本章小结22-23
- 第三章 互联网公共服务搜索引擎的关键技术实现23-33
- 3.1 互联网公共服务发现网络爬虫23-27
- 3.1.1 基于浏览器内核的网络爬虫23-24
- 3.1.2 互联网公共服务描述文档预处理算法24-25
- 3.1.3 互联网公共服务描述文档分类器的训练25-27
- 3.2 互联网公共服务描述文档索引27-30
- 3.2.1 词-文档矩阵的压缩与转置27-29
- 3.2.2 互联网公共服务描述文档索引生成与维护29-30
- 3.3 用户搜索请求处理30-32
- 3.4 本章小结32-33
- 第四章 APISE架构设计与实现33-36
- 4.1 APISE架构设计33-34
- 4.2 APISE系统组件实现34-35
- 4.2.1 数据存储组件34
- 4.2.2 互联网公共服务发现网络爬虫34
- 4.2.3 互联网公共服务描述文档索引组件34
- 4.2.4 用户搜索请求处理组件34-35
- 4.2.5 用户界面35
- 4.3 本章小结35-36
- 第五章 APISE和关键技术评价36-44
- 5.1 实验运行环境36
- 5.2 简单网络爬虫与基于浏览器内核的网络爬虫性能对比36-37
- 5.3 互联网公共服务描述文档分类器训练与验证37-40
- 5.3.1 训练样本集的获取37-38
- 5.3.2 分类器的训练与验证38-39
- 5.3.3 小结39-40
- 5.4 APISE检索效果评价40-43
- 5.5 本章小结43-44
- 第六章 总结与展望44-46
- 6.1 论文主要工作总结44
- 6.2 后续工作展望44-46
- 致谢46-47
- 参考文献47-49
- 附录一 互联网公共服务文档示例49-53
- 附录二 攻读硕士学位期间发表论文情况53
【相似文献】
中国期刊全文数据库 前10条
1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期
3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期
8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期
9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期
中国重要会议论文全文数据库 前4条
1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年
2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年
3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年
4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年
5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年
6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年
7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年
8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年
9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年
10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年
,本文编号:655317
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/655317.html