当前位置:主页 > 科技论文 > 搜索引擎论文 >

《杭州电子科技大学》2014年硕士论文

发布时间:2016-05-26 22:00

  本文关键词:房地产信息垂直搜索引擎技术研究,由笔耕文化传播整理发布。


《杭州电子科技大学》 2014年

房地产信息垂直搜索引擎技术研究

李勇  

【摘要】:由于计算机及网络的飞速发展,因特网上的信息量呈指数级增长。当使用通用搜索引擎来搜索相关的信息时,准确率越来越令人难以接受,有时候甚至访问了几十个页面都无法找到所需的内容,这对于一般人是无法接受的。面对这个问题,垂直搜索引擎应运而生。垂直搜索引擎的出现能够解决通用搜索引擎的领域性不足问题,对特定领域的搜索能够做到更加专注、更加深入、更加精确。 本文课题是针对近年来房地产的现状,设计并实现了房地产垂直搜索引擎。其中重点研究垂直搜索引擎中的两个关键技术:网络爬虫和中文分词。本文的主要内容如下: (1)介绍了研究背景和意义、搜索引擎的概述以及垂直搜索引擎的国内外现状和发展。 (2)介绍了垂直搜索引擎所涉及的相关技术,包括网络爬虫技术、网页信息提取技术、中文分词技术、信息索引技术和搜索结果排序技术。 (3)深入研究了Shark-Search算法,分析其存在的两个不足之处:锚文本上下文不足和局部最优不足。针对这两个不足之处提出了改进,分别加入了链接聚类和隧道技术。链接聚类能够解决Shark-Search算法的锚文本上下文不足之处,而隧道技术则能够解决主题孤岛效应,,从而避免局部最优问题。实验表明改进后的算法相比原来算法在抓取主题相关的页面上有显著提高。 (4)研究了概率统计模型的一种——隐马尔可夫模型,并且将其和词性标注相结合,加入自定义状态和自定义标注,经过计算来确立最大概率的状态序列,从而能够有效地识别房地产命名实体。 (5)结合前几章提出的理论,实现了房地产垂直搜索引擎系统,其中包括五大部分:网络爬虫、页面处理、中文分词、信息索引、信息搜索。 (6)对论文做了全面的总结,并对未来的研究工作进行了展望。

【关键词】:
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期

2 樊勇;郑家恒;;网页去重方法研究[J];计算机工程与应用;2009年12期

3 杨仁广;宋宇;孟祥增;;一种改进Shark-Search的多媒体主题搜索算法[J];计算机工程与应用;2010年14期

4 李雪莹,刘宝旭,许榕生;字符串匹配技术研究[J];计算机工程;2004年22期

5 蒋宗礼;田晓燕;赵旭;;一种基于语义分析的主题爬虫算法[J];计算机工程与科学;2010年09期

6 陈锦;常致全;许军;;基于HMM的生物医学命名实体的识别与分类[J];计算机时代;2006年10期

7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

8 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期

9 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期

10 胡晶晶;钱湘;赵志强;;基于垂直搜索的机票搜索系统的设计与实现[J];计算机应用与软件;2008年06期

【共引文献】

中国期刊全文数据库 前10条

1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期

2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

3 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期

4 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期

5 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期

6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期

7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期

8 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期

9 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期

10 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期

中国重要会议论文全文数据库 前10条

1 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年

2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

4 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

5 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

6 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年

7 黄高平;苏金树;陈曙辉;;一种基于高速链路的Hash算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年

8 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年

9 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年

10 王艳秋;兰巨龙;;基于Wu-Manber的快速跳跃多模式匹配算法[A];第四届中国软件工程大会论文集[C];2007年

中国博士学位论文全文数据库 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年

3 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年

4 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年

5 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年

6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年

7 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年

8 陈彬;面向DEVS的多范式建模与仿真关键技术研究与实现[D];国防科学技术大学;2010年

9 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年

10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

中国硕士学位论文全文数据库 前10条

1 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年

2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年

3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年

4 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年

5 司贺华;网络内容审计系统关键技术研究与实现[D];哈尔滨工程大学;2010年

6 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年

7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年

8 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年

9 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年

10 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

2 ;下一代智能搜索技术[J];新电脑;2006年05期

3 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期

4 韩正服;杨喜权;张一鸣;丛荣华;;基于特征码的大规模XML文档去重研究[J];中国管理信息化(综合版);2006年07期

5 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期

6 张元丰;董守斌;张凌;陈晓志;;基于Map/Reduce的网页消重并行算法[J];广西师范大学学报(自然科学版);2007年02期

7 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期

8 王鹏;张永奎;张彦;刘睿;;基于新闻网页主题要素的网页去重方法研究[J];计算机工程与应用;2007年28期

9 时达明;林鸿飞;赵晶;;基于模板化的Blog信息抽取[J];计算机工程与应用;2008年09期

10 樊勇;郑家恒;;网页去重方法研究[J];计算机工程与应用;2009年12期

中国博士学位论文全文数据库 前1条

1 管子玉;基于图学习的Web信息检索技术研究[D];浙江大学;2010年

中国硕士学位论文全文数据库 前8条

1 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年

2 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年

3 李立燕;中文科技文献自动摘要系统[D];电子科技大学;2006年

4 李四达;全文索引引擎Lucene的研究及其手机中的应用实现[D];华北电力大学(北京);2007年

5 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年

6 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年

7 姚漫;基于文本聚类的网页消重算法研究[D];北京交通大学;2008年

8 李宪雷;元搜索关键技术研究与实现[D];北京工业大学;2008年

【相似文献】

中国期刊全文数据库 前10条

1 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

2 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

3 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

4 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

5 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

7 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期

9 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

10 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期

中国重要会议论文全文数据库 前3条

1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

中国重要报纸全文数据库 前10条

1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

2 王艳;[N];中国旅游报;2000年

3 赛迪网 方刚;[N];中国计算机报;2000年

4 王靖;[N];人民日报海外版;2000年

5 记者 王浒;[N];中国旅游报;2009年

6 本报记者 王宏;[N];中国计算机报;2001年

7 徐瑾 张玉;[N];人民邮电;2009年

8 本报记者 王晓雁;[N];法制日报;2009年

9 记者 吴德群;[N];深圳特区报;2009年

10 本报记者 胡钰;[N];华夏时报;2009年

中国博士学位论文全文数据库 前5条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年

5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

中国硕士学位论文全文数据库 前10条

1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年

3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年

4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年

6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年

10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年


  本文关键词:房地产信息垂直搜索引擎技术研究,由笔耕文化传播整理发布。



本文编号:50347

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/50347.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户85a5c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com