当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中关键词分类方法评估及推荐应用

发布时间:2016-11-24 20:48

  本文关键词:搜索引擎中关键词分类方法评估及推荐应用,由笔耕文化传播整理发布。


《华南理工大学》 2015年

搜索引擎中关键词分类方法评估及推荐应用

钟文波  

【摘要】:随着互联网的迅猛发展和广泛应用,互联网用户在其中发挥着越来越重要的作用,以用户为中心的信息生产模式造成了互联网信息的爆炸式增长,人们正面临越来越严重的“信息过载”问题。通过搜索引擎技术,人们可以快速的获取自己所需要的信息。让搜索引擎能够更好的理解人们的搜索需求,也成为搜索引擎需要深入研究的课题之一。本文针对中文搜索引擎中关键词文本的分类方法做了较为深入的研究,讨论了文本分类问题,探讨文本分类领域的已有成果。同时列举了关键词文本分类所需要用到的关键技术,包括中文文档分词,文本特征提取及表示以及文本分类方法。在论文开始部分讨论关键词文本的特征,与长文本相比较,关键词短文本有其鲜明的特征,现有的短文本包括网络论坛、微博、评论、搜索词等。本文主要研究中文搜索引擎中用户搜索关键词的分类问题,对比分析Racchio算法、K-近邻算法、线性SVM算法在中文关键词分类中的效果。论文在特征提取中采用多种特征组合的方法解决关键词文本特征稀疏的问题,使得分类的准确率得到了大幅的提升;同时采用基于信息熵的加权熵值计算方式更准确的表示特征所包含的信息,在一定程度上能够提高分类准确率。伴随着数据量的爆发式的增长,单台服务器的计算能力已经无法满足处理海量文本数据的要求。由此本文提出使用机器学习技术和分布式处理技术Hadoop相结合的策略解决海量关键词的分类问题。同时结合广告主购买关键词的记录,采用基于内容的推荐方法将中文搜索关键词的分类模型用于解决行业关键词的冷启动问题,设计实现搜索关键词到广告买主的个性化推荐模型,通过模型实现了新的搜索关键词到广告买主的精准推荐。通过对搜索关键词进行精准分类和标注,能够实现广告的精准投放,改进搜索结果,提高用户搜索体验满意度。

【关键词】:
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【共引文献】

中国期刊全文数据库 前10条

1 崔蔚;周力;吴凯峰;陈建;王志强;肖政;裴旭斌;;基于Hadoop平台的并行线损分析系统研究与实现[J];电力信息与通信技术;2014年02期

2 曲广龙;杨洪耕;张逸;;采用Map-Reduce模型的海量电能质量数据交换格式文件快速解析方案[J];电网技术;2014年06期

3 吕家琦;;基于mapreduce框架下CNM算法的并行性研究[J];电子技术与软件工程;2014年12期

4 孟祥萍;周来;;基于hadoop云平台的智能电网HDFS资源存储技术研究[J];电测与仪表;2014年19期

5 徐俊;汤庸;赵云龙;;冠字号云存储管理系统设计[J];电子设计工程;2014年19期

6 陈晨;张东;;基于实时负载的HDFS负载均衡改进与实现[J];计算机安全;2014年12期

7 栾开宁;郑海雁;丁陈;李昆明;;用于电力大数据快速组合查询的动态索引技术[J];电气技术;2015年01期

8 胡健;袁军;王远;;面向电网大数据的分布式实时数据库管理系统[J];电力信息与通信技术;2015年02期

9 张红;王晓明;曹洁;朱昶胜;;基于大数据的智能交通体系架构[J];兰州理工大学学报;2015年02期

10 孟祥萍;周来;王晖;纪秀;;基于hadoop云平台的智能电网MapReduce数据计算技术研究[J];电测与仪表;2015年10期

中国重要会议论文全文数据库 前2条

1 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年

2 邹暾;侯杰华;;烟草商业系统大数据处理架构研究[A];中国烟草2013年学术年会论文集[C];2013年

中国硕士学位论文全文数据库 前10条

1 林雪;面向电信行业的数据分析平台的方案设计与实施[D];北京邮电大学;2012年

2 周梦雪;云计算环境下的多数据集连接优化[D];郑州大学;2013年

3 赵成兵;基于云计算的高铁振动数据预处理与特征提取研究[D];西南交通大学;2013年

4 郭凤羽;云环境下对资源聚类的工作流任务安全调度研究[D];新疆大学;2014年

5 张翔;Hadoop平台上煤矿企业储备定额算法并行化研究与应用[D];内蒙古科技大学;2014年

6 刘豹;一种分布式ETL系统的设计与研究[D];北京邮电大学;2014年

7 高东海;基于Hadoop的离线视频数据处理技术研究与应用[D];北京邮电大学;2014年

8 王珺;移动云存储安全保护方案的研究与实现[D];北京邮电大学;2014年

9 李银周;移动互联网中手机终端与流量特征分析[D];北京邮电大学;2014年

10 费珊珊;基于云计算Hadoop平台的数据挖掘研究[D];北京邮电大学;2014年

【相似文献】

中国期刊全文数据库 前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

中国重要会议论文全文数据库 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

中国重要报纸全文数据库 前1条

1 戴洪玲;[N];中国电脑教育报;2004年

中国博士学位论文全文数据库 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

3 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

4 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

5 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

6 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

7 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年

8 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年

9 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年

10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

中国硕士学位论文全文数据库 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年

9 王永曦;矩阵填充应用于文本分类的一些探索[D];清华大学;2012年

10 马桂香;评论文本的多方面观点挖掘研究[D];北京交通大学;2013年


  本文关键词:搜索引擎中关键词分类方法评估及推荐应用,,由笔耕文化传播整理发布。



本文编号:191365

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/191365.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9151f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com