当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于开源搜索引擎的社会化推荐技术研究

发布时间:2017-03-27 23:08

  本文关键词:基于开源搜索引擎的社会化推荐技术研究,由笔耕文化传播整理发布。


【摘要】:随着社交网络的兴起,微博等社会化媒体已经越来越深入到人们的生活中。用户随时随地发布的微博,记录和反映了用户在当时情景下的兴趣和喜好。面对海量的社交网络数据,如何有效的利用用户的信息,提取得到用户的兴趣模型,从而对用户进行信息推荐,免除用户收到信息过载的干扰,已经成为了越来越重要的研究课题。 在本文中,首先介绍了推荐系统的相关概念,分析了现在国内外的研究现状,并介绍了主流的基于协同过滤的推荐算法和基于内容的推荐算法。针对基于协同过滤的推荐算法,对推荐算法中传统的相似度算法进行了定性和定量分析,并针对传统相似度算法中的不足,引入了用户间相似度非对称的思想,提出了一种新的非对称相似度算法(ASC-Pearson相似度算法),并使用MovieLens数据集对新的非对称相似度算法的效果进行了验证。 为了建立合适的主题模型从而对用户的兴趣主题进行更好的描述,本文针对微博等短文本的特点进行了分析,使用标签提取的方法将微博数据分为包含分类信息的有监督样本和不包含分类信息无监督样本。通过对传统的LDA主题模型进行改进,提出了一种新的半监督LDA主题模型,可以更加充分的利用微博样本中的先验信息,经过训练得到表现更好的主题模型。 在得到微博数据的半监督LDA主题模型的基础上,本文对目标用户的微博进行抓取和分析,引入时间顺序加权因子,提出了OWF-Max-Weibo算法来对用户建立兴趣主题模型。通过编写微博爬虫,从抓取到的新浪微博用户中选取兴趣分布特点不同的示例用户,对传统的ATM算法、Max-Weibo算法和OWF-Max-Weibo算法的效果进行比较,验证了OWF-Max-Weibo算法可以更好的反映出用户兴趣随时间的变化趋势。在此基础上,搭建了社会化推荐系统,根据巴氏距离计算用户兴趣主题模型与推荐对象模型之间的相似度,实现了基于用户兴趣模型对用户推荐相关主题内容的新闻、博客等文章。针对抓取得到的示例用户的微博内容,人工对示例用户的微博主题进行分析,并与社会化推荐系统的推荐结果进行对比,验证了该社会化推荐系统的有效性。
【关键词】:推荐系统 相似度算法 LDA主题模型 开源搜索引擎
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • ABSTRACT6-8
  • 目录8-10
  • 第一章 绪论10-17
  • 1.1 研究背景及意义10-11
  • 1.2 国内外研究现状11-15
  • 1.3 本文主要工作和组织结构15-17
  • 第二章 背景回顾17-32
  • 2.1 开源搜索引擎17-20
  • 2.1.1 网络爬虫18-19
  • 2.1.2 文本预处理19
  • 2.1.3 分词19-20
  • 2.1.4 去噪20
  • 2.2 文档模型20-28
  • 2.2.1 VSM模型20-22
  • 2.2.2 Unigram模型22-23
  • 2.2.3 LSA模型23-24
  • 2.2.4 pLSA模型24-26
  • 2.2.5 LDA模型26-28
  • 2.3 推荐系统28-31
  • 2.3.1 基于协同过滤的推荐系统28-29
  • 2.3.2 基于内容的推荐系统29
  • 2.3.3 基于模型的推荐系统29-30
  • 2.3.4 推荐算法的比较30-31
  • 2.4 本章小结31-32
  • 第三章 一种新的协同过滤非对称相似度算法32-47
  • 3.1 协同过滤算法33-34
  • 3.1.1 评分表示33
  • 3.1.2 近邻选择33-34
  • 3.1.3 产生推荐34
  • 3.2 传统相似度算法34-40
  • 3.2.1 余弦相似度34-36
  • 3.2.2 皮尔逊相似度36-39
  • 3.2.3 改进的余弦相似度39
  • 3.2.4 杰卡德-皮尔逊相似度39-40
  • 3.3 一种新的非对称皮尔逊相似度算法40-41
  • 3.4 实验结果41-46
  • 3.4.1 实验数据集41-43
  • 3.4.2 评价标准43
  • 3.4.3 实验方法43
  • 3.4.4 评分预测方法43-44
  • 3.4.5 实验结果44-46
  • 3.5 本章总结46-47
  • 第四章 一种改进的半监督LDA主题模型47-59
  • 4.1 LDA主题模型47-53
  • 4.1.1 LDA模型参数48-49
  • 4.1.2 LDA生成模型49-51
  • 4.1.3 LDA模型的超参数51
  • 4.1.4 LDA模型的训练51-53
  • 4.2 半监督LDA主题模型53-58
  • 4.3 本章总结58-59
  • 第五章 社会化推荐系统的设计与实现59-86
  • 5.1 半监督LDA主题模型60-67
  • 5.1.1 新浪微博数据的抓取60-62
  • 5.1.2 主题模型的训练62-63
  • 5.1.3 主题模型的验证63-67
  • 5.2 用户兴趣主题模型67-79
  • 5.2.1 基本的用户兴趣主题模型68
  • 5.2.2 基本用户兴趣主题模型的分析68-69
  • 5.2.3 基本用户兴趣主题模型的验证69-71
  • 5.2.4 时间顺序加权因子71-73
  • 5.2.5 OWF-Max-Weibo用户兴趣模型73-74
  • 5.2.6 OWF-Max-Weibo用户兴趣模型的验证74-77
  • 5.2.7 三种兴趣模型的比较验证77-79
  • 5.3 推荐对象模型79-80
  • 5.4 社会化推荐系统80-84
  • 5.4.1 巴氏距离80-81
  • 5.4.2 社会化推荐系统81
  • 5.4.3 社会化推荐系统的验证81-83
  • 5.4.4 社会化推荐系统的优缺点和改进83-84
  • 5.5 本章总结84-86
  • 第六章 总结与展望86-88
  • 参考文献88-91
  • 致谢91

【参考文献】

中国期刊全文数据库 前5条

1 王小正;侯青;;基于Nutch和Solr的基础教育垂直搜索引擎的实现[J];电脑知识与技术;2012年04期

2 吕学军;;搜索引擎综述[J];计算机光盘软件与应用;2012年22期

3 任翔;刘彬;;基于超链接分析的网页正文提取方法[J];泰山学院学报;2010年03期

4 单蓉;;用户兴趣模型的更新与遗忘机制研究[J];微型电脑应用;2011年07期

5 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期


  本文关键词:基于开源搜索引擎的社会化推荐技术研究,由笔耕文化传播整理发布。



本文编号:271278

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/271278.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e90be***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com