当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于分布式的个性化推荐系统的设计与实现

发布时间:2022-01-24 00:42
  随着移动互联网信息的爆炸式增长和机器学习技术的不断进步,依托大数据的推荐应用的使用越来越广泛。然而大多数推荐应用的信息来源都只限于应用开发者设定的信息源,用户并不能对信息源进行选择,限制了信息内容的多样性。本文系统支持用户定制感兴趣的信息源,用户能更容易、更快速地获取感兴趣的信息。同时,系统还为用户提供基于大数据的实时热点词云显示、信息搜索和个性化推荐服务,使得用户获取感兴趣信息的难度进一步降低。论文主要基于目前流行的大数据技术,使用Spark大数据计算框架来分析和计算从网络获取的信息数据,构建用户行为日志采集和分析系统,对用户行为建模。根据信息建模数据和用户行为建模数据来做个性化推荐。该项目集成了各种技术,系统个性化的为用户提供了信息分类浏览、信息搜索、信息个性化推荐服务。信息分类浏览通过使用Scrapy-Redis分布式爬虫来获取Internet上的信息数据。将数据组织成结构化信息并写入HBase数据库以创建信息源库。使用TF-IDF算法提取出信息主题词并结合WordCould生成实时热点词云。信息搜索基于分布式搜索引擎Elasticsearch,根据用户的信息获取需求设计搜索接口... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

基于分布式的个性化推荐系统的设计与实现


Scrapy-Redis数据示意图

配置文件,管理进程,服务器,连接池


华 中 科 技 大 学 硕 士 学 位 论 文务器会有更快的响应速度。Nginx 的高可靠性是我们选择它的基础,因为架代码的优秀设计,在工作进程出错时管理进程可以快速开启新的工作子服务。管理进程与工作进程互不依赖,使得 Nginx 具有热部署功能,即系不间断服务的情况下,升级可执行文件和更新配置文件等。如图 3-8 为统服务器 Hadoop01 上的具体配置。

配置文件,用户分布,地文,日志


华 中 科 技 大 学 硕 士 学 位 论 文本文的 Logstash 配置如图 3-9 所示。图中配置文件的 input 部分定义了 Logstash的日志数据来源。Logstash 后台会开启一个进程,监听 path 路径下本地文件的数据。discover_interval 表示每 5 秒检测一次本地文件。start_position 为 beginning 表示从本地文件的头开始输入。

【参考文献】:
期刊论文
[1]推荐系统架构设计研究[J]. 王庆福.  信息通信. 2016(07)
[2]引入时间衰减项的兴趣点推荐算法[J]. 常晓雨,余正生.  杭州电子科技大学学报(自然科学版). 2016(03)
[3]组推荐系统及其应用研究[J]. 张玉洁,杜雨露,孟祥武.  计算机学报. 2016(04)
[4]推荐引擎原理及发展综述[J]. 刘杨,杨明川.  电信技术. 2015(06)
[5]移动互联网时代传统媒体的传播策略——基于“今日头条”的思考[J]. 申亚美.  新闻世界. 2015(02)
[6]移动互联网研究综述[J]. 吴吉义,李文娟,黄剑平,章剑林,陈德人.  中国科学:信息科学. 2015(01)
[7]浅谈中文切词算法[J]. 黎佳.  软件. 2013(07)
[8]国内用户兴趣建模研究进展[J]. 孙雨生,刘伟,仇蓉蓉,黄传慧.  情报杂志. 2013(05)
[9]移动推荐系统及其应用[J]. 孟祥武,胡勋,王立才,张玉洁.  软件学报. 2013(01)
[10]个性化推荐系统综述[J]. 王国霞,刘贺平.  计算机工程与应用. 2012(07)

博士论文
[1]协同过滤系统的稀疏性与冷启动问题研究[D]. 孙小华.浙江大学 2005



本文编号:3605485

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3605485.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15e0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com