第四方就业信息推荐系统的研究与实现

发布时间：2017-05-26 09:03

本文关键词：第四方就业信息推荐系统的研究与实现，由笔耕文化传播整理发布。

【摘要】：随着Web2.0的不断发展和流行，互联网上的信息量急剧增加，用户很容易迷失在信息的海洋中。网络招聘信息，作为互联网信息的一种，广泛充斥在互联网中。而且，，就业信息网站林林总总、真假难辨。面对海量信息，信息检索和信息过滤是当前两种主要的解决方案。其中，信息检索的结果是大众化的，只要输入的关键词一样，搜索结果就相同，并且搜索结果的数据量可能仍然很大。而信息过滤则能有效的弥补信息检索的不足，通过个性化定制的方法进一步提升用户体验度。常用的信息过滤方式为个性化推荐。因此，本文在就业信息的处理中充分结合信息检索和信息过滤这两种方式，为求职者尽可能简洁高效的提供真实有用的信息。此外，本文结合一些Web开发的相关技术，利用Mysql、SolrCloud等开源软件设计并实现了第四方就业信息推荐系统。论文主要工作包括： ①实现就业信息的抓取、解析和清洗。本文首先采用网络爬虫的方式从各大第三方招聘网站抓取信息。然后对获取的就业信息进行清洗和格式整理。最后，将所有格式化的就业信息映射到一个标准的行业分类目录上，形成一个分类一致的就业信息数据集。 ②实现就业信息的分布式存储。本文采用Mysql数据库集群的数据存储方案，通过负载均衡、数据切分、读写分离等方法，保证数据库并发读写效率和分布式数据库事务的正确性。 ③搭建分布式全文检索系统。本文采用SolrCloud作为分布式全文检索引擎，Zookeeper作为搜索引擎集群监视器和配置文件管理器，搭建了一个高性能、高可用的分布式全文检索系统。 ④实现就业信息的个性化推荐。利用用户的行为数据，基于用户的个性化推荐算法为用户推荐感兴趣的工作；利用评分可信度和Hadoop框架，研究和设计了基于评分可信度的UserCF并行推荐算法。
【关键词】：全文检索 并行化 可信度 推荐系统 高性能
【学位授予单位】：重庆大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP391.3
【目录】：

摘要3-4
ABSTRACT4-9
1 绪论9-14
1.1 研究背景和意义9
1.2 国内外研究现状9-12
1.2.1 推荐系统的国内外研究现状9-11
1.2.2 高性能 Web 开发技术的国内外研究现状11-12
1.3 本文的主要工作12
1.4 论文的组织结构12-13
1.5 本章小结13-14
2 相关技术介绍和研究14-28
2.1 集群概述14
2.1.1 负载均衡技术14
2.1.2 集群中的高可用技术14
2.2 Web 应用程序和 Web 服务器的优化14-16
2.2.1 代码优化14-15
2.2.2 SQL 语句优化15
2.2.3 高性能 Web 服务器15-16
2.3 分布式数据库技术16-18
2.3.1 分布式数据库技术16
2.3.2 单表数据量过大的处理策略16-17
2.3.3 数据库切分策略17-18
2.3.4 数据库中间层18
2.4 全文搜索技术研究18-20
2.4.1 倒排索引技术18
2.4.2 中文分词技术18-19
2.4.3 Solr 简介19
2.4.4 Solr 架构19-20
2.4.5 SolrCloud 分布式搜索方案20
2.5 Hadoop 分布式平台20-24
2.5.1 Hadoop 技术20-21
2.5.2 MapReduce 计算模型21-22
2.5.3 HDFS 分布式文件系统22-24
2.6 推荐系统介绍24-26
2.6.1 关联规则推荐算法24-25
2.6.2 协同过滤推荐算法25-26
2.7 就业信息和用户行为数据的收集、整理26
2.7.1 用户行为数据26
2.7.2 语义相似度计算26
2.8 本章小结26-28
3 第四方就业信息推荐系统的研究与设计28-36
3.1 基于用户（求职者）的协同过滤推荐28-29
3.1.1 用户相似度计算28-29
3.1.2 最终推荐结果的产生29
3.2 UserCF 算法存在的问题29
3.3 第四方就业信息推荐系统的设计29-35
3.3.1 总体架构29-30
3.3.2 评分的可信度计算30-31
3.3.3 冷启动问题的解决方案31-32
3.3.4 基于 MapReduce 的推荐算法并行化32-35
3.4 本章小结35-36
4 第四方就业信息推荐系统的实现36-71
4.1 系统需求分析及整体设计36-37
4.1.1 功能模块36-37
4.1.2 系统结构图37
4.2 Tomcat 应用服务器集群搭建37-40
4.3 多线程网络爬虫抓取网页方案40-44
4.3.1 网络工作信息爬取模式40-41
4.3.2 ExecutorService+Task 多线程编程模型41-42
4.3.3 解析 HTML 文件42-43
4.3.4 网页信息分析43-44
4.4 网站分类目录的整合44-46
4.4.1 标签相似度计算-Xsimilarity44
4.4.2 目录映射算法44-46
4.5 Mysql 数据库集群的设计46-48
4.5.1 Mysql 分区表简介46-47
4.5.2 数据库设计拓扑图47-48
4.6 SolrCloud 分布式搜索服务的设计48-52
4.6.1 搜索关键词智能提示49-50
4.6.2 索引增量导入50
4.6.3 中文分词器 IK Analyzer 的配置50
4.6.4 分布式搜索请求50-51
4.6.5 搜索容错能力51
4.6.6 基于地理位置的搜索51-52
4.7 用户行为收集52-53
4.8 定时任务53
4.9 关联规则的推荐算法实现53-55
4.9.1 Apriori 算法53-54
4.9.2 Apriori 算法实现54-55
4.10 协同过滤推荐的算法实现55-57
4.10.1 算法主要步骤55-57
4.11 系统优化57-59
4.11.1 Apache 优化57-58
4.11.2 Tomcat 优化58-59
4.11.3 Solr 优化59
4.12 Tomcat 服务器集群的测试和分析59-64
4.13 系统展示64-70
4.14 本章小结70-71
5 总结与展望71-72
5.1 总结71
5.2 展望71-72
致谢72-73
参考文献73-76
附录76
A. 作者在攻读学位期间发表的论文目录76
B. 作者在攻读学位期间取得的科研成果目录76

【参考文献】

中国期刊全文数据库前10条

1 谷琼,朱莉,袁红星;分布式数据库的设计与信息查询[J];电脑知识与技术;2005年08期

2 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期

3 郭洪海;姜锦虎;蔡涵;;C2C电子社区成员信誉值的计算模型研究[J];管理学报;2009年08期

4 伍之昂;庄毅;王有权;曹杰;;基于特征选择的推荐系统托攻击检测算法[J];电子学报;2012年08期

5 肖凌,刘继红,姚建初;分布式数据库系统的研究与应用[J];计算机工程;2001年01期

6 张新猛;蒋盛益;;基于加权二部图的个性化推荐算法[J];计算机应用;2012年03期

7 李戴维;李宁;;基于Solr的分布式全文检索系统的研究与实现[J];计算机与现代化;2012年11期

8 李萍;;浅谈TOMCAT之性能优化[J];科技情报开发与经济;2011年12期

9 张剑,王炎修,刘倩;关于分布式数据库事务处理机制的探讨[J];山东科技大学学报(自然科学版);2003年02期

10 王培吉;赵玉琳;吕剑峰;;基于Apriori算法的关联规则数据挖掘研究[J];统计与决策;2011年23期

本文关键词：第四方就业信息推荐系统的研究与实现，由笔耕文化传播整理发布。

本文编号：396295

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/396295.html

上一篇：基于语义关系图的小视窗智能机上可视化探索式搜索研究
下一篇：瑜伽练习对女大学生情绪与形态机能素质的影响

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|