当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Hadoop的海量数据分析系统设计与实现

发布时间:2016-12-22 07:50

  本文关键词:云计算平台在搜索引擎中的关键技术研究,由笔耕文化传播整理发布。


《大连理工大学》 2013年

基于Hadoop的海量数据分析系统设计与实现

刘源  

【摘要】:在电子商务急速发展的今天,各大电商网站都在试图通过分析用户登陆网页所产生的日志,得出各种关于用户的特征,从而安排更加具有效率的页面排列顺序及广告投放计划。 在分析日志的过程中,面对如今动辄数百GB,甚至上升至TB的日志规模,传统单机式数据库模式已经逐渐跟不上数据增长的步伐,而提供并行处理方式的分布式数据库日益成熟,在大量数据的处理需求面前逐渐展示其优越的处理效率。其中,由Apache软件基金会所引入研发的Hadoop无疑是最受人瞩目的。其在TB乃至PB级别的数据面前的处理速度非常令人满意。 本文针对电商网站对于大量用户访问日志的分析需求,运用Hadoop平台及相关技术,设计并实现了一款基于Hadoop的海量数据分析系统。通过此系统在服务器上的运作,可以对数百GB乃至TB级别的日志进行分析,得出包括用户来源渠道、站内页面流转分析等各种网站所关心的用户数据分析,并自动生成图表进行展示,从而可以非常直观的观察各项用户数据,以此进行更加准确的商业行为。 本文首先介绍了项目背景及Hadoop的相关技术,然后针对系统的需求分析,提出了各部分功能的具体解决方案以及所运用的技术,最后完成系统的整体实现及测试。

【关键词】:
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.52
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前4条

1 赵建华;韩智慧;;浅谈存储虚拟化与服务器虚拟化[J];电脑知识与技术;2009年21期

2 曹宁;吴中海;刘宏志;张齐勋;;HDFS下载效率的优化[J];计算机应用;2010年08期

3 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[J];微电子学与计算机;2009年08期

4 Peter Baumann,赵曜;海量数据处理与多维数据库[J];中文信息;1998年05期

【共引文献】

中国期刊全文数据库 前10条

1 张克宁;;基于服务器虚拟化技术探讨[J];科技创新与应用;2012年06期

2 开华东;田琪;;基于MapReduce集群的加权公平队列调度算法研究[J];电脑知识与技术;2011年09期

3 许春玲;张广泉;;基于主流云计算技术的集群三元空间提取方法[J];电信科学;2010年10期

4 包盛;段保通;邵锋军;;三网融合下基于云计算的实时转码技术研究和应用[J];电信科学;2011年03期

5 王锴;施水才;王涛;吕学强;;基于MapReduce的术语权重计算方法研究[J];电信科学;2011年11期

6 杨喆;陈锋;;使用MapReduce编程模型进行大规模FCD并行处理[J];电子技术;2010年09期

7 陈俊;陈孝威;;基于Hadoop建立云计算系统[J];贵州大学学报(自然科学版);2011年03期

8 成静静;喻朝新;;基于云计算的大数据统一分析平台研究与设计[J];广东通信技术;2013年01期

9 胡涛;;基于MapReduce模型遗传算法的一种改进与实现[J];电子设计工程;2013年05期

10 张国辉;高晶;雷鸣;;浅谈虚拟化服务器在高校中的应用[J];电子制作;2013年08期

中国硕士学位论文全文数据库 前10条

1 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年

2 王贤伟;基于Hadoop的外观专利图像检索系统的研究与实现[D];广东工业大学;2011年

3 蒋明原;云计算平台在搜索引擎中的关键技术研究[D];中北大学;2011年

4 徐风;移动公司云计算平台原型的构建与测试[D];中南大学;2010年

5 李远方;基于云计算的Web结构挖掘算法研究[D];云南大学;2011年

6 朱敏;基于MapReduce的并行决策树分类算法研究与实现[D];江西师范大学;2011年

7 张文峰;基于MapReduce模型的分布式计算平台的原理与设计[D];华中科技大学;2010年

8 姚远;虚拟机高效设备访问模型设计与实现[D];国防科学技术大学;2010年

9 盘隆;基于MapReduce的分布式编程框架的设计与实现[D];哈尔滨工业大学;2011年

10 翟永东;Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D];华中科技大学;2011年

【二级参考文献】

中国期刊全文数据库 前4条

1 黄燕飞;;服务器虚拟化技术[J];考试周刊;2007年34期

2 王炳晨;;虚拟化存储 惠普全新解决方案[J];微电脑世界;2009年04期

3 虞云翔;嵌入式Linux系统中Overlay文件系统的实现[J];微电子学与计算机;2005年10期

4 郑启龙;王昊;吴晓伟;房明;;HPMR:多核集群上的高性能计算支撑平台[J];微电子学与计算机;2008年09期

【相似文献】

中国期刊全文数据库 前10条

1 王振宇;郭力;;基于Hadoop的搜索引擎用户行为分析[J];计算机工程与科学;2011年04期

2 Peter Baumann,赵曜;海量数据处理与多维数据库[J];中文信息;1998年05期

3 AlixL.Paultre;用全息技术实现海量数据存储[J];今日电子;2002年08期

4 马照亭;李成名;王继周;潘懋;;海量地形可视化的研究现状与前景展望[J];测绘科学;2006年01期

5 罗勇;何玉珠;;外场高速数据采集系统的研制[J];电子测量技术;2006年02期

6 周婧;王意洁;阮炜;李思昆;;面向海量数据的数据一致性研究[J];计算机科学;2006年04期

7 吴丽娟;郑冕;张彩明;;海量空间数据点k近邻的快速搜索算法[J];小型微型计算机系统;2007年01期

8 吴飞;解智强;赵俊三;;海量数据下三维影像图的制作与关键问题探讨——以昆明市域为例[J];测绘信息与工程;2007年03期

9 王新筠;;数据挖掘技术在图书馆自动化管理系统中的应用[J];科技情报开发与经济;2007年26期

10 王喆;潘懋;戴婉薇;郭艳军;;支持海量数据操作的Oracle数据引擎的设计与实现[J];地理与地理信息科学;2008年02期

中国重要会议论文全文数据库 前10条

1 张国良;;植物生理学网络教学系统设计与实现[A];2007中国植物生理学会全国学术会议论文摘要汇编[C];2007年

2 陶喆;林财兴;谢甘第;;基于网络的展馆多媒体控制系统设计与实现[A];2010航空试验测试技术学术交流会论文集[C];2010年

3 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年

4 付举磊;;城市消防空间决策支持系统设计与实现[A];第七届中国通信学会学术年会论文集[C];2010年

5 张丽艳;庄海军;聂军洪;;基于海量数据测量的逆向工程与快速原型集成技术研究[A];特种加工技术——2001年中国机械工程学会年会暨第九届全国特种加工学术年会论文集[C];2001年

6 黄庆飞;罗成;王斌;林铁;;基于GIS的国土资源电子政务系统设计与实现[A];广东省测绘学会第九次会员代表大会暨学术交流会论文集[C];2010年

7 米建;李珊珊;;基于SQL Server Mobile的野外重力测量系统设计与实现[A];中国地球物理学会第22届年会论文集[C];2006年

8 谢文;蔡鸥;叶志红;;战役战术导弹毁伤效能评估系统设计与实现[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年

9 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年

10 刘书影;周国祥;;基于UML和B/S架构的学生工作信息化管理系统设计与实现[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

中国重要报纸全文数据库 前10条

1 安徽电力调度通信中心 袁林;[N];中国计算机报;2005年

2 ;[N];中国计算机报;2006年

3 郑昊;[N];中国计算机报;2007年

4 任续烨;[N];中国计算机报;2004年

5 汪小意;[N];第一财经日报;2006年

6 子文;[N];通信产业报;2003年

7 记者 冯卫东;[N];科技日报;2007年

8 ;[N];网络世界;2004年

9 中兴通讯;[N];通信产业报;2011年

10 本报记者 周源;[N];网络世界;2010年

中国博士学位论文全文数据库 前10条

1 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年

2 管群;VR-GIS技术在岩土工程中的应用[D];四川大学;2002年

3 杜莹;全球多分辨率虚拟地形环境关键技术的研究[D];中国人民解放军信息工程大学;2005年

4 周婧;P2P分布存储系统中海量数据的数据一致性维护技术研究[D];国防科学技术大学;2007年

5 崔滨;海量数据实时三维交互式显示关键技术研究[D];上海大学;2010年

6 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年

7 陶钧;海量数据P2P分布式稳固存储方法与优化研究[D];国防科学技术大学;2008年

8 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

9 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年

10 刘波;光纤光栅传感系统的研究与实现[D];南开大学;2004年

中国硕士学位论文全文数据库 前10条

1 刘源;基于Hadoop的海量数据分析系统设计与实现[D];大连理工大学;2013年

2 赵敏;计算机安全监控系统设计与实现[D];西安电子科技大学;2010年

3 张伟;辽河油田市场营销管理系统设计与实现[D];电子科技大学;2009年

4 杨鹏;基于TMS320C6713的嵌入式系统设计与实现[D];西安电子科技大学;2009年

5 张倩;山东商务职业学院基于MVC的心理健康档案管理系统设计与实现[D];山东大学;2011年

6 郑启龙;BSS缴费卡系统设计与实现[D];电子科技大学;2011年

7 周维华;教学管理系统设计与实现[D];电子科技大学;2009年

8 李召廷;远程集中授权系统设计与实现[D];山东大学;2011年

9 王健;基于VC++的网上阅卷系统设计与实现[D];山东大学;2011年

10 田军宏;潍坊市再生资源电子备案系统设计与实现[D];山东大学;2011年


  本文关键词:云计算平台在搜索引擎中的关键技术研究,,由笔耕文化传播整理发布。



本文编号:223149

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/223149.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8b43***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com