当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于序列模式的Web日志挖掘及其应用

发布时间:2017-05-11 11:08

  本文关键词:基于序列模式的Web日志挖掘及其应用,,由笔耕文化传播整理发布。


【摘要】:随着互联网及信息技术的飞速发展,互联网信息资源急速膨胀,人们不能有效选择和消化纷繁复杂的信息,淹没在信息的海洋中,这种现象称为信息过载。目前,人们主要使用搜索引擎来检索Web上的信息资源,但搜索出来的结果不够智能友好,没有考虑用户的兴趣爱好,出现了“数据丰富,知识匮乏”的现象。 Web挖掘是数据挖掘在Web上的应用,它从互联网上的信息资源获取知识,已成为当前计算机科学技术的一个研究热点。Web日志挖掘也叫Web使用挖掘,是Web挖掘的一个重要分支,通过使用Web日志序列模式挖掘技术,可从网站服务器的日志文件中挖掘出用户的访问模式,有利于改善Web的结构设计,为站点管理提供决策支持,为用户提供更好的访问体验。 本文系统地阐述了数据挖掘、Web数据挖掘、序列模式挖掘、Web日志挖掘的各个过程。因为原始的Web日志包含了大量的噪声数据,若不作处理将影响数据挖掘结果的质量,所以本文首先对日志进行预处理,结合Apache Log Viewer、Microsoft VisualStudio2005等工具以及预处理方法函数对日志进行数据清理和会话识别,为建立数据挖掘模型提供了数据源。然后,采用微软的商业智能挖掘工具SQL服务器分析服务SSAS为实验工具,Microsoft顺序分析和聚类分析算法为数据挖掘算法,对预处理后的数据进行挖掘,并把挖掘出来的结果进行前端展示,得出用户频繁访问的页面栏目及基于序列模式的用户访问路径。接着,本文对挖掘结果进行分析,提出了完善网站的四点建议,并把其应用到医院网站建设中。实践表明,网站的平均流量及页面浏览量得到提高,用户体验提高较为明显。
【关键词】:数据挖掘 Web日志挖掘 序列模式挖掘 SSAS 商业智能BI
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09;TP311.13
【目录】:
  • 摘要5-6
  • ABSTRACT6-7
  • 目录7-9
  • 第一章 绪论9-13
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究与现状10-11
  • 1.3 本文研究的内容11
  • 1.4 本文的组织结构11-12
  • 1.5 本章小结12-13
  • 第二章 基本概念与相关技术13-23
  • 2.1 数据挖掘概述13-16
  • 2.1.1 数据挖掘的定义13-14
  • 2.1.2 数据挖掘的功能14-15
  • 2.1.3 数据挖掘的过程15-16
  • 2.2 序列模式挖掘概述16-17
  • 2.3 Web 挖掘的定义17-18
  • 2.4 Web 挖掘的分类18-20
  • 2.4.1 Web 内容挖掘18
  • 2.4.2 Web 结构挖掘18-20
  • 2.4.3 Web 使用挖掘20
  • 2.5 Web 日志挖掘的定义20-21
  • 2.6 Web 日志挖掘的应用21-22
  • 2.7 本章小结22-23
  • 第三章 Web 日志预处理的关键技术及实现23-32
  • 3.1 前言23
  • 3.2 数据清理23-24
  • 3.3 用户识别24
  • 3.4 会话识别24-26
  • 3.5 数据预处理的实现26-31
  • 3.5.1 相关工具及方法函数26-28
  • 3.5.2 数据预处理的实现过程28-31
  • 3.6 本章小结31-32
  • 第四章 商业智能挖掘工具与算法模式32-43
  • 4.1 Web 日志挖掘工具介绍32-36
  • 4.1.1 BI 商业智能32
  • 4.1.2 分析服务 SSAS32
  • 4.1.3 SSAS 的对象及程序集32-33
  • 4.1.4 SSAS 的体系结构33-36
  • 4.2 基于 SSAS 的算法选择36-39
  • 4.2.1 SSAS 算法的选择36-37
  • 4.2.2 Microsoft 顺序分析和聚类分析算法概述37-38
  • 4.2.3 Microsoft 顺序分析和聚类分析算法的实现38-39
  • 4.3 基于 Markov 链的 Web 序列与导航分析39-42
  • 4.3.1 Markov 链的基本概念39-40
  • 4.3.2 基于 Markov 链的 Web 序列和导航模式分析40-42
  • 4.4 本章小结42-43
  • 第五章 挖掘实现及成果应用43-61
  • 5.1 Web 日志挖掘的实现43-58
  • 5.1.1 Web 日志挖掘的实施43-46
  • 5.1.2 前端展示及实验结果分析46-58
  • 5.2 使用挖掘结果完善网站58-59
  • 5.2.1 加强及新增相关栏目之间的正向链接及反向链接58
  • 5.2.2 消除用户访问短路径的“孤岛”现象58-59
  • 5.2.3 提高站内搜索命中率及就诊转化率59
  • 5.2.4 提高服务器的性能59
  • 5.3 用户体验与应用效果59-60
  • 5.4 本章小结60-61
  • 总结与展望61-63
  • 1. 内容总结61
  • 2. 研究展望61-63
  • 参考文献63-66
  • 致谢66-67
  • 附件67

【参考文献】

中国期刊全文数据库 前9条

1 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期

2 余长慧,潘和平;商业智能及其核心技术[J];计算机应用研究;2002年09期

3 赵红玲,宋瀚涛,牛振东,刘桂山;Web日志挖掘中数据预处理的研究[J];计算机应用研究;2005年06期

4 闫永权;张大方;;基于频繁的Markov链预测模型[J];计算机应用研究;2007年03期

5 陈卓;杨炳儒;宋威;宋泽锋;;序列模式挖掘综述[J];计算机应用研究;2008年07期

6 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期

7 杨怡玲,管旭东,陆丽娜,尤晋元;一个简单的Web日志挖掘系统[J];上海交通大学学报;2000年07期

8 马瑞民;李向云;;Web日志挖掘中数据预处理技术的研究[J];计算机工程与设计;2007年10期

9 郭秀娟,李原;序列模式算法研究——类Apriori方法[J];现代情报;2003年12期


  本文关键词:基于序列模式的Web日志挖掘及其应用,由笔耕文化传播整理发布。



本文编号:357110

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/357110.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50b0b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com