基于序列模式的Web日志挖掘及其应用

发布时间：2017-05-11 11:08

本文关键词：基于序列模式的Web日志挖掘及其应用，，由笔耕文化传播整理发布。

【摘要】：随着互联网及信息技术的飞速发展，互联网信息资源急速膨胀，人们不能有效选择和消化纷繁复杂的信息，淹没在信息的海洋中，这种现象称为信息过载。目前，人们主要使用搜索引擎来检索Web上的信息资源，但搜索出来的结果不够智能友好，没有考虑用户的兴趣爱好，出现了“数据丰富，知识匮乏”的现象。 Web挖掘是数据挖掘在Web上的应用，它从互联网上的信息资源获取知识，已成为当前计算机科学技术的一个研究热点。Web日志挖掘也叫Web使用挖掘，是Web挖掘的一个重要分支，通过使用Web日志序列模式挖掘技术，可从网站服务器的日志文件中挖掘出用户的访问模式，有利于改善Web的结构设计，为站点管理提供决策支持，为用户提供更好的访问体验。本文系统地阐述了数据挖掘、Web数据挖掘、序列模式挖掘、Web日志挖掘的各个过程。因为原始的Web日志包含了大量的噪声数据，若不作处理将影响数据挖掘结果的质量，所以本文首先对日志进行预处理，结合Apache Log Viewer、Microsoft VisualStudio2005等工具以及预处理方法函数对日志进行数据清理和会话识别，为建立数据挖掘模型提供了数据源。然后，采用微软的商业智能挖掘工具SQL服务器分析服务SSAS为实验工具，Microsoft顺序分析和聚类分析算法为数据挖掘算法，对预处理后的数据进行挖掘，并把挖掘出来的结果进行前端展示，得出用户频繁访问的页面栏目及基于序列模式的用户访问路径。接着，本文对挖掘结果进行分析，提出了完善网站的四点建议，并把其应用到医院网站建设中。实践表明，网站的平均流量及页面浏览量得到提高，用户体验提高较为明显。
【关键词】：数据挖掘 Web日志挖掘 序列模式挖掘 SSAS 商业智能BI
【学位授予单位】：华南理工大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP393.09;TP311.13
【目录】：

摘要5-6
ABSTRACT6-7
目录7-9
第一章绪论9-13
1.1 研究背景及意义9-10
1.2 国内外研究与现状10-11
1.3 本文研究的内容11
1.4 本文的组织结构11-12
1.5 本章小结12-13
第二章基本概念与相关技术13-23
2.1 数据挖掘概述13-16
2.1.1 数据挖掘的定义13-14
2.1.2 数据挖掘的功能14-15
2.1.3 数据挖掘的过程15-16
2.2 序列模式挖掘概述16-17
2.3 Web 挖掘的定义17-18
2.4 Web 挖掘的分类18-20
2.4.1 Web 内容挖掘18
2.4.2 Web 结构挖掘18-20
2.4.3 Web 使用挖掘20
2.5 Web 日志挖掘的定义20-21
2.6 Web 日志挖掘的应用21-22
2.7 本章小结22-23
第三章 Web 日志预处理的关键技术及实现23-32
3.1 前言23
3.2 数据清理23-24
3.3 用户识别24
3.4 会话识别24-26
3.5 数据预处理的实现26-31
3.5.1 相关工具及方法函数26-28
3.5.2 数据预处理的实现过程28-31
3.6 本章小结31-32
第四章商业智能挖掘工具与算法模式32-43
4.1 Web 日志挖掘工具介绍32-36
4.1.1 BI 商业智能32
4.1.2 分析服务 SSAS32
4.1.3 SSAS 的对象及程序集32-33
4.1.4 SSAS 的体系结构33-36
4.2 基于 SSAS 的算法选择36-39
4.2.1 SSAS 算法的选择36-37
4.2.2 Microsoft 顺序分析和聚类分析算法概述37-38
4.2.3 Microsoft 顺序分析和聚类分析算法的实现38-39
4.3 基于 Markov 链的 Web 序列与导航分析39-42
4.3.1 Markov 链的基本概念39-40
4.3.2 基于 Markov 链的 Web 序列和导航模式分析40-42
4.4 本章小结42-43
第五章挖掘实现及成果应用43-61
5.1 Web 日志挖掘的实现43-58
5.1.1 Web 日志挖掘的实施43-46
5.1.2 前端展示及实验结果分析46-58
5.2 使用挖掘结果完善网站58-59
5.2.1 加强及新增相关栏目之间的正向链接及反向链接58
5.2.2 消除用户访问短路径的“孤岛”现象58-59
5.2.3 提高站内搜索命中率及就诊转化率59
5.2.4 提高服务器的性能59
5.3 用户体验与应用效果59-60
5.4 本章小结60-61
总结与展望61-63
1. 内容总结61
2. 研究展望61-63
参考文献63-66
致谢66-67
附件67

【参考文献】

中国期刊全文数据库前9条

1 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期

2 余长慧,潘和平;商业智能及其核心技术[J];计算机应用研究;2002年09期

3 赵红玲,宋瀚涛,牛振东,刘桂山;Web日志挖掘中数据预处理的研究[J];计算机应用研究;2005年06期

4 闫永权;张大方;;基于频繁的Markov链预测模型[J];计算机应用研究;2007年03期

5 陈卓;杨炳儒;宋威;宋泽锋;;序列模式挖掘综述[J];计算机应用研究;2008年07期

6 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期

7 杨怡玲,管旭东,陆丽娜,尤晋元;一个简单的Web日志挖掘系统[J];上海交通大学学报;2000年07期

8 马瑞民;李向云;;Web日志挖掘中数据预处理技术的研究[J];计算机工程与设计;2007年10期

9 郭秀娟,李原;序列模式算法研究——类Apriori方法[J];现代情报;2003年12期

本文关键词：基于序列模式的Web日志挖掘及其应用，由笔耕文化传播整理发布。

本文编号：357110

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/357110.html

上一篇：图像自动标注算法研究
下一篇：支持云计算产品RIA模式页面数据抓取的模型和策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|