流数据概念漂移及演化的检测方法研究

发布时间:2024-04-27 05:16
  随着信息采集和数据处理技术的深入推进,流数据已成为数据挖掘领域的一种重要存在形式,其最大的特点就是带有时间标记,因此也称作时间序列数据。由于流数据的动态多变特性,其所蕴含的概念分布会随着时间或环境变化而发生改变,如:数据源的分布变化可能导致隐含的概念知识与原始数据不同,即发生概念漂移;数据源产生机制变化可能导致数据中有新的模式类别出现,即发生概念演化。针对非稳态环境下流数据存在的不同概念变化问题,设计有效的流数据概念漂移及演化检测方法,有助于深入研究概念漂移及演化的本质特征,对于流数据的深入分析挖掘具有重要意义。本文针对概念漂移及概念演化的检测问题开展研究,具体研究内容包括两个方面:(1)针对流数据中同时存在的由样本分布稳定变化引起的真实概念漂移和由样本噪声及随机波动引起的伪概念漂移,提出一种基于在线性能测试的真伪概念漂移检测方法。该方法主要包括通过监测分类性能捕获有效波动位点、通过分组交叉测试提取一致波动位点和通过漂移位点的后续参考位点进行真伪性判定三个核心模块。该方法采用分组交叉测试对流数据的测试性能分布波动进行分析,消除了流数据中存在的正常随机波动导致的伪概念漂移对真实概念漂移检...

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
中文摘要
Abstract
第一章 引言
    1.1 研究背景
    1.2 国内外研究现状
        1.2.1 概念漂移研究现状
        1.2.2 概念演化研究现状
    1.3 论文主要工作
第二章 背景知识
    2.1 概念漂移
        2.1.1 概念漂移定义
        2.1.2 概念漂移检测
    2.2 概念演化
        2.2.1 概念演化定义
        2.2.2 概念演化检测
    2.3 本章小结
第三章 基于在线性能测试的真伪概念漂移检测
    3.1 真伪概念漂移描述与分析
    3.2 基于在线性能测试的真伪概念漂移检测方法
        3.2.1 有效波动位点检测
        3.2.2 一致波动位点提取
        3.2.3 概念漂移位点判定
        3.2.4 基于在线性能测试的真伪概念漂移检测算法
    3.3 实验与结果分析
        3.3.1 数据描述与实验设置
        3.3.2 概念漂移检测评测指标
        3.3.3 实验结果及分析
    3.4 本章小结
第四章 基于完全随机森林的概念演化检测
    4.1 随机森林模型
    4.2 基于完全随机森林的概念演化检测
        4.2.1 异常样本检测
        4.2.2 新类样本标记
        4.2.3 在线异常检测更新
    4.3 实验与结果分析
        4.3.1 数据描述与实验设置
        4.3.2 概念演化评测指标
        4.3.3 实验结果及分析
    4.4 本章小结
第五章 结论及展望
参考文献
研究成果
致谢
个人简况及联系方式



本文编号:3965409

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3965409.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f7761***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]