当前位置:主页 > 医学论文 > 医卫管理论文 >

关联分类算法及其在医疗数据中的应用研究

发布时间:2022-01-08 17:01
  近年来,随着医院开始重视医疗信息化,以及国家对全民医保的重视和投入,来医院就诊的病人逐渐增加,产生的医疗数据越来越多。此外,由于医院购置了各种大型的高科技医疗设施,当广泛的将其投入使用时也会产生海量的医疗数据。针对海量的医疗数据,如何把数据中潜在的、有价值的信息挖掘出来,如何通过数据挖掘的方法了解某种疾病发生的危险性因素,提前预防或提前就诊来降低发病率已经成为一个问题。目前,国内外的研究者针对医疗数据挖掘的研究已经取得了一些进展,但是目前的研究主要集中在对随机森林、神经网络、支持向量机等传统分类算法的改进及使用上,虽然分类准确度较高,但是并不能发现一些影响疾病发生的特征。而关联分类算法可以挖掘出和某种疾病相关的特征,它是数据挖掘领域中主要的研究课题之一。专家系统对医学应用中提取可以提供结果解释的if-then规则很感兴趣。为了有效地从数据中挖掘知识,提出了各种规则归纳算法,它们可以结合分类方法,形成以规则为基础的分类算法。然而,大多数以规则为基础的分类算法不能直接处理数值型数据。而离散化数据预处理可以将数值型数据转变成分类格式。但是现有的离散化算法没有考虑到数据集中数值变量的分布,这可... 

【文章来源】:兰州交通大学甘肃省

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

关联分类算法及其在医疗数据中的应用研究


重叠部分的处理方法

算法,数据集,关联分类,静态


关联分类算法及其在医疗数据中的应用研究算法中分量的数量。接下来,离散化后的数据集被应用到关联分类算法。表 3.2 提供了运用 5 折交叉验证方法产生的详细结果。根据整体排名,min(BIC)提供了最好的结果,因此被用来在 DAGMM 算法中确定高斯分量数。其中,N/A 表示在支持度和置信度分别设置为 0.33 和 0.92 时关联分类器无法提取到任何规则。3.3.3 DAGMM 算法的实验结果及分析把六个静态离散化算法与 DAGMM 算法进行比较,离散化算法都是在 MATLAB 中执行的。离散化算法的参数根据经验或者根据现有的文献进行设置。将 Holte’s 1R 算法的每个区间数据点的最小数目设置为 6。EW 算法储存数量和 EF 算法每一个箱中储存的数据点设置为 5。最后,用 30 个分量的最大值设置迭代 45000 次,得到 DAGMM 算法和 RGMM 算法的 EM 参数。图 3.5 和表 3.3 展示了把连续数据离散化之后应用于关联分类算法得到的详细结果,分别得到分类准确度、生成规则的平均值以及区间总数。

数据集,最小支持度,条规,置信度


兰州交通大学工程硕士学位论文WAC 算法没有消除未通过数据库覆盖方法覆盖到的规则。当强规则不能预测新实例,这些规则被存储在用于分类过程的备用规则集中。表 4.17 两个乳腺癌数据集在所有算法上运行的的结果AlgorithmSupport=0.1Confidence=0.5Support=0.2Confidence=0.5Support=0.3Confidence=0.5Recurrence Diagnosis Recurrence Diagnosis Recurrence DiagnosisCBA 0.6277 0.947 0.6278 0.946 0.6276 0.794MMCAR 0.6412 0.938 0.6758 0.894 0.6731 0.833CARC 0.6514 0.968 0.6832 0.944 0.6648 0.938FACA 0.6743 0.952 0.6862 0.943 0.6396 0.941ECBA 0.6743 0.925 0.6278 0.935 0.6278 0.928FWAC 0.6978 0.973 0.7364 0.976 0.7094 0.969


本文编号:3576939

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3576939.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6f7f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com