当前位置:主页 > 科技论文 > 自动化论文 >

基于改进贝叶斯算法的中文信息分类研究

发布时间:2024-02-14 20:10
  随着互联网的迅速发展,网络上出现了成千上万的新文本。大多数数据以文本的形式存储,数据呈指数增长,这些条件可能会导致我们进入信息爆炸时代。要管理如此庞大的文本量,文本分类问题亟待解决。其次,基于朴素贝叶斯的文本分类是建立在条件独立性假设的基础上的,这与现实不符。在众多通过弱化特征独立性假设来提高其准确性的建议中,特征加权方法受到的关注较少。而且,现有的特征加权方法都只是将学习到的特征权重合并到朴素贝叶斯公式中,根本没有将学习到的特征权重合并到其条件概率中。因此,本论文从特征加权的角度出发,提出了基于词频-逆文档频率特征权重和等级因子特征权重的贝叶斯算法,并将它应用到中文文本分类中,可以有效地管理庞大而复杂的数据,协助人们快速的查找信息并节约时间成本。本文的主要研究内容如下:(1)对文本分类中常用的朴素贝叶斯、KNN、支持向量机三种方法进行了比较。通过研究和实验,其结果说明朴素贝叶斯算法是中文文本分类中效果最佳的算法。(2)提出了一种基于词频-逆文档频率特征权重和等级因子特征权重的朴素贝叶斯算法—特征加权朴素贝叶斯算法。该算法将词频-逆文档频率特征权重合并到贝叶斯的条件概率公式中,其次将由...

【文章页数】:85 页

【学位级别】:硕士

【部分图文】:

图1一1单一模型方法具体内容

图1一1单一模型方法具体内容

Learning?Weighted?Naive?研究如何从数据中学习具有因排Bayes?with?Accurate?精确排序的加权朴素贝叶?耗时Ranking?斯,提出了一种利用增益比??计算特征权重的方法1411??贝叶斯分类研究现状??算法作为一种简单而有效的分类方法,在许多....


图2-丨文本分类四大阶段??第一阶段是文本表示阶段,主要内容是对训练数据进行预处理、特征处理等??操作,目的是将文本表示成计算机能够识别的向量格式[53]

图2-丨文本分类四大阶段??第一阶段是文本表示阶段,主要内容是对训练数据进行预处理、特征处理等??操作,目的是将文本表示成计算机能够识别的向量格式[53]

文本表示模型、文本分类算法、交叉验证及效果评价。??2.1文本分类流程??一般来说,一个完整的中文信息分类由四个阶段组成[521如图2-1所示。?????1?|?|训练过程 ̄??J—????1?1??q预处理?H特征处理昀文術??^?f?IS:?f=,?!??..文術1?学习c=....


图2一3KNN分类示例{胡

图2一3KNN分类示例{胡

K-最近邻算法是一种考虑到基本识别问题的非常简单的分类器,由于性、非参数性和易于实现的特性,在许多应用中得到了尝试,但是分类时很难找到K的最优值。K的最佳选择和数据息息相关,一般来说,K值越噪声对分类的影响越小,但是类之间的边界越不明显。为了克服这一缺点,采用各种启发式技术来选择....


图2一5决策树分类示树l闭

图2一5决策树分类示树l闭

叶节点?叶节点?叶节点?叶节点?叶节点??图2-4决策树分类原理??决策树本质上是训练数据空间的分层分解,其中使用属性值或条件来分数据空间。在决策树中递归地执行数据空间的划分,直到叶节点包含特量的记录,或类的一些条件。叶节点中的多数类标签(或成本加权多数标分类。为了进一步减少过拟....



本文编号:3898543

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3898543.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c649a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com