当前位置:主页 > 社科论文 > 逻辑论文 >

基于逻辑回归模型的垃圾邮件过滤系统的研究

发布时间:2023-12-13 19:03
  垃圾邮件的传播蔓延,严重侵害了电子邮件用户利益,影响了电子邮件服务运营秩序,危害了互联网安全和社会稳定,已经成为互联网一大公害。本文研究了使用文本分类进行邮件过滤的方法。基于机器学习理论的垃圾邮件过滤算法是解决垃圾邮件问题的研究热点,本文重点对中文过滤特征项和垃圾邮件过滤模型两方面进行研究。 本文采用在线逻辑回归模型解决垃圾邮件过滤,提出了字节级n元文法获取邮件特征,有效解决了垃圾邮件特征获取的问题,应用该文法不仅简化了特征提取,还使得过滤器具有能够处理图像、病毒邮件的能力,为大幅提高垃圾邮件过滤器的性能奠定了基础;本文采用TONE训练方法进行垃圾邮件过滤器的训练,减轻了系统对训练数据的需求,提高了系统的效率,同时还提高了系统的鲁棒性。实验结果表明,该方法的性能极佳,可以满足实际应用的需求。 本文描述的系统参加了中国计算机学会主办的SEWM (Search Engine and Web Mining) 2008垃圾邮件过滤评测,获立即反馈、主动学习、延迟反馈全部在线评测项目的第一,性能优于第二名100倍左右;在另外两个中文测试集(SEWM 2007和TREC05C)上也显著优于当年评测...

【文章页数】:72 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪言
    1.1 课题的来源
    1.2 课题的背景及意义
    1.3 国内外研究现状
    1.4 研究的主要内容与论文组织结构
第2章 垃圾邮件过滤的相关技术
    2.1 文本分类技术
        2.1.1 文本表示
        2.1.2 特征项定义
        2.1.3 特征选择方法(Feature Selection)
    2.2 文本分类技术解决垃圾邮件过滤
    2.3 垃圾邮件过滤中的常用算法
        2.3.1 自学习K邻近算法(KNN)
        2.3.2 支持向量机(SVM)
        2.3.3 逻辑回归(Logistic Regression)
    2.4 本章小结
第3章 基于逻辑回归的垃圾邮件过滤系统
    3.1 垃圾邮件过滤系统的体系结构
    3.2 逻辑回归模型
    3.3 基于字节级n-gram的特征项定义
    3.4 邮件特征选择
    3.5 特征向量权值估计
    3.6 训练方法
        3.6.1 TOE方法
        3.6.2 TONE方法
    3.7 本章小结
第4章 系统性能测试与分析
    4.1 测试环境
        4.1.1 测试集
        4.1.2 测试任务
        4.1.3 评测指标
    4.2 测试结果
    4.3 测试结果分析
    4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
个人简历
附录



本文编号:3873783

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/ljx/3873783.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户090a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com