基于逻辑回归模型的垃圾邮件过滤系统的研究

发布时间：2023-12-13 19:03

　　垃圾邮件的传播蔓延,严重侵害了电子邮件用户利益,影响了电子邮件服务运营秩序,危害了互联网安全和社会稳定,已经成为互联网一大公害。本文研究了使用文本分类进行邮件过滤的方法。基于机器学习理论的垃圾邮件过滤算法是解决垃圾邮件问题的研究热点,本文重点对中文过滤特征项和垃圾邮件过滤模型两方面进行研究。本文采用在线逻辑回归模型解决垃圾邮件过滤,提出了字节级n元文法获取邮件特征,有效解决了垃圾邮件特征获取的问题,应用该文法不仅简化了特征提取,还使得过滤器具有能够处理图像、病毒邮件的能力,为大幅提高垃圾邮件过滤器的性能奠定了基础；本文采用TONE训练方法进行垃圾邮件过滤器的训练,减轻了系统对训练数据的需求,提高了系统的效率,同时还提高了系统的鲁棒性。实验结果表明,该方法的性能极佳,可以满足实际应用的需求。本文描述的系统参加了中国计算机学会主办的SEWM (Search Engine and Web Mining) 2008垃圾邮件过滤评测,获立即反馈、主动学习、延迟反馈全部在线评测项目的第一,性能优于第二名100倍左右；在另外两个中文测试集(SEWM 2007和TREC05C)上也显著优于当年评测...

【文章页数】：72 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪言
    1.1 课题的来源
    1.2 课题的背景及意义
    1.3 国内外研究现状
    1.4 研究的主要内容与论文组织结构
第2章垃圾邮件过滤的相关技术
    2.1 文本分类技术
        2.1.1 文本表示
        2.1.2 特征项定义
        2.1.3 特征选择方法(Feature Selection)
    2.2 文本分类技术解决垃圾邮件过滤
    2.3 垃圾邮件过滤中的常用算法
        2.3.1 自学习K邻近算法(KNN)
        2.3.2 支持向量机(SVM)
        2.3.3 逻辑回归(Logistic Regression)
    2.4 本章小结
第3章基于逻辑回归的垃圾邮件过滤系统
    3.1 垃圾邮件过滤系统的体系结构
    3.2 逻辑回归模型
    3.3 基于字节级n-gram的特征项定义
    3.4 邮件特征选择
    3.5 特征向量权值估计
    3.6 训练方法
        3.6.1 TOE方法
        3.6.2 TONE方法
    3.7 本章小结
第4章系统性能测试与分析
    4.1 测试环境
        4.1.1 测试集
        4.1.2 测试任务
        4.1.3 评测指标
    4.2 测试结果
    4.3 测试结果分析
    4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
个人简历
附录

本文编号：3873783

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shekelunwen/ljx/3873783.html

上一篇：中国农民工市民化的权利逻辑：政策分析与实证检视——公民身份的视角
下一篇：基于可编程逻辑器件的脑电信号自适应滤波技术的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|