当前位置:主页 > 文艺论文 > 古代文学论文 >

中文现代小说的作者识别研究

发布时间:2021-10-08 12:32
  中文现代小说的作者识别实际上一种文本分类问题,即根据作者写作风格进行分类,从而识别出未知作品所归属的作者。笔者选择基于五四运动时期的现代小说作为研究对象,是因为五四时期作品的时代跨度小,作者笔锋相近,通过对作者文风相近的文章进行分类,可以达到文本分类中按照作者进行分类的最好效果。文本分类的主要流程是获取数据、文本预处理、特征提取、设计程序模型、使用程序模型、预测结果。笔者所做的工作如下:首先是获取数据,使用爬虫技术从网络爬取数据,本文项目语言选择Python,使用Scrapy框架爬取数据。笔者选择7名作者共164篇文章,并按照8:2的比率分成训练集和测试集。文本预处理部分包括数据清洗、分词、文本表示等。从网络爬取的数据包含很多Html语句和空行等,首先清除掉;之后利用Jieba分词工具进行中文分词处理,分词后的文本中包含16万个词汇,属于非结构化的自然语言,想要机器可以识别,需要表示成结构化的机器语言,即文本表示;文本表示出笔者使用词袋模型,把所有词语表示成机器可以识别的数字语言,比如139863、52411等。为了达到文本分类的更好效果,笔者使用TFIDF进行特征提取。根据本文按照作... 

【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校

【文章页数】:44 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究领域
    1.2 研究背景及意义
    1.3 国内外研究现状
    1.4 课题论文结构
2 作者识别系统设计
    2.1 系统功能设计
    2.2 系统功能改进点
    2.3 软件环境
    2.4 项目布局
    2.5 本章小结
3 作者识别系统实现
    3.1 获取数据
    3.2 文本预处理
        3.2.1 中文分词
        3.2.2 文本表示
    3.3 特征提取
        3.3.1 TFIDF基本原理
        3.3.2 TFIDF改进
    3.4 生成分类模型
    3.5 本章小节
4 作者识别系统优化
    4.1 模型参数调优
        4.1.1 朴素贝叶斯
        4.1.2 支持向量机
        4.1.3 逻辑回归
        4.1.4 K近邻
        4.1.5 随机森林
        4.1.6 神经网络
        4.1.7 参数调优后结果
    4.2 调整TFIDF值
    4.3 本章小节
5 作者识别系统测试
    5.1 变换数据集测试
    5.2 进一步工作
        5.2.1 作者写作风格相似度量化
        5.2.2 对未知作者按写作风格分类判定
    5.3 本章小节
结论
参考文献
致谢


【参考文献】:
硕士论文
[1]中文作者识别方法研究[D]. 万晶.湖南大学 2012
[2]基于图结构的中文文本聚类方法研究[D]. 刘巧凤.大连理工大学 2009
[3]汉语文本作者识别方法的研究与实现[D]. 张剑.上海交通大学 2007



本文编号:3424167

资料下载
论文发表

本文链接:https://www.wllwen.com/gudaiwenxuelunwen/3424167.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7766f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com