中文现代小说的作者识别研究

发布时间：2021-10-08 12:32

　　中文现代小说的作者识别实际上一种文本分类问题,即根据作者写作风格进行分类,从而识别出未知作品所归属的作者。笔者选择基于五四运动时期的现代小说作为研究对象,是因为五四时期作品的时代跨度小,作者笔锋相近,通过对作者文风相近的文章进行分类,可以达到文本分类中按照作者进行分类的最好效果。文本分类的主要流程是获取数据、文本预处理、特征提取、设计程序模型、使用程序模型、预测结果。笔者所做的工作如下:首先是获取数据,使用爬虫技术从网络爬取数据,本文项目语言选择Python,使用Scrapy框架爬取数据。笔者选择7名作者共164篇文章,并按照8:2的比率分成训练集和测试集。文本预处理部分包括数据清洗、分词、文本表示等。从网络爬取的数据包含很多Html语句和空行等,首先清除掉;之后利用Jieba分词工具进行中文分词处理,分词后的文本中包含16万个词汇,属于非结构化的自然语言,想要机器可以识别,需要表示成结构化的机器语言,即文本表示;文本表示出笔者使用词袋模型,把所有词语表示成机器可以识别的数字语言,比如139863、52411等。为了达到文本分类的更好效果,笔者使用TFIDF进行特征提取。根据本文按照作...

【文章来源】：大连理工大学辽宁省 211工程院校 985工程院校教育部直属院校

【文章页数】：44 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究领域
    1.2 研究背景及意义
    1.3 国内外研究现状
    1.4 课题论文结构
2 作者识别系统设计
    2.1 系统功能设计
    2.2 系统功能改进点
    2.3 软件环境
    2.4 项目布局
    2.5 本章小结
3 作者识别系统实现
    3.1 获取数据
    3.2 文本预处理
        3.2.1 中文分词
        3.2.2 文本表示
    3.3 特征提取
        3.3.1 TFIDF基本原理
        3.3.2 TFIDF改进
    3.4 生成分类模型
    3.5 本章小节
4 作者识别系统优化
    4.1 模型参数调优
        4.1.1 朴素贝叶斯
        4.1.2 支持向量机
        4.1.3 逻辑回归
        4.1.4 K近邻
        4.1.5 随机森林
        4.1.6 神经网络
        4.1.7 参数调优后结果
    4.2 调整TFIDF值
    4.3 本章小节
5 作者识别系统测试
    5.1 变换数据集测试
    5.2 进一步工作
        5.2.1 作者写作风格相似度量化
        5.2.2 对未知作者按写作风格分类判定
    5.3 本章小节
结论
参考文献
致谢

【参考文献】：
硕士论文
[1]中文作者识别方法研究[D]. 万晶.湖南大学 2012
[2]基于图结构的中文文本聚类方法研究[D]. 刘巧凤.大连理工大学 2009
[3]汉语文本作者识别方法的研究与实现[D]. 张剑.上海交通大学 2007

本文编号：3424167

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/gudaiwenxuelunwen/3424167.html

上一篇：明清小说中的“惧内”现象研究
下一篇：发现和直面“没有语言的生活”——关于东西的片面解读

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|