当前位置:主页 > 科技论文 > 搜索引擎论文 >

大学英语四级作文自动生成技术研究

发布时间:2017-04-23 23:10

  本文关键词:大学英语四级作文自动生成技术研究,由笔耕文化传播整理发布。


【摘要】:随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如Siri已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面: (1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取作文资源,并利用Lucene搭建了一个检索平台。 (2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。对比两种候选文档的方式,,结果表明,使用范文作为候选文档生成的作文质量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。 (3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评价方法。在评价作文内容特征时,我们考虑了其N-gram共现、Skip-gram共现、LCS共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误;在评价篇章连贯性时,我们考虑了包括词重叠、LSA以及连接词三个方面的指标。最后,训练出的回归模型,获得了相关系数为0.83的结果。
【关键词】:作文生成 句子抽取 自动评分 自然语言处理技术
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-17
  • 1.1 课题研究背景及意义10-11
  • 1.2 国内外研究现状及分析11-13
  • 1.2.1 国外相关研究现状11-12
  • 1.2.2 国内相关研究现状12
  • 1.2.3 国内外研究现状分析12-13
  • 1.3 相关研究概述13-16
  • 1.3.1 句子抽取技术相关研究13-14
  • 1.3.2 作文自动评价相关研究14-16
  • 1.4 本文的主要研究内容16-17
  • 第2章 基于互联网的作文素材库构建17-24
  • 2.1 引言17
  • 2.2 相关技术介绍17-20
  • 2.2.1 网页集合获取17-19
  • 2.2.2 网页正文抽取19
  • 2.2.3 Lucene 简介19-20
  • 2.3 基于目标网站的作文素材获取20-21
  • 2.3.1 工具介绍20
  • 2.3.2 文本过滤20-21
  • 2.3.3 实验结果及分析21
  • 2.4 基于搜索引擎的作文素材获取21-22
  • 2.4.1 检索网页获取21-22
  • 2.4.2 实验结果及分析22
  • 2.5 基于 Lucene 的检索平台搭建22-23
  • 2.6 本章小结23-24
  • 第3章 基于句子抽取策略的作文自动生成24-41
  • 3.1 引言24
  • 3.2 基于词频信息的作文生成24-27
  • 3.2.1 句子抽取方法介绍24-25
  • 3.2.2 句子排序方法介绍25
  • 3.2.3 实验结果及分析25-27
  • 3.3 基于聚类质心的作文生成27-31
  • 3.3.1 相关概念介绍27-28
  • 3.3.2 作文自动生成28-29
  • 3.3.3 实验结果及分析29-31
  • 3.4 基于主题模型的作文生成31-36
  • 3.4.1 相关技术介绍31-33
  • 3.4.2 作文自动生成33-34
  • 3.4.3 实验结果及分析34-36
  • 3.5 方法比较及分析36-40
  • 3.5.1 实验结果对比36-38
  • 3.5.2 基于范文的作文自动生成38-40
  • 3.6 本章小结40-41
  • 第4章 四级作文的自动评价41-56
  • 4.1 引言41
  • 4.2 内容覆盖度特征41-47
  • 4.2.1 N-gram 覆盖41-42
  • 4.2.2 Skip-gram 覆盖42-44
  • 4.2.3 最长公共子序列(LCS)覆盖44-45
  • 4.2.4 特征分析45-47
  • 4.3 语法知识特征47-48
  • 4.3.1 特征介绍47
  • 4.3.2 特征分析47-48
  • 4.4 篇章连贯性特征48-52
  • 4.4.1 篇章连贯性及相关技术48-49
  • 4.4.2 Coh-Metrix 工具49
  • 4.4.3 特征分析49-52
  • 4.5 回归建模52-55
  • 4.5.1 SVM 回归52-53
  • 4.5.2 逻辑斯蒂回归(Logistic Regression)53-54
  • 4.5.3 数据集54
  • 4.5.4 实验结果及分析54-55
  • 4.6 本章小结55-56
  • 结论56-58
  • 参考文献58-62
  • 攻读硕士学位期间发表的论文62-64
  • 致谢64

【参考文献】

中国期刊全文数据库 前2条

1 罗娜;;数据挖掘中的新方法——支持向量机[J];软件导刊;2008年10期

2 梁茂成;;学习者书面语语篇连贯性的研究[J];现代外语;2006年03期


  本文关键词:大学英语四级作文自动生成技术研究,由笔耕文化传播整理发布。



本文编号:323166

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/323166.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2e551***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com