中文分词中词典分词和模型分词融合的实证研究

发布时间：2021-07-28 01:52

　　将一连串的字段根据一定的规律分成一个个独立的、可识别的字段就是中文分词过程。因为中文是由一个个汉字组成,没有便于切分汉字之间的分隔符,所以中文分词是自然语言处理的第一步,是不可避免的基本步骤,分词处理结果是否理想直接决定了最后的结果是否理想化。在知识更新迭代变化快的今天,对分词处理方法的灵活性和科学性有了更多、更高的要求。互联网的普及让大量的新词汇不断涌现,这些新词汇的产生不仅是互联网进步的一个反应,同时也对词典分词发起了新的挑战,如何高效迅速的处理这些包含新词汇的文本是文本词典的重点研究对象。目前的分词系统中主要使用词典分词或者机器学习分词完成分词任务。而词典分词虽然可控性好、分词速度快,但是其对未登录词无法正确切分。虽然机器学习模型CRF能够很好解决未登录词问题,但训练CRF需要人工设计很多特征,且需要花费很多时间来验证特征的有效性。基于深度学习的自然语言处理算法逐渐兴起之后,在序列标注任务上使得模型能够自动的抽取特征成为可能,大大减少了人工设计特征的工作量。虽然基于模型的分词能够很好的解决未登录词问题,但是其可控性没有词典分词好,对于一个未解决的新词模型,词典分词可以快速的人工添...

【文章来源】：广西师范大学广西壮族自治区

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

CDWS结构图

结构图,分词系统

图 1.1 CDWS 结构图北航提出 CASS 汉语自动分词系统，如下图所示。该系统采用嵌套的方最大匹配法（ASM），从而能够识别出多种多义切分语料。同时 CASS 系用的是首字索引的结构方式，通过可变长记录的键值文件实现节省存储相对于 CDWS 效率提高了十几倍，达到了 200 字/秒，分词准确率也相对

系统结构图,系统结构图,语料

图 1.3 ABWS 系统结构图北京师范大学是首个将中文分词系统完整的引进到专家系统方法中，而且该理机和知识库互不干涉，相互独立，其词典采用首字索引的数据结构。实验显示系统在封闭语料下的切分准确率高达 99.94%，对开放语料的切分精度也达到 99速度约为 200 字/秒左右。清华大学先后提出 SEG 系统和 SEGTAG 系统，SEG 分词系统[7]是从用户的角度户可以任选合适的切分算法，灵活应对。该系统自带双向最大匹配、全切分-评法、正向以及反向算法[8]。针对文本语料存在的多种问题，该系统都有对应的算比如：正向或者反向最大匹配法可以解决歧义较少的语料问题。全切分-评价算在于，随着切分的多次进行，精度会不断提高，甚至会达到 99%左右。SEGTAG 系的对象更为繁杂多样，将所获得的信息进行综合，尽可能的提高切分的准确度。用 DAG（有向图）来收集信息，并且有自己的切分标志，系统可根据切分标志和实现全切分。资料显示，该系统切分准确度在 99%左右，切分速度约 30 字/秒。

本文编号：3306965

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/wenyilunwen/yuyanyishu/3306965.html

上一篇：From Paper to Electronic: How Technology Will Shape the Futu
下一篇：俄罗斯留学生汉语语用失误调查分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|