基于线性分析的日语文本分类模型构建研究

发布时间：2021-08-26 23:55

　　本文以涵盖日常会话、会议发言、小说、议论文、政府白皮书以及新闻报道等多个类型的训练组文本为对象,统计其名词比、数词比、接续词句比等22项数据,将其作为文本表示方式进行线性分析,从中选取14项具有显著判别能力的指标,确定了其权重,由此构建基于Bayes分类函数的文本分类模型。观察这14项典型指标可知,除词汇占比类数据外,句长等指标也能够成为文本分类的有效依据。经测试,在绝大多数情况下,该模型的分类准确率都高于85%,召回率都高于81%,实现了以较小的运算量达到较高分类精度的目标。

【文章来源】：外语电化教学. 2019,(06)北大核心CSSCI

【文章页数】：7 页

【部分图文】：

基于线性分析的日语文本分类模型构建研究