当前位置:主页 > 经济论文 > 股票论文 >

基于深层融合的股票文本主题识别

发布时间:2022-01-07 14:16
  股票市场在资本市场中占据着重要地位,是经济的晴雨表。专家对股票的评论是投资者进行投资决策的重要依据。因此,如何快速有效地捕获众多专家股评的主题信息,成为股票研究领域的热点。然而目前大多数股票文本主题识别算法,其特征选择方法及分类模式多采用单一的标准。一般而言,单一的标准只能从某个侧面反映文本主题的识别效果,无法全面捕获目标的主体特征。事实上,不同的特征选择标准及分类器模型从不同侧面去理解文本,捕获的特征信息具有较强的互补性。为了提高股票文本主题识别的准确性,文章从信息融合的角度对股票文本进行了多层面融合:1)特征选择层,对多种特征选择方法进行加权融合,使其能够全面表征股票文本的特点;2)决策层,基于SVM-score,对多个分类器进行决策层融合,使其能够提高文本识别的准确性。基于实测数据的实验表明:相比单一模式的文本主题识别方法,文章提出的多层融合算法的识别精度明显更高。 

【文章来源】:计算机科学. 2019,46(S2)北大核心CSCD

【文章页数】:5 页

【部分图文】:

基于深层融合的股票文本主题识别


图1层次融合流程图本文第2节介绍文本预处理的基本流程和方法;第3节

示意图,特征选择,示意图,加权因子


β1+β2+…+βp=1。不同加权因子的选择,对文本分类的识别效果不同,选择合适的加权因子能够对文本主题识别达到极佳的效果。这里,一定的原则是指在[0,1]的范围内以0为开始,0.1为步长,1为结束,给特征选择方法赋予加权因子值进行特征融合。经过加权融合后,将具有最佳分类效果的参数用于构建最优值和测试数据。1)http://quote.eastmoney.com/zs000001.html.特征选择加权示意图如图3所示,设Fisherscore的加权因子为β1,卡方检验的加权因子为β2,T检验的加权因子为β3,加权融合后的第r个特征值为:R(r)=β1F(r)+β2χ2(r)+β3T(r)(11)其中,β1+β2+β3=1,F(r)为特征r的Fisher分值0,χ2(r)为特征r的卡方值,T(r)为特征r的T检验值。为了获得一组更有意义和有辨别力的特征,我们建议使用加权融合系数的修改版来量化每个文本特征的细微差别。图3特征选择加权示意图4分类决策SVM寻求最大边缘超平面来将一个类的样本与另一个类分开。训练数据的经验风险和模型的复杂性可以是超参数,从而确保对看不见的数据具有良好的泛化能力。对特征选择加权融合完后的特征,进一步基于SVM的score得分进行决策层融合,构建一个增强分类器用于最终的文本主题判别。score得分反映了点到边缘的距离,值越大,表示

特征数目,准确率,特征选择


可以看出单一的特征选择标准的识别准确度相近,但选取的特征数据存在较大的差异性,因此进行特征选择融合来减少数据差异性,提高股票文本主题的识别率,具有必要性。而进行特征选择融合后的文本主题识别,准确率明显提高,识别效果相对稳定。单一特征选择方法和特征选择融合后的最优结果对比表明:相比单一模式的特征选择方法,本文提出的特征选择融合算法的识别精度明显提高,通过方差的大小可以看出融合后的特征的稳定性明显有了提高。5.3参数对识别结果的影响图7所示的折线图为特征数目对识别准确率的影响。从图中可以看出,选择不同的特征数目对识别准确率有不同的影响。选择合适的特征数目是进行文本主题识别、提高识别准确率的关键。图8所示的折线图为特征选择融合权重对识别准确率的影响。从图中可以看出,不同的权重对识别准确率的影响不同,选择合适的权重对文本主题识别有不同的分类准确性。其中,Fisherscore和卡方检验融合的最佳权重为(Fisherscore:0.2,卡方:0.8);Fisherscore和T检验融合的最佳权重为(Fisherscore:0.1;T检验:0.9);卡方检验和T检验融合的最佳权重为(卡方检验:0.1,T检验:0.9)。图7特征数目对识别准确率的影响图8权重对识别准确率的影响第11A期张加惠,等:基于深层融合的股票文本主题识别521

【参考文献】:
期刊论文
[1]基于MapReduce的多级特征选择机制[J]. 宋哲理,王超,王振飞.  计算机科学. 2018(S2)
[2]电信大数据文本挖掘算法及应用[J]. 汪东升,黄传河,黄晓鹏,倪秋芬.  计算机科学. 2017(12)
[3]基于改进贝叶斯概率模型的推荐算法[J]. 刘付勇,高贤强,张著.  计算机科学. 2017(05)
[4]一种成对约束限制的半监督文本聚类算法[J]. 王纵虎,刘速.  计算机科学. 2016(12)
[5]基于Fisher分和支持向量机的特征选择算法[J]. 张润莲,张昭,彭小金,曾兵.  计算机工程与设计. 2014(12)
[6]股票技术指标相似性与有效性研究[J]. 方匡南,纪宏,路逊.  统计与信息论坛. 2009(09)

博士论文
[1]文本分类及其相关技术研究[D]. 李荣陆.复旦大学 2005

硕士论文
[1]基于集成学习的股票买卖点预测研究[D]. 李妍.西北大学 2018
[2]LG-trader:基于局部泛化误差和特征选择的股票交易决策支持[D]. 梁雪玲.华南理工大学 2014
[3]我国上市公司股票股利与长期股票价格相关性研究[D]. 卜乐.东华大学 2014
[4]数据挖掘技术在股票预测中的应用[D]. 张晨希.安徽大学 2006
[5]股票收益分布函数分析及价格预测[D]. 汤浩.武汉科技大学 2004



本文编号:3574697

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/3574697.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ecdd6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com