基于主题模型的多标签文本分类和流文本数据建模若干问题研究

发布时间:2016-12-31 08:05

  本文关键词:基于主题模型的多标签文本分类和流文本数据建模若干问题研究,由笔耕文化传播整理发布。


《吉林大学》 2015年

基于主题模型的多标签文本分类和流文本数据建模若干问题研究

李熙铭  

【摘要】:文本数据是普遍存在的一种数据类型,如何分析文本并提炼有用的信息具有重要的意义。主题模型是现今最有效的文本分析算法族之一,本文基于主题模型,研究两个亟待解决的文本分析问题:多标签文本分类问题和流文本数据建模问题。 多标签文本分类:本文针对现存有监督主题模型存在模型可扩展性较差,没有考虑标签相关性,标签出现频率和词项的标签频率等问题,提出一些改进算法,包括SL-LDA模型,LSTM算法,FLDA模型,DFLDA模型和CPTM算法。实验结果表明,相比常用的经典分类算法,所提出算法的多标签分类性能更优;特别地,所提出算法对于偏斜文本集的分类性能有所提升。 流文本数据建模:本文针对现存主题模型在线学习算法存在随机梯度误差较大,需要手动设定学习速率和主题采样的时间复杂度较高等问题,提出一些改进算法,包括MASVI算法,自适应学习速率算法和SHVG算法。此外,提出了在线版本的期望传播算法。实验结果表明,所提出算法的文本建模性能更优,且在多数情况下收敛速度更快。

【关键词】:
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前1条

1 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

【共引文献】

中国期刊全文数据库 前10条

1 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期

2 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期

3 蒋宗礼;徐学可;;一种基于集成学习与类指示器的文本分类方法[J];北京工业大学学报;2010年04期

4 张国英,沙芸,刘玉树;模式识别中基于Boosting的特征筛选[J];北京理工大学学报;2004年07期

5 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期

6 荣腾中;刘朝林;徐旺;;多维复杂分布的MCMC抽样[J];重庆理工大学学报(自然科学版);2010年08期

7 管春;周雒维;卢伟国;;基于多标签RBF神经网络的电能质量复合扰动分类方法[J];电工技术学报;2011年08期

8 陈欢欢;陶建锋;周峰;郑甲子;;基于EPF-IMM算法的高机动目标跟踪研究[J];电光与控制;2010年10期

9 彭云辉;刘云峰;缪栋;杨小冈;;高斯混合粒子滤波器在状态估计中的应用[J];弹箭与制导学报;2007年01期

10 张仲凯;康健;芮国胜;;基于速度约束的粒子滤波算法研究[J];弹箭与制导学报;2010年01期

中国重要会议论文全文数据库 前10条

1 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年

2 李姗琦;孙永宣;高隽;谢昭;;层次Dirichlet过程模型下的目标分析与识别[A];2011中国仪器仪表与测控技术大会论文集[C];2011年

3 马骥;朱慕华;肖桐;朱靖波;;面向移进-归约句法分析器的单模型系统融合算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 ;A Collaborative Method for the Localization of Wireless Sensor Network[A];2009中国控制与决策会议论文集(3)[C];2009年

5 ;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

6 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

7 李文波;孙乐;;一种LDA模型的高效并行求解算法[A];第六届全国信息检索学术会议论文集[C];2010年

8 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

9 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

10 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

中国博士学位论文全文数据库 前10条

1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

2 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年

3 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年

4 孙韶杰;模糊图像中感兴趣信息的盲复原方法研究[D];国防科学技术大学;2010年

5 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年

6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

7 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年

8 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年

9 凯瑟(Qaisar Abbas);基于皮肤镜图像的皮肤病变检测方法研究[D];华中科技大学;2011年

10 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年

中国硕士学位论文全文数据库 前10条

1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年

2 杨业强;MIMO-OFDM系统天线选择技术的研究[D];哈尔滨工程大学;2010年

3 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年

4 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年

5 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年

6 薛维;基于非对称先验的作者主题模型[D];浙江大学;2011年

7 金泸均;智能视频监控中的人体目标跟踪研究[D];电子科技大学;2011年

8 周承兴;基于随机集的多目标跟踪算法研究[D];西安电子科技大学;2011年

9 蔡绍晓;基于粒子滤波的被动传感器多目标跟踪算法研究[D];西安电子科技大学;2011年

10 周旭东;核磁共振谱信号参数的RJMCMC估计[D];西安电子科技大学;2010年

【二级参考文献】

中国期刊全文数据库 前3条

1 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期

2 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期

3 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期

【相似文献】

中国期刊全文数据库 前10条

1 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期

2 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期

3 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期

4 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期

5 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期

6 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

7 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期

8 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期

9 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期

10 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期

中国重要会议论文全文数据库 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

中国重要报纸全文数据库 前2条

1 戴洪玲;[N];中国电脑教育报;2004年

2 山东 黄家贞;[N];电脑报;2001年

中国博士学位论文全文数据库 前10条

1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

2 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

4 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年

6 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年

7 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年

8 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年

9 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年

10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

中国硕士学位论文全文数据库 前10条

1 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年

2 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年

3 马渊;短文本情感分析技术研究[D];重庆大学;2011年

4 张超;文本OLAP关键技术研究[D];山东大学;2012年

5 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年

6 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年

7 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年

8 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年

9 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年

10 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年


  本文关键词:基于主题模型的多标签文本分类和流文本数据建模若干问题研究,由笔耕文化传播整理发布。



本文编号:228998

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/228998.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7e6f3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com