基于机器学习的植物表型基因的文献分类及其应用

发布时间：2024-04-11 04:13

　　随着生物信息学的发展,每天都有大量的文献发布到各种期刊上,面对快速增长的生命科学文献,依靠手工标注的方式难以实现高效的管理,将文本挖掘技术应用于生物医学领域能够很好的解决文献分类效率,文献分类技术可以从杂乱无序的信息中提取科研人员感兴趣的内容。本文通过机器学习分类器对文献进行分类,筛选出植物表型和基因相关的文献,提高分类的效率,具体工作如下:(1)完成了数据获取和预处理工作通过爬虫软件收集了 MEDLINE数据库中和植物表型基因相关的文献,对收集到的植物表型基因的文献进行预处理操作,主要包括:文献清洗、文献切分、词干提取和删除停用词。(2)构建了词袋模型、TF-IDF模型和Word2vec模型对文献进行特征处理针对植物表型基因文献中特征处理问题,对预处理后的文献特征赋予不同的权重,将文献的内容转换成向量的形式,主要依据文献中单词出现的频率、逆文档频率和文本相似度等属性,通过实验选取合理的超参数,最终对不同特征提取方法的分类效果进行评价。(3)运用了机器学习分类器对植物表型基因文献进行分类通过对现有文本分类算法优缺点的比较,选取了支持向量机、朴素贝叶斯和随机森林方法对植物表型基因文献进行...

【文章页数】：63 页

【学位级别】：硕士

【部分图文】：

图２－３?ＣＢＯＷ和ｓｋｉｐ－ｇｒａｍ模型示意图??Ｆｉｇ．?２－３?Ｓｃｈｅｍａｔｉｃ?ｄｉａｇｒａｍ?ｏｆ?ＣＢＯＷ?ａｎｄ?ｓｋｉｐ－ｇｒａｍ?ｍｏｄｅｌｓ??

于其??他神经网络，运行速度更快，而且不需要手工标记标签来创建训练集。ＣＢ０Ｗ模型??又叫连续词袋模型是根据目标词上下文的词向量对该词的词向量进行预测，而??Ｓｋｉｐ－ｇｒａｍ贝Ｕ相反，Ｓｋｉｐ－ｇｒａｍ又叫跳节模型，逆转ＣＢＯＷ的因果关系，通过目标词??的词向量预测上下文的词向....

图３－１文献分类流程图??Ｆｉｇ．?３－１?Ｄｏｃｕｍｅｎｔ?ｃｌａｓｓｉｆｉｃａｔｉｏｎ?ｆｌｏｗ?ｃｈａｒｔ??本章主要介绍的是文献的预处理和特征选择，下文是详细介绍

文献清洗??文献切分??表型数据集?Ｓ?词干提取??５特征选择?Ｓ?分类器??去除停用词??文献预处理??图３－１文献分类流程图??Ｆｉｇ．?３－１?Ｄｏｃｕｍｅｎｔ?ｃｌａｓｓｉｆｉｃａｔｉｏｎ?ｆｌｏｗ?ｃｈａｒｔ??本章主要介绍的是文献的预处理和特征选择，下文是详细介绍。?....

图３－２株高类别的植物表型文档???

ｏｍｏｌｏｇｙ?ｗａｓ?ｏｂｓｅｒｖｅｄ?ｂｅｔｗｅｅｎ?Ｂｔ２?ａｎｄ?Ｌ２?ｉｎ?ｔｈｅｉｒ?ｃｏｄｉｎｇ?ｒｅｇｉｏｎ，?ｂｕｔ?ｈｏｍｏｌｏｇｙ?ｗａｓ?ｐｏｏｒ?ｉｎ?ｔｈｅ?３＇?ｎｏｎｃｏｄｉｎｇ?ｂｏｒｄｅｒ．??Ｔｈｉｓ?ｒｅｓｕｌｔ?ｄｅｍｏｎｓｔｒａｔｅｓ?....

图３－４?ｓｐｉｋｅ词向量??Ｆｉｇ．?３－４?ｓｐｉｋｅ?ｗｏｒｄ?ｖｅｃｔｏｒ??

容合并一起过程中，要让文本输出格式符合ｕｔｆ－８编码要求。??植物表型基因语料库共收集到超过１０００００个单词，嵌入１００维的词向量，产生??了庞大的权重矩阵，在神经网络中进行梯度下降速率较慢，由于需要训练数据来调整??权重避免过拟合，为了优化训练过程，避免权重矩阵过大，本实验使....

本文编号：3950859

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/jiyingongcheng/3950859.html

上一篇：边缘型人格障碍的生理机制及其基因基础
下一篇：CP基因在果蝇中的功能研究