当前位置:主页 > 科技论文 > 天文学论文 >

基于arXiv论文术语词频的暗能量研究趋势分析

发布时间:2022-02-12 10:00
  现代科学研究内容日趋细化,进展日新月异,对研究趋势和前沿进展的把握变得越来越困难。文章尝试通过分析研究论文中的术语词频来定量追踪学科发展趋势。利用"天文学英语新词自动提取系统"对近20年间天文学论文预印本的全文进行术语提取,在此基础上分析宇宙学领域中与暗能量研究密切相关的概念术语(超新星、宇宙微波背景辐射等)在论文中的出现频率。通过考察这些关键词的词频随时间的变化趋势,分析它们与学科研究动态之间的关系,从而理解科学发现等热点事件对研究工作和学科发展的具体影响,为天文学及其他学科的研究进展和趋势分析提供一个客观的量化方法。文章证实新设备和新数据在推动天文学新兴理论和促生研究热点方面具有不可或缺的重要意义和价值,而诺贝尔奖项等公众热点事件并没有对宇宙学领域的研究热度产生长期影响。 

【文章来源】:中国科技术语. 2020,22(03)

【文章页数】:8 页

【部分图文】:

基于arXiv论文术语词频的暗能量研究趋势分析


论文数及高频词数年度变化趋势(1993—2018)

趋势图,论文,趋势,术语


将1993—2018年间含有model、observation和black hole的论文数进行归一化及平滑之后,可得到如图2所示的趋势。在1996—2018年间这三个词的趋势比较平稳,且模型和观测的纵坐标之和近似为1,这也符合我们对天体物理论文可分为理论和实测两大类的预期认知。而1993—1995年间网站收录的论文总数较少、学科不全、格式也不统一,给术语提取造成困难,导致这一时期的词频统计出现了明显偏差。因此我们选择1996—2018年这23年间的论文来进行术语频次的研究。2.术语频次阈值

趋势图,论文,趋势,词频


随着阈值越来越严格,满足条件的文章数是逐渐降低的。包含该词的文章(单篇词频>0)几乎是讨论该词文章(单篇词频>10)的两倍。而且,包含该词的文章比例呈逐年缓慢上升的趋势,这说明有越来越多的文章提到CMB的概念。天文界对这个概念的关注度持续上升。但若只看单篇词频数大于3的文章,上升趋势几乎消失了。而当单篇词频数设为5和10时,占比趋于定值,完全看不到上升迹象。所以,研究CMB文章的比例其实并没有明显变化(虽然有一些重大科学事件会引起论文数的短期上升,但都在一年内回归常值。这些高峰我们会在后面讨论)。因此有必要为术语频次设定一个阈值,以去除非密切相关论文所带来的“泡沫”。本文将单篇文章中的术语频次设为5,只将术语频次高于此阈值的文章用于趋势分析。原则上,还应按文章长度对术语频次进行归一化,以防止长论文中术语频次可能偏高的问题。但本文所依据的语料绝大部分是科技期刊论文,结构类似,篇幅接近,这个效应并不显著。因此本文在后续分析中略过此步。

【参考文献】:
期刊论文
[1]天文学英语新词自动提取系统[J]. 余恒,崔辰州,张晖.  天文研究与技术. 2015(03)



本文编号:3621514

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/tianwen/3621514.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f79ad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com