当前位置:主页 > 理工论文 > 气象学论文 >

基于机器学习算法提升降水区反演效果研究

发布时间:2020-10-19 12:54
   为了提升基于同步卫星反演的高时空分辨率降水资料的准确性,本文基于东亚地区的逐小时葵花-8静止卫星数据和数字高程地形高度数据,采用两种机器学习方法,梯度提升决策树(GBDT)和随机森林(RF)来提升东亚地区夏季的24-h降水区卫星反演效果。GBDT和RF方法能够有效处理高维数据的非线性问题,并且受到过拟合问题影响很少。新的方法使用几种物理相关的变量作为特征,包括云顶高度,云顶温度,云水路径,云相态,水汽,亮温时间变化和地形起伏。该方法通过以下几个步骤来实现。首先对于模型参数进行了实验,选出ETS评分最大的模型参数及特征组合。然后,GBDT和RF模型通过训练集训练后得到雨区估计模型。最后,评估了观测样本和模型估计在测试集上的一致性和偏差。结果表明,GBDT模型在三个时段(白天、黄昏、夜晚)的ETS评分分别为0.42、0.30和0.32。其中云水路径和云相特征对于模型的贡献最多。RF模型的在三个时段(白天、黄昏、夜晚)的ETS评分分别为0.42、0.29和0.31。同时,在和两个概率相关的方法对比后,根据多个统计指标检验,基于GBDT和RF的模型在三个时段总体上提升ETS评分分别为16%,42%和28%,同时提升命中率上8%,-12%,13%,降低虚警率 15%,25%,12%。
【学位单位】:南京信息工程大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:P407
【部分图文】:

分布图,雨量计,观测站,分布图


?13C?E??图1.雨量计观测站分布图??地面观测的雨量计资料来自CIMISS的2500多个国家气象站资料(分布如图1所??示)。资料通过历史极值和临近站点的差值进行了质量控制处理[521。由于观测设备的限??制,观测降水量小于0.1mm不能被记录,因而被认为无降水。??第7贞??

流程图,森林,流程图,噪声数据


2.3.3?RF的优缺点??随机森林通过构建不同的训练集来差异化每个树的结果,使得整体平均的结果对于??高噪声数据有高度稳定性。而构建这种差异性的关键在于优化各节点特征子集数量。每??棵树通过不同的总样本子集来构建。在每次节点分割时可供选择的特征又不同,因而增??加了每棵树之间的差异。如果每次分割的特征相同,那么这些树脂件具有高相关性[57]。??因而每个节点随机供选择的特征子集数是模型优化的要点,因而增加了模型对于高噪声??数据的鲁棒性。研究显示,随机森林方法对于高噪声数据不敏感网⑷]。而且其算法的训??练较快,可以得到特征变量的重要性排序。??虽然RF拥有很多优点,但是算法的缺点也值得注意。RF的.个特点是缺乏解释性。??由于整体预测是由多个决策树构成,不能用笮?的决策树表示整个决策过程,即某个决??策+能直接通过树结构判断根据何种特征来判断的。另外,对P所有树的结果的平均??味着算法结果+能超出训练样中目变量的,。??

点图


第三章模型物理变量的选择第三章模型物理变量的选择??通常对于雨区的识别需要选取和降水相关的变量作为分类的依据。GBDT也需要征点来进行雨区的识别。在本研宄中,目标变量为降水和非降水。降水样本表而非降水样本表示为0。对于降水相关的变量,选取与降水过程有关的物理变基于图像灰度的统计特征量,包括了热带深对流过程和中纬度层云降水过程。量主要包括云顶高度(CTH),云顶温度(CTT),云水路径(CWP),云相(CP(WV),时间变率(TC)和地形起伏(OV)。所有特征量及具体表示方式展1。??
【参考文献】

相关期刊论文 前1条

1 吴泓;袁成松;钱玮;王博妮;;气象监测中降水资料的质量控制[J];气象科学;2012年06期



本文编号:2847225

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/qxxlw/2847225.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户205a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com