高维线性回归的变量选择和成对化筛选

发布时间:2024-03-20 20:33
  随着高维数据的不断出现和大数据分析的需求,统计学领域中线性回归模型的变量选择变得越来越热门,如何在复杂多样的预测变量中选出真正重要的变量至关重要,也更具挑战性。本文对统计学中线性回归的变量选择研究成果进行了综述,其中主要为[5]提出的成对化筛选方法。在变量选择中,大多数现有方法集中于边际效应,即协变量与响应变量的关系,而忽视了协变量之间的依赖性。但[5]中提出的方法考虑将成对的协变量之间的效应应用于筛选和惩罚中。这一方法需要借助独立协变量之间成对样本相关性的最大绝对值的渐近分布。该理论的独特性在于在该渐近分布的收敛性是关于维数p的,并且关于样本数n是一致的。另外,将响应变量向两个不同协变量上进行回归,可以得到成对R方最大值的一个上界。[5]中提出的筛选方法正是基于这些极值的结论。进一步,将成对化筛选和SIS方法[4]相结合,[5]给出了一个新的正则化变量选择过程。在一定的条件下,这样的方法满足Oracle性质。文章结构为:第一章引言部分介绍选题背景和文章内容;第二章回顾了一些经典的线性模型变量选择方法,并进一步介绍了高维数据下常用的正则化方法如LASSO、岭回归等,和其他变量筛选方法如...

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

图2.?2岭回归的几何解释??瓜为OLS估计,札和/?2分别是取不同的;I值时所得到的解

图2.?2岭回归的几何解释??瓜为OLS估计,札和/?2分别是取不同的;I值时所得到的解

?变量选择方法研宄现状???=?\\(XtX?+?AI)-\XtX)P〇ls\\??=||(XTX?+?Aiy^X^?+?A/?-?U)P〇LS\\??=?\\i-?i(<xTx+xirip0LS\\??<?IIW.??从几何角度理解岭回归会更加直观,由凸优化的知识,岭回归的目标....


图2.?3三种不同方法应用坐标下降法的迭代函数图像??在LARS法中,各个协变量最多使用一次,并且给出了每一步的步长,因此??

图2.?3三种不同方法应用坐标下降法的迭代函数图像??在LARS法中,各个协变量最多使用一次,并且给出了每一步的步长,因此??

现过程,具体来说,一开始由于未选入变量,残差就为y,第一??步会选择与相应变量相关性最高(夹角最小)的协变量方向在该方向上移动??步长&,使得新的残差向量y?-?与&和除七之外相关性最大的协变量的相关??性相等,再以上述残差向量方向为新的搜索方向进行移动,直到残差向量y-??满足....


图2.?4?LASSO、岭回归和桥回归的几何表现??总结上述三种方法,LASSO在很大程度上可以进行变量选择(凡=0或馬=??

图2.?4?LASSO、岭回归和桥回归的几何表现??总结上述三种方法,LASSO在很大程度上可以进行变量选择(凡=0或馬=??

??黑色的点即为轮廓线和约束线“相切”的点,也就是正则估计。注意到在LASSO??和桥回归中,约束线在0处不是连续可导的,在坐标轴上有尖点,而岭回归的圆??形没有尖点。当椭圆形移动时,有尖点的图形更容易被碰到,此时对应的参数估??计即为0,从而达到了变量选择的目的;而与圆形相切与....


图2.?5五种正则化方法的罚函数??关于贝叶斯变量选择方法有大量的文献

图2.?5五种正则化方法的罚函数??关于贝叶斯变量选择方法有大量的文献

?变量选择方法研宄现状???图2.?5展示了三种凸函数正则法和两种非凸函数正则法的罚项,可以清晰地??表示出它们的区别。除了这些方法,还有Dantzig选择器如7_;等,全面??概述参见[Fan?and?Li.?20?JOJ。??在变量选择这一范畴中还有许多不同的方法。例如贝叶斯....



本文编号:3933264

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3933264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户11a26***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]