让人眼花缭乱的各种“回归”

科研基金

2020-05-29

1760 0

回归分析是最易接受和广泛应用的统计学方法之一。在临床研究中，我们常采用回归分析方法来探讨变量之间是否有相关性，或用来作预测和控制。那么回归分析方法有哪些？各自的特点是什么？下面就让小编和大家一起来讨论那些让人眼花缭乱的各种回归。

回归分析方法的分类受变量的多少、因变量的多少以及自变量和因变量之间的关系等因素影响，在实际的统计分析中，常包括如下几种。

1.线性回归

线性回归是我们最熟悉的回归分析方法之一，也是人们在学习预测模型时首选的技术之一。在线性回归分析中，因变量是连续的，自变量既可以是连续的，也可以是离散的。线性回归分析方法就是使用最佳的拟合直线（回归线）在因变量（Y）和一个或多个自变量（X）之间建立一种关系的回归分析方法，包括一元线性回归和多元线性回归。其中多元线性回归表示为Y=a+b1X +b2X2+ e，其中a表示截距，b表示直线的斜率，e是误差项。多元线性回归可通过给定的预测变量（s）来预测目标变量的值。

2. Logistic回归

Logistic回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元（如真/假和是/否等）变量时，就应该使用Logistic回归。因为在这种回归分析方法中使用的是的二项分布（因变量），我们需要选择一个对于这个分布最佳的连结函数，就是Logit函数。

3. 逐步回归

当我们需要处理多个自变量时，就可以使用逐步回归分析方法。在这种回归分析中，自变量的选择是在一个自动的过程中完成的（包括非人为操作）。逐步回归又分为标准的逐步回归、先前选择法和向后剔除法。标准的逐步回归分析方法需要增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始，然后为每一步添加变量。而向后剔除法要与模型的所有预测同时开始，并在每一步消除最小显著性的变量。

4. 岭回归

当自变量高度相关（数据之间存在多重共线性）时，使用的回归分析方法就是岭回归分析。在上述情况下，尽管最小二乘法（OLS）测得的估计值并没有偏差，但它们的方差也会很大，从而使观测值与真实值之间相差很大。岭回归通过给回归估计值增加一个偏差值，从而达到降低标准误差的目的。

5. 多项式回归

如果自变量的指数大于1，那么回归方程就是多项式回归方程，这种分析方法也就是多项式回归分析。用y=a+bx2表示。在这种回归分析方法中，最佳拟合线并不是直线，而是一个用于拟合数据点的曲线。

6. 套索回归

所谓的索讨回归类似于领回归，也会就回归系数向量给出惩罚值项。而且，索讨回归能够减少变化程度并提高线性回归模型的精确度。但两者又有不同的地方，那就是索讨回归使用的惩罚函数是L1范数，而不是L2范数。这会使一些参数估计结果因惩罚值而等于零。实际应用中，当有多个相关的特征时，也会出现两者混合使用的情况，也就是所谓的ElasticNet回归。

上述几种回归分析方法就是我们比较常用的回归分析方法，具体要采取哪种方法需要结合数据特点和分析目的。在这里提醒一下，在进行回归分析之前要考虑：资料的性质和应用条件、相关系数和回归系数的意义和检验、回归相关关系的统计意义与专业意义、相关关系和因果关系等等（我们会在以后详细介绍）。

只要掌握不同回归的特点和使用条件，并注意上述几点问题，结合临床实际，相信这些回归分析方法会为你所用，为你的研究论文增光添彩。