医微客 - 拿到原始数据就直接统计分析，慢着！你听说过数据标准化处理吗？

拿到原始数据就直接统计分析，慢着！你听说过数据标准化处理吗？

临床研究

2019-10-25

1831 0

我们在进行临床研究时，通常会收集大量不同的指标变量，每个指标的性质、量纲、数量级等特征，均存在一定的差异。针对涉及多个不同指标综合起来的评价模型，由于各个指标的属性不同，无法直接在不同指标之间进行比较和综合。

例如，假设各个指标之间的水平相差很大，此时直接使用原始指标进行分析时，数值较大的指标，在评价模型中的绝对作用就会显得较为突出和重要，而数值较小的指标，其作用则可能就会显得微不足道。

因此，为了统一比较的标准，保证结果的可靠性，我们在分析数据之前，需要对原始变量进行一定的处理，即我们本期内容将向大家介绍的数据的标准化处理，将原始数据转化为无量纲、无数量级差异的标准化数值，消除不同指标之间因属性不同而带来的影响，从而使结果更具有可比性。

数据的标准化

数据的标准化，是通过一定的数学变换方式，将原始数据按照一定的比例进行转换，使之落入到一个小的特定区间内，例如0~1或-1~1的区间内，消除不同变量之间性质、量纲、数量级等特征属性的差异，将其转化为一个无量纲的相对数值，也就是标准化数值，使各指标的数值都处于同一个数量级别上，从而便于不同单位或数量级的指标能够进行综合分析和比较。

数据标准化处理的类型

数据标准化处理主要包括指标一致化处理和无量纲化处理两种类型。

一、指标一致化处理

指标一致化处理，主要解决的是数据之间不同性质的问题。例如我们在评价多个不同指标的作用时，某一类指标，数值越大越好，我们称之为正指标，例如诊断符合率、病床平均周转次数等指标；

另有一类指标，数值越小越好，我们称之为逆指标，例如平均住院日、围产期婴儿死亡率等指标。

在这种情况下，如果同时评价这两类指标的综合作用，由于他们的作用方向不同，将不同性质的指标作用直接相加，并不能正确反映不同作用方向产生的综合结果，此时我们就需要对逆指标进行一致化处理，改变逆指标的性质和作用方向，使所有指标作用方向一致化，从而得出适宜的结果。

针对逆指标一致化处理的方法主要有两种：

1、倒数一致化，即对原始数据取倒数，X’ = 1 / x（x>0）

2、减法一致化，即利用该指标允许范围内的一个上界值（M），依次减去每一个原始数据，X’ = M - x

注意：倒数一致化常常会改变原始数据的分散程度，这种改变会夸大或缩小原始数据的实际差异，对于进行综合评价是不利的。而减法一致化则不改变数据的分散程度，因此结果较倒数一致化而言会更加稳定。

二、无量纲化处理

数据无量纲化处理，主要解决数据之间可比性的问题，这也是我们对数据进行标准化处理的最主要的一个目的。

在实际的应用中，由于不同变量自身的量纲不同，数量级存在较大差异，在进行综合评价时，不同变量所占的作用比重也会有所不同。例如，某个变量的数值在1-10之间，而另一个变量的数值范围在100-1000之间，此时若进行综合评价，从数值的角度，很有可能数值变化范围大的变量，它的绝对作用就会较大，所占的比重较大。

因此，为了消除量纲、变量自身变异和数值大小的影响，比较不同变量之间的相对作用，就需要对数据进行无量纲化处理，将其转化为无量纲的纯数值来进行评价和比较。

常用的数据标准化方法

一、极差标准化法

极差标准化法，是消除变量量纲和变异范围影响最简单的方法。

具体的操作方法为：首先需要找出该指标的最大值（Xmax）和最小值（Xmin），并计算极差（R = Xmax - Xmin），然后用该变量的每一个观察值（X）减去最小值（Xmin），再除以极差（R），即：

X’ = (X-Xmin) / (Xmax-Xmin)

经过极差标准化方法处理后，无论原始数据是正值还是负值，该变量各个观察值的数值变化范围都满足0≤X’≤1，并且正指标、逆指标均可转化为正向指标，作用方向一致。但是如果有新数据加入，就可能会导致最大值（Xmax）和最小值（Xmin）发生变化，就需要进行重新定义，并重新计算极差（R）。

二、Z-score标准化法

当我们遇到某个指标的最大值和最小值未知的情况时，或者有超出取值范围的离群数值的时候，就不再适宜计算极差了，此时我们可以采用另一种数据标准化最常用的方法，即Z-score标准化，也叫标准差标准化法。

具体的操作方法为：