医微客 - 手把手教你SPSS实现随机抽样的两种方法

手把手教你SPSS实现随机抽样的两种方法

临床研究

2019-10-25

2917 0

我们在进行科学研究时，常常会强调一个非常重要的概念——“随机化”。随机化的过程主要分为两大类：随机抽样和随机分组，它们在样本选取和分组方案中占有至关重要的地位。

随机化按照数学概率的原理，使研究对象有同等的机会被抽中或被分配到某一处理组，结果不受人为因素的干扰和影响。如果没有遵循随机化的原则，抽取了一个有偏的样本，或者分组不均衡，这样即使得出了结论，也无法推论到总体，因此随机化是提高样本代表性及组间均衡性的重要方法，随机化过程的优劣直接关系到研究结果的可靠性。

随机化的概念虽然早已深入人心，但是在具体的随机化操作过程中，很多研究者往往误把“随便”“随意”当成“随机化”，从而形成“伪随机化”的假象，归根结底还是因为大家并不清楚到底该如何有效的实现随机化。

为此，小咖打算专门用几期的内容，向大家分别介绍一下随机抽样和随机分组的内容以及软件实现过程。

随机抽样

随机抽样，即遵循随机化原则，保证总体中每个个体都有独立的、已知的、非零的概率被抽中作为研究对象。若样本量足够大，数据代表性好，随机化效果好，调查结果则会更可靠，可以将抽样结果推论到总体。

常用的随机抽样方法主要包括简单随机抽样、系统抽样、分层抽样、整群抽样和多阶段抽样。

1. 简单随机抽样（也叫单纯随机抽样，simple random sampling）

简单随机抽样是最简单、最基本的抽样方法。它是从总体N个样本的抽样框中，不考虑样本之间的任何关系，完全随机地依次地抽取n个样本，构成一个抽样样本。

它的特点是：每个样本被抽中的概率相等，样本之间完全独立，彼此没有一定的关联性和排斥性。简单随机抽样方法是其它各种抽样形式的基础，通常用在总体之间差异程度较小，且总体数量有限、数目不是太大的情况下。如果总体数量太大，编号工作就较为繁重，抽到的样本也较为分散，导致资料收集困难。

2. 系统抽样（也叫机械抽样或等距抽样，systematic sampling）

系统抽样就是先将总体（N）的各个样本按照一定的顺序进行排列，根据抽样容量（n）的要求来确定抽样间隔（K=N/n），然后在第一组中随机确定一个起点，从该起点开始机械地每间隔K个距离依次抽取样本，直到抽够n个样本为止。

它的特点是：抽出的样本在总体中是均匀分布的。等距抽样是实际工作中应用较多的方法，目前对我国城乡居民收支等调查，都是采用这种方式。

3. 分层抽样（stratified sampling）

分层抽样就是先将总体根据其属性特征分成若干个层，然后在每一层中，单独地进行简单随机抽样，最后将各层抽出的样本组成一个总的抽样样本。

分层抽样又分为两类，一种是按比例分配分层随机抽样，即每一层内抽样的比例相同；另一种是最优分配分层随机抽样，每一层抽样比例不同，内部变异小的层，抽样的比例小，反之变异大的层抽样比例大。

它的特点是：通过分层将内部变异较大的总体分为内部变异较小的若干层，这样更容易抽出具有代表性的调查样本，抽样误差小，结果的精确度高。该方法适用于总体情况复杂，各单位之间差异较大，且单位较多的情况，能够保证每一层都有个体被抽到。

4. 整群抽样（cluster sampling）

整群抽样是将总体分成多个群组，在抽样时随机抽取其中的部分群组作为观察单位，构成一个样本。如果把抽到的群组内的所有个体都作为调查对象，则称为单纯整群抽样。如果在抽到的群组内，通过再次随机抽样后调查部分个体，则称为二阶段抽样。

整群抽样在实际的应用中，更容易组织和实施，节省人力和物力。但整群抽样的抽样误差在这几类抽样方法中是最大的。

5. 多阶段抽样（multistage sampling）

多阶段抽样常常用在大型的流行病学调查中，它把抽样过程分为多个阶段进行，将上面介绍的几种抽样方法结合起来应用，每个阶段使用的抽样方法可以相同，也可以不同。

多阶段抽样首先从总体中抽取较大的单元，作为一级抽样单元，例如省、市、地区等，然后再从被抽中的一级抽样单元中，抽取范围较小的二级单元，例如县、乡、区等，以此类推最后抽取范围更小的单元（例如村、社区等），作为最终的调查对象。

多阶段抽样可以充分利用每种抽样方法的优势，克服不足，节省人力物力。缺点是需要在抽样之前就要掌握各阶段调查单位的人口资料和特点。

随机抽样SPSS操作（方法一）

一、研究实例

假设某小区一共有330户居民，拟采用简单随机抽样的方法，从中随机抽取33户居民（10%）调查其家庭人均月收入情况，从而推断该小区居民整体的经济收入状况。

二、设定随机数字种子

为了能够使抽样结果具有重现性，在抽样之前，我们需要事先设定一个随机种子。如果没有确定随机种子，那么每一次抽样的结果都会不一样。一般情况下，我们利用进行随机抽样的时间来确定随机种子，例如本例中我们设定随机数字种子为20180415，操作步骤如下：

1. 点击Transform → Random Number Generators（随机数字生成器）

2. 在Active Generator Initialization（活动生成器初始化）框中选择Set Starting Point设置一个起点，并选择Fixed Value设定一个固定的值，在Value框中填写20180415，点击OK完成设定。

三、简单随机抽样

我们首先介绍利用SPSS自带的“选择个案”的功能进行随机抽样。

1. 点击Data → Select Cases（选择个案）

2. 在弹出的对话框中，选择Random sample of cases进行随机抽样，并在Output输出框中，选择Copy selected cases to a new dataset，将随机抽样的样本重新生成一个新的数据集，并将新数据集的Dataset name命名为newdata

3. 点击Sample进行到随机抽样的设置界面

根据抽取样本的大小（Sample Size），SPSS提供了2种方法：

一种是近似法（Approximately），它允许用户按照自己设定的比例进行不重复的抽样，用户不用告诉SPSS抽样的总体有多少个，只需要输入抽取的百分比是多少，SPSS就会按照这个比例从总体中进行抽样。

另一种是精确法（Exactly），对抽取的样本含量的控制是精确的，当用户设定了一个具体的样本大小后，SPSS会严格按照这个数字从总体中随机抽取样本。例如本例中，第一个对话框填入33，第二个对话框中填入330，即33 cases from the first 330 cases，表示在330个总体中随机抽取33个样本。

随机抽样SPSS操作（方法二）

第一种方法我们介绍的是利用SPSS自带的选取样本的功能，下面我们介绍第二种常用的手动设置的随机抽样操作过程。其基本思路为：

1. 对抽样框中的每一对象产生对应的随机数字；

2. 按随机数字由小到大（或由大到小）进行排序；

3. 根据所需样本量，选择相应的排在前面（或后面）的研究对象

一、设定随机数字种子

操作过程同上，目的也是为了保证抽样结果具有可重复性。

二、生成随机数字

1. 点击Transform → Compute Variable

2. 生成一列随机数字，并将其命名为Random。

在Function group（函数组）框中找到Random Numbers（随机数字），并在该组函数中找到Rv.Uniform函数，双击将其选入到Numeric Express（数字表达式）的框中。在函数中分别预设随机数字的最小值（min）和最大值（max），Rv.Uniform函数会在设定的范围内随机生成一系列的数字。