【统计学】分散性与变异性的度量

10 Nov 2013

标题有点不明觉厉，其实说白了就是全距，四分位数，方差，标准差，以及标准分在实际中的应用。

数据的变异性（散布，离散度）可看作是对不同数值间的差异性的度量。

反映数据变异性的常用指标有极差、标准差和方差。

全距可以用来度量数据集分散程度。

下边分别细说一下。

1.全距

全距是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距；

NewImage

即最大值减最小值后所得之数据。其适用于等距变量、比率变量，不适用于名义变量或次序变量。

全距也称为极差，是指总体各单位的两个极端标志值之差，即：R=最大标志值－最小标志值

因此，全距（R）可反映总体标志值的差异范围。

全距可以用ω(读做omega)来表示。

ω=XH-XL

XH为最大值，XL为最小值。

注意：

全距仅仅描述了数据的宽度，并没有描述数据在上，下界之间的分布形态。

如果数据中包含异常值，使用全距描述数据的分散情况会极具误导性，因为全距很容易受到异常值影响。

2.四分位数以及n分位数

为了忽略全距里的异常值，我们需要截取中间的一段来分析。

NewImage

四分位数（Quartile），即统计学中，把所有数值由小到大排列并分成四等份，处于三个分割点位置的得分就是四分位数。

NewImage

这里的Q1，Q2，Q3就是四分位数。

最小的四分位数，Q1称为下四分位数或者第一四分位数。

最大的四分位数，Q3称为上四分位数或第三四分位数。

中间的四分位数，Q2即中位数。

每两个四分位数之间的距被称为四分位距。

四分位距 = 上四分位数 – 下四分位数

四分位距的优点是：与全距相比，较少受到异常值的影响。

可以类比n分位距~

计算方法：

求下四分位数

1.首先计算n/4

2.如果结果为整数，则下四分位数位于 n/4 这个位置与下一个位置的中间，取这两个位置上的数值的平均值，即得到下四分位数。

3.如果 n/4 不是整数，则想上取整，所得结果即为下四分位数的位置。

举例：

如果有六个数，首先计算6/4 ，得1.5，向上取整得到2，表示下四分位数位置为2。

求上四分位数

1.首先计算3n/4

2.如果结果为整数，则上四分位数位于3n/4这个位置与下一个位置的中间，将这两个位置上的数加起来，然后除以2

3.如果3n/4不是整数，则向上取整，所得到的数字即为上四分位数的位置。

3.方差

方差是度量数据分散性的一种方法，是数值与均值的距离的平方数的平均值。

在概率论和数理统计中，方差（英文Variance）用来度量随机变量和其数学期望（即均值）之间的偏离程度。

在许多实际问题中，研究随机变量和均值之间的偏离程度有着很重要的意义。

NewImage

4.标准差

标准差（Standard Deviation），中文环境中又常称均方差，但不同于均方误差（mean squared error），

均方误差是各数据偏离平均数的距离平方的平均数，也即误差平方和的平均数，

计算公式形式上接近方差，它的开方叫均方根误差，均方根误差才和标准差形式上接近，

标准差是离均差平方和平均后的方根，用σ表示。

标准差是方差的算术平方根。

标准差能反映一个数据集的离散程度。

平均数相同的，标准差未必相同。

NewImage

5.标准分

标准分是一种由原始分推导出来的相对地位量数，它是用来说明原始分在所属的那批分数中的相对位置的。

求法如下：

Z=(X-X_bar)/S

NewImage

式中，X为原始分数，X_bar为原始分的平均数，S为原始分的标准差。

Z分数是以一批分数的平均数作为参照点，以标准差作为单位表示距离的。

它由正负号和绝对数值两部分组成，正负号说明原始分是大于还是小于平均数，绝对数值说明原始分距离平均分数的远近程度。

一批分数全部转换成Z分数后，它们的整个分布形态并没有发生改变。

Z 分数准确地刻划了一个分数在一批分数中的相对位置，但是，由于Z分数有负值，常带有小数，不易被人理解和应用。

因此人们在Z分数的基础上进一步转换，从而发展起了一系列其他形式的标准分。

转换通式为：

Z′=αZ+β

式中，Z′为其他形式的标准分，α为基准分，一般等于原始分的平均分X_bar，β是扩大系数，一般等于原始数据的标准差S。

性质：

⑴平均值为0，标准差为1；

⑵分数之间等距，可以作加减运算；

⑶原始分转换为标准分是线性转换，不会改变原始分的分布形状，也不改变原来分数的位置次序。

6.变异系数

变异系数 (coefficient of variation，CV)：标准差对均值的百分比。

由于标准差的单位和数据值的单位相同，若想比较两组不同单位的数据的变异性大小，就无法直接比较其标准差了。

但若使用变异系数，得到的是无单位的百分比，就可以让不同的数据组相互比较。

NewImage

转载请注明：于哲的博客 » 【统计学】分散性与变异性的度量

吉吉于

free

【统计学】分散性与变异性的度量

1.全距

注意：