Skip to content
四 23 / lemywong

样本方差为何除以n-1? (参考浙大四版《概率论与数理统计》)

注意

  1. 这个问题有两个版本的解答,希望能够快速找到答案的朋友请查看Method 2,有时间慢慢琢磨的朋友请查看Method 1
  2. 本人不是数学专业的学生,以下看法均是在学习时根据课本前后的逻辑关系所作出的推测,写出这篇文章一来是分享自己的一点点的看法,二来更是希望跟各位前辈、高手讨教,所以如果有不正确的地方请您指出,谢谢!

Method 1 - 按照G.Polya的探索法进行研究

  • 问题的提出
      现将浙大四版《概率论与数理统计》中第一次提出“样本方差”的原文摘抄如下:

      样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
      定义X_1,X_2,\ldots,X_n是来自总体X的一个样本,g(X_1,X_2,\ldots,X_n)X_1,X_2,\ldots,X_n的函数,若g中不含未知参数,则称g(X_1,X_2,\ldots,X_n)是一统计量
      
    因为X_1,X_2,\ldots,X_n都是随机变量,而统计量g(X_1,X_2,\ldots,X_n)是随机变量的函数,因此统计量是一个随机变量。设x_1,x_2,\ldots,x_n是对对应于样本X_1,X_2,\ldots,X_n的样本值,则称g(x_1,x_2,\ldots,x_n)g(X_1,X_2,\ldots,X_n)的观察值。
      下面列出几个常用的统计量。设X_1,X_2,\ldots,X_n是来自总体X的一个样本,x_1,x_2,\ldots,x_n是这一样本的观察值。定义
      样本平均值

    \overline X=\sum_{i=1}^nX_i

      样本方差
    S ^2=\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2=\frac1{n-1}(\sum_{i=1}^n X_i^n-n\overline X^2)

      忙于复习考研的同学或者急着赶进度的老师,也许会忽略样本方差这一定义得出之前的一系列前提条件,而直接关注样本方差的公式S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2
      对于大部分同学而言(当然对于大部分的教学、考试要求也如此),公式就是公式,而给出公式就是要你背要你会套用会计算。
      可是,仍有那么小部分特爱纠结的人(比如反应迟钝的我)对这个公式的系数非常纳闷,心中总会有一个很模糊的问题 – 为什么除上的是n-1而不是n呢?

  • 明白我们的问题
      正如数学教育大师G.Polya在其数学解题奇书How to solve it中所说的“对你所不理解的问题作出答复是愚蠢的”,我们所遇到的这个模糊的问题确实应该再细化一些!为什么我们会觉得这个方差公式应该除以的是n
      同样是方差,我们在概率论中关于随机变量的数字特征时就学过(当然有些有兴趣的朋友也跟着课本一起证明过)随机变量的方差公式(见浙大四版《概率与数理统计》P101)
    D(X)=\sum_{i=1}^\infty[x_k-E(X)]^2\times p_k

      在古典概率的条件下(注意,古典概型才成立,别的情况并不一定成立)p_k=\frac{k}{n}(见浙大四版《概率与数理统计》P10公式(4.1)),于是在古典概型(这也是最一般最常见的概型)时,随机变量的方差公式可以改写成
    D(X)=\frac1{n}\sum_{i=1}^\infty k \times [x_k-E(X)]^2
     (其中kx_k出现的次数)
      也许是因为古典概型实在是太普遍了 – “抽球”是古典概型,“放球”也是古典概型,我们所能举出的简单例子几乎大部分都是古典概型,于是我们就十分粗略地对随机变量的方差公式理解成“每个随机变量值与均值的偏差乘以其出现的次数k最后再除上所有可能的情况n”,其实这一粗略的结论理解起来却也是那么的顺畅 – 每个与均值的偏差再平均一下就是总体的方差了。
      由于课本将概率论安排在数理统计之前,所以我们在潜移默化下,就会对方差有一个很模糊却又能说服自己去理解、接受的认识,即是将“每个与均值的偏差再平均一下”出来的东西。于是,一些比较容易在简单问题上纠结不清的同学在看到样本的方差公式时,就会很自然地跟随机变量的方差公式进行对比,由此生出这样的问题 - 为什么除上的是n-1而不是n
  • 试着慢慢解决我们的问题
      浙大四版《概率与数理统计》并没有马上解释为什么样本方差的公式会要这样子来进行定义,但是,不断学习课本,突然在第七章参数估计的第三节“估计量的评选标准”里再次看到样本方差公式(浙大四版《概率论与数理统计》P159 第一段),只不过这个时候,课本是从“参数估计”的角度来对样本方差公式进行分析,如下:

    设总体X的均值为\mu,方差\sigma^2>0均未知,由第六章(3.19)、(3.20)知

    E(\overline X)=\mu ,  E(S^2)=\sigma^2

    这就是说不论总体服从什么分布,样本均值\overline X是总体均值\mu的无偏估计;样本方差S ^2=\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2是总体方差的无偏估计,而估计量\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2却不是\sigma^2的无偏估计,所以我们一半取S^2作为\sigma^2的估计量。

      也许思维缜密,学得比较踏实的朋友在看到这一段话时就会拍案叫绝 – 原来如此!
      但是,我相信肯定会有人跟我一样还摸不着头脑,为什么要拿这个公式跟参数估计来进行对比呢?!慢慢分析一下,慢慢翻查一下课本你一定也会有类似的醍醐灌顶、拍案叫绝的感觉!
      我们先来慢慢分析上面课本上的这段话,首先找出这段话的主干并把无关部分用X代替,那就是”X是X的无偏估计“,好了,既然提到了无偏估计,那么我们首先要知道跟什么偏,或者说“这个参数跟什么有偏差”(一个估计量的提出,总得评价它是否提得好,而评价是否”提得好“的标准就是以”无偏性“进行衡量的,具体见浙大四版《概率论与数理统计》P158)跟什么有偏差呢,跟什么做对比呢?这段话已经告诉我们 - 样本方差S ^2是总体方差\sigma^2的无偏估计,原来如此,这里是用S^2来估计\sigma^2
      这样的解释对于一些朋友来说已经能让他们充分相信样本方差公式必须除以的是n-1,这样才能达到“无偏估计”,但是我相信仍然有一部分朋友,跟我一样,很纳闷,为什么在这里要提出无偏估计呢?!

  • 问题的进一步加深 – 解决另一个问题
      为什么要提出无偏估计?
      
     

 

Method 2 - 数学证明
(证明中的部分\LaTeX公式引用于dutor的这篇文章
  必须明白,样本方差属于数理统计的领域,数理统计的一条很重要的原则就是,假设整体服从某一稳定的概率分布,不过该分布的某些具体的参数并不知道,但是,通过抽取整体所得到的样本,我们可以构建一些函数对这些未知参数进行估计,从而确定出整体所服从的概率分布,即对整体建模,最终在这个模型上研究我们所需要的一些信息。简而言之,样本的统计量必须以相应的概率数字特征进行估计,而“无偏”是这一估计的目标。
  所以我们的问题就是,为什么S ^2=\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2\sigma^2的无偏估计

求证:S ^2=\frac1{n-1}\sum_{i=1}^n(X_i-\overline X )^2\sigma^2的无偏估计
证明:

Leave a comment