局部均值与方差计算总体均值与方差
本文主要面向高中生。学习过高中课程内的统计相关知识的话我们熟知均值是表示一组数据集中趋势的统计量;方差是在统计学中刻画一组数据离散程度的统计量,在很多实际问题中对于方差也就是数据离散程度有着很重要的意义。本文主要介绍如何通过样本局部的均值与方差获得总体数据的均值与方差。
一、均值
由于均值公式的推导较为简单,在这里不做过多的介绍,仅以两组数据距离,一般情况读者可以自行证明。
假设现有两组数据 A:x_{1},x_{2},x_{3}……x_{n} 和 B:y_{1},y_{2},y_{3}……y_{m} , A 组数据的均值为 \bar{x}=\frac{1}{n}\sum_{i=1}^{n}{x_{i}} , B 组数据的均值为 \bar{y}=\frac{1}{m}\sum_{i=1}^{m}{y_{i}} ,,现在试求样本 A\cup{B} 的平均值 \bar{z} 。
问题不难,直接操作:
\begin{align} \bar{z}&=\frac{\sum_{i=1}^{n}x_{i}+\sum_{i=1}^{m}y_{i}}{n+m}=\frac{n}{n+m}\bar{x}+\frac{m}{n+m}\bar{y} \end{align}
可以看到总体的平均值并不是部分均值的直接求和,而是各自乘上样本数在总体数据的占比。该结论可以直接推广到更多组的情况,证明同上。
二、方差
1.方差计算的常用公式:
\begin{align} \sigma^{2}&=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}= \frac{1}{n}\sum_{i=1}^{n}x_{i}^{2}-\bar{x}^{2} \end{align}
2.从局部均值与方差计算整体方差
直接利用上面的公式:
\begin{align} \sigma^{2}&=\frac{1}{n+m}(\sum{x_{i}^{2}}+\sum{y_{i}^{2}})-(\frac{n}{n+m}\bar{x}+\frac{m}{n+m}\bar{y})^{2}\\ &=\frac{n}{n+m}(\sigma_{1}^{2}+\bar{x_{1}^{2}})+\frac{m}{n+m}(\sigma_{2}^{2}+\bar{y_{1}^{2}})-(\frac{n}{n+m}\bar{x}+\frac{m}{n+m}\bar{y})^{2} \end{align}
其实到这里用来对付高考已经是完全足够的,在这里想介绍一个更加有趣和美观的结果,也是在人教版高中数学必修二中的课后习题中出现的一个结果。笔者在这里总结为一般情况如下:
现有 n 组数据。第 k 组中有 n_{k} 个数据,均值为 \bar{x_{k}} ,方差为 \sigma^{2}_{k} 。
现记总体平均值为 \bar{t}=\sum_{k=1}^{n}\frac{n_{k}}{\sum_{k=1}^{n}n_{k}}\bar{x_{k}} ,则总体方差可以表示为:
\sigma^{2}=\sum_{k=1}^{n}\frac{n_{k}}{\sum_{k=1}^{n}n_{k}}(\sigma_{k}^{2}+(\bar{t}-\bar{x_{k}})^{2}) .证明如下:
\begin{align} \sum_{k=1}^{n}\frac{n_{k}}{\sum_{k=1}^{n}n_{k}}(\sigma_{k}^{2}+(\bar{t}-\bar{x_{k}})^{2})&=\sum_{k=1}^{n}\frac{n_{k}}{\sum_{k=1}^{n}n_{k}}(\sigma_{k}^{2}+\bar{x_{k}^{2}})-\bar{t}^{2}\\ &=\sum_{k=1}^{n}\frac{\sum_{i=1}^{n_{k}}x^{2}_{ki}}{\sum_{k=1}^{n}n_{k}}-\bar{t}^{2}=\sigma^{2} \end{align}