添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

累积分布函数

累积分布函数,又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写“CDF”(Cumulative Distribution Function)标记。

来源: 维基百科
简介

累积分布函数是概率密度函数的积分,即能完整描述一个实随机变量 X 的概率分布。对于所有实数 x ,累积分布函数定义如下:

F_{X}(x)=P(X<=x)

其代表了实数 X 的取值小于等于 x 的概率(请注意大小写, X 代表随机变量而 x 代表 X 的取值)。

若要求得 X 处于半闭区间( a b )的概率,其中 a < b ,则可以根据分布函数进行计算:

P(a<X<=b)=F_{X}(b)-F_{X}(a)

在上面的定义中, 小于或等于 符号 “≤” 是一种惯例,而不是普遍使用的惯例(例如匈牙利文献使用 “<” ),但这个写法对于离散分布很重要。正确使用二项式和泊松分布表取决于这个约定。此外,有些重要的公式也依赖于 小于或等于 的定义。

一般使用小写字母 f 代表概率密度函数和概率质量函数,而用大写字母 F 表示累积分布函数。

连续随机变量 X 的累积分布函数可以表示为其概率密度函数 ƒ_{X} 的积分,如下式:

F_{X}(x)=\int_{-\intf}^x f_{X}(t)dt

累计分布函数有几个重要的性质:

· 有界性

o $$\varlimsup_{x\rightarrow - \infty}F_{X}(x)=0$$

o $$\varlimsup_{x\rightarrow + \infty}F_{X}(x)=1$$

· 单调性:

o F_{x}(x_1)<=F_{x}(x_2) x_1<x_2

· 右连续性:

· $$\varlimsup_{x\rightarrow +x_{0}^+}F_{X}(x_{0})

下图给出具有不同均值和方差的正态分布的累积分布函数,可以看到虽然其形状各异,但都具备上述三个性质:

[ 图片来源: https://upload.wikimedia.org/wikipedia/commons/c/ca/Normal_Distribution_CDF.svg ]

累积分布函数的概念主要用于统计分析中,其有两种应用,一种是对小于参考值的现象值的出现频率的分析的累积频率分析,另一种则是对累计分布函数进行估计,随后可以求得简单的统计值,或进行各种统计假设检验。 如检验样本数据是否来自给定的分布,或两个样本是否来自同一个概率分布。如著名的 Kolmogorov-Smirnov 检验即是基于累积分布函数,可用于检验两个经验分布是否不同,或者经验分布是否与理想分布不同。

[ 描述来源:维基百科 URL https://en.wikipedia.org/wiki/Cumulative_distribution_function ]

发展历史

描述

如上文所述,在统计分析中可以利用累积分布的概念对数据进行检验, Kolmogorov Smirnov 提出的 Kolmogorov-Smirnov 检验( K-S 检验)是其中最著名的应用之一,用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。双样本 K-S 检验目前仍是比较两个样本最有用和最常用的非参数方法之一,因为它对两个样本的经验累积分布函数的位置和形状的差异很敏感。除此之外,基于累积分布的统计检验还有 Shapiro-Wilk 检验, Anderson-Darling 检验等, Razali 等人在 2011 年对这些检验的效力进行了比较。

1951 Massey Jr 在发表的论文对 Kolmogorov-Smirnov 检验进行了修改,从而将其用于模型的拟合优度( goodness-of-fit )分析。该检验基于实证累积分布( empirical cumulative distribution )和假设累计分布( hypothetical cumulative distribution )之间的最大差异,文章中给出了具体的例子,并认为结果显示修改后的 Kolmogorov-Smirnov 检验的表现比卡方检验( chi-square test )更好。

为将高阶变量的分布也纳入分析范围, J. P. Imhof 1961 年发表了论文,对已有的方法进行了探讨,并提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法。

累积分布的应用远不止于此,在图像处理领域,基于图像直方图均衡方法的图像增强实际上也依赖于累积分布的概念, Yu Wang 等人在其 1999 年发表的论文对此进行了说明。

主要事件

A

B

C

1

年份

事件

相关论文 /Reference

2

1933-1948

Kolmogorov Smirnov 提出了 Kolmogorov-Smirnov 检验

Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. G. Ist. Ital. Attuari . 4 : 83–91. // Smirnov N (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical Statistics. *19*: 279–281.

3

1951

Massey Jr 在发表的论文对 Kolmogorov-Smirnov 检验进行了修改,从而将其用于模型的拟合优度( goodness-of-fit )分析

Frank J. M. Jr. (1951). The Kolmogorov-Smirnov Test for Goodness of Fit, Journal of the American Statistical Association, 46 (253): 68-78.

4

1961

J. P. Imhof 提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法

Imhof. J. P.(1961). Computing the Distribution of Quadratic Forms in Normal Variables. Biometrika. 48( 3/4): 419-426.

5

1999

Yu Wang 等人提出了基于图像直方图均衡方法的图像增强法,这种方法实际上也是基于累积分布的

Wang, Y.; Chen, Q.; Zhang, B. (1999). Image enhancement based on equal area dualistic sub-image histogram equalization method. IEEE Transactions on Consumer Electronics. 45 (1):68 - 75.

6

2011

Razali 等人对基于累积分布的 Shapiro-Wilk 检验, Anderson-Darling 检验等进行了比较

Razali, N. M.; Wah Y. B.(2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics. 2 (1): 21-33.

发展分析

瓶颈

累积分布函数是数学上的一个基本概念,并且经过超过一百年的发展,已经十分成熟,很难说存在什么瓶颈。

未来发展方向

如上文所述,目前有关的研究大部分是基于累积分布函数这个概念的,而不是直接对累积分布函数进行研究。

ByYuanyuan Li

目录
简介
相关人物

Auto Byte

专注未来出行及智能汽车科技

保存二维码微信扫一扫关注获取更多内容

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

保存二维码微信扫一扫关注获取更多内容