跳转至

概率论基础和特殊的离散分布

基本信息

  • 先修知识:有一定的微积分知识

推荐书籍

史蒂文·J. 米勒(Steven J. Miller)的《普林斯顿概率论读本

引言

概率论是一门涉及面非常广的学科,它的应用相当广泛,从纯数学领域到工程领域,处处都有概率论的身影,同时这又是一个基础性工具,概率论的的扎实功底有助于我们了解金融学和金融工程中的随机问题。

学生时代开始学习概率论的时候,考虑到知识的接受度,都是直接从概率的基础定义开始的,从事件的定义,事件可能发生和必然发生这样一种接近常识的观点开始学习,这是对的,因为在大多数情况下,日常直觉和尝试是理解概率公理及其推论的重要指南。在米勒的《普林斯顿概率论读本》中,作者从罗素悖论开始,讨论了集合论和拓扑学中的一些基础知识,然后进入概率论的基础,有兴趣的同学可以自行阅读,这是科学上研究概率论的必由之路,但是在金融领域中,我们只需要对概率论进行应用即可。

假设所有可能的结果都是某个给定集合\(\Omega\)的子集,我们把\(\Omega\)称为样本空间或结果空间,并把\(\Omega\)中的元素称作事件,引入概率函数,记作Prob。因此我们可以用Prob(A)来表示事件A发生的概率,简写为P(A)

对于概率需要满足的基本条件,数学上叫(柯尔莫戈洛夫)概率公理,通俗表述如下:

  1. 事件发生的概率在[0,1]上;
  2. 空集发生的概率为0,即事件不可能发生,全集发生的概率为1,即(某一)事件一定能发生。
  3. 有限个可数的两两互不相交的事件(不能同时发生)的集合的并集发生的概率,就等于这些事件发生的概率之和。

概率空间有四条规则,也被称为定理。

  1. “全概率公式”:在所有事件中,某一事件发生和不发生的概率之和为1,即\(P(A)+P(A^c)=1\)\(A^c\)表示事件A不发生。带引号的全概率公式,实际上是一般全概率公式的特例。
  2. 容斥原理:\(P(A \cup B)=P(A)+P(B)-P(A\cap B)\),推广到三个事件,那么
\[ \begin{align*} P(A \cup B \cup C) &=P(A)+P(B)+P(C) \\ &=-P(A\cap B)-P(A\cap C)-P(B\cap C) \\ &= +P(A \cap B \cap C) \end{align*} \]
  1. 如果\(A \subset B\),那么\(P(A) \leqslant P(B)\)。然而,如果A是B的真子集,那么不一定有\(P(A) < P(B)\),但是可以确定有\(P(B)=P(A)+P(B \cap A^c)\),其中\(B \cap A^c\)指的是B中不属于A的元素,即B发生与A不发生的交集。

  2. 如果\(\forall i\),均有\(A_i \subset B\),那么\(P(\cup_i A_i)\leqslant P(B)\)

证明过程相见推荐书籍。

概率知识概述

  • 概率公理:用直觉理解。
  • 独立性:事件之间的关系。
  • 条件概率:需要认识到,事件并不总是独立发生的,一件事情的发生可能会对另外的事情带来影响,因此就引入了条件概率的定义,即在已知其他时间发生的前提下,某个事件发生的概率有多大。
  • 贝叶斯定理:
  • 先验概率和后验概率:
  • 全概率公式(全概率法则):

随机变量

随机变量开始才算是可以将概率论和其他学科相结合。随机变量根据变量离散与否可以分为两类,一类是离散随机变量,一类是连续随机变量(需要:微积分基本定理)。 随机变量可以用以下两个函数来表示:

  • 概率密度函数(probability density function, PDF)
  • 累积分布函数(cumulative distribution function, CDF)

考虑不同随机变量之间的组合时有多变量联合分布

  • 联合分布
  • 边缘分布密度函数

随机变量的描述工具(矩等)

掌握工具的含义和计算方法,互相之间的关系

  • 矩和中心矩(需要:泰勒级数):
  • 期望(也叫均值):期望的线性性质(和的期望等于期望的和)
  • 方差:用期望计算方差的公式(\(Var(X)=E[X^2]-E[X]^2\)
  • 期望和方差的性质:
    • 相互独立的随机变量X和Y有以下关系:\(E[XY]=E[X]E[Y]\),\(E[(X-\mu_X)(Y-\mu_Y)]=E[X-\mu_X]E[Y-\mu_Y]=0\)。简单证明思路,常数\(\mu_X\)的期望值仍然是常数。
    • 随机变量的线性组合的期望和方差(\(Y=aX+b\)):
    • 随机变量之和的期望和方差:(投资组合中应用)
  • 偏度(三阶中心矩)
  • 峰度(四阶中心矩)
  • 协方差\(Cov(X,Y)\)
    • 随机变量之和的协方差
    • \(Cov(X,Y)=E[X-\mu_X]E[Y-\mu_Y]=E[XY]-\mu_X\mu_Y\)
    • 协方差大于0表示正相关,协方差小于0表示负相关。协方差等于0不表示相互独立。
  • 相关系数:
    • 定义为\(\(\rho = \frac{Cov(X,Y)}{\sigma_X\sigma_X}\)\)
    • \(\rho \in [-1,1]\)
    • 线性关系

随机变量的处理工具

  • (理解即可)卷积(分布相加、中心极限定理中应用)
    • 卷积的定义:由X和Y是定义在\(\mathbb{R}\)上的相互独立的连续型随机变量,概率密度函数分别为\(f_X,f_Y\),X和Y的卷积记为\(f_X * f_Y\),表达式为 \(\(g(z)=(f_X*f_Y)(z)=\int_{-\infty}^{\infty}f_X(t)f_Y(z-t)dt\)\) 离散型随机变量同理。将两个函数作为输入,输出一个函数。
    • 定理:X和Y是定义在\(\mathbb{R}\)上的相互独立的随机变量,概率密度函数分别为\(f_X,f_Y\),如果\(Z=X+Y\),那么\(f_Z(z)=(f_X * f_Y)(z)\),即卷积可以得到独立的随机变量之和的概率密度函数。
    • 卷积是可交换的,满足运算交换律,也满足结合律。
    • 多变量的卷积\(\rightarrow\)独立地随机变量之和。
    • 案例:掷多个骰子,并计算各骰子之和数字出现的概率,可以用卷积的方式计算概率密度函数,随着投资数量的增加,得到的图像逐渐接近钟形曲线。
  • (选学)变量替换公式
  • (了解)随机变量的乘积的概率密度函数
    • 不需要额外学习是因为乘积运算可以用对数的方法变为加法运算。

特殊离散分布

伯努利分布***

一次试验验成功与否。\(P(X=1)=p, P(X=0)=1-p\)\(X \sim Bern(p)\)\(X\)也称为二元标示随机变量。伯努利分布的推广中单次实验都满足伯努利分布。

  • 期望:\(p\)
  • 方差:\(p(1-p)\)

二项分布**

对伯努利分布的推广:n次重复伯努利试验。设n是一个正整数,并设\(p\in [0,1]\),随机变量X满足:

\[P(X=k)=\begin{cases} \binom{n}{k}p^k(1-p)^{n-k} & \text{if }k\in{0,1,2,\cdots,n} \\ 0 & \text{others.} \end{cases}\]

就称\(X\)服从二项分布,记作\(X \sim Bin(p)\)

  • 期望:\(np\)
  • 方差:\(np(1-p )\)

几何分布

对伯努利分布的进一步推广:重复试验,直到首次成功为止,随机变量X表示首次成功时已经完成的试验次数。随机变量\(X\)满足:

\[ P(X=n)=\begin{cases} p(1-p)^{n-1} & \text{if }n\in{1,2,\cdots} \\ 0 & \text{others.} \end{cases} \]

那么\(X\)就服从参数为\(p\)的几何分布,记作\(X \sim Geom(p)\)

  • 期望:\(1/p\)
  • 方差:\(\frac{1-p }{p^2}\)

泊松分布***

与伯努利分布有关但是关系不那么密切。可以理解为参数为\(n\)\(p\)的二项分布的极限,其中\(n\rightarrow \infty\)\(np_n\rightarrow \infty\)。设\(\lambda >0\),如果随机变量\(X\)满足

\[ P(X=n)=\begin{cases} \frac{\lambda^ne^{-\lambda}}{n!} & \text{if }n\in{0,1,2,\cdots} \\ 0 & \text{others.} \end{cases} \]

那么\(X\)就服从参数为\(\lambda\)的泊松分布,记作\(X \sim Pois(\lambda)\),均值和方差都是\(\lambda\)

泊松分布的重要应用在于泊松过程,是计数过程的一种。泊松分布可以表示事件发生的次数,进入某地的人数等。

示例:假设某天进入银行的顾客数量服从参数为3的泊松分布(\(\lambda = 3\)),含义就是在一天时间内进入银行的顾客数的平均值为3,那么可以计算某一天进入银行的顾客数量至少为1人的概率,即\(P(X \geqslant 1)=1-P(X = 0 )\)

另外,泊松分布还有一个有趣的定理,即n个独立的随机变量的和的参数就是这些随机变量的参数之和。

离散均匀分布

顾名思义,不详细介绍。典型例子为抛硬币和掷骰子。一共有n种可能的结果,每一种结果出现的可能性相等。

\[ P(X=a)=\begin{cases} 1/n & \text{if }a\in{a_1,a_2,\cdots,a_n} \\ 0 & \text{others.} \end{cases} \]

最重要的一种情况,上述集合\(\{a_1,a_2,\cdots,a_n\}\)\(\{a, a+1,\cdots,a+n-1\}\)时:

  • 均值:所有的值加起来除以n,为\(a+\frac{n-1}{2}\)
  • 方差:\(\frac{n^2-1}{12}\)

其他离散分布

  • 负二项分布:对伯努利分布的进一步推广:随机变量\(X\)表示恰好出现\(r\)次失败时已经成功的次数。了解即可。
  • 多项分布(Multinominal):对伯努利分布的进一步推广:n次重复试验,每次试验有k各互不相容的结果,概率分别是\(p_1,p_2,\cdots,p_k\)。了解即可。

从下一节开始介绍连续型随机变量的几种特殊分布[[2-特殊的连续分布]]。


最后更新: May 7, 2023
Back to top