从头开始的概率统计、信息论学习
写在最前面:本篇文章的基础来自B站UP主王木头学科学的视频,同时我会在其中补充一些其他资料,不断完善。
知识学习的两种模式
- 瀑布模式:教科书中采用的模式,比如在不学习到第三、第四章时不知道第一章学习的知识有什么用。在对学科还没有形成整体认识的时候,就会过早的掌握一些细枝末节,这反而会对整体的把握形成一个障碍。
- 迭代模式:先做一个总论,也就是先把知识细节的优先级调低,把最高的优先级放在对概率论、统计学和信息论互相之间的联系和整体的理解上。
本次学习采取的是迭代模式。
从概率论最基础的问题出发
概率论的核心议题:如何用数学的方式对不确定性或者说是对可能性这件事进行描述。
对于这个核心议题,该如何去解决呢?
下面会从建表的方法进行介绍,一步步完善,形成各个版本。
V1.0 版本
如图所示,通过一个表将事件及其可能性列举出来,同时为了简化可以为每一个事件带上编号。
由此,我们便可以得到一个数学形式的函数:f(S) =K
,即输入事件返回该事件的可能性。
当然要想使用这个函数真的表示可能性还需要做一些限制:
- 数值K要满足可能性的相对关系,即若
事件A的可能性>事件B的可能性
,则有数值1>数值2
- 数值要满足事件的包含关系,即若
事件c = {事件a,事件b}
,则有数值3 = 数值1+数值2
注意:这里的解决方案中对数值的大小没有限制,只要满足上面的条件即可,所以这里的数值表示的是可能性,而不是概率值。
通过观察我们可以发现这个方案是有问题的,它只是对可能性这件事进行了数学符号化,并没有解决数学化这个问题。
要想解决数学化这个问题,除了定义的体系能够自洽外,还要尽可能的简约,也就是奥卡姆剃刀原理即如非必要,勿增实体
。上面定义的显然是不符合这个原理的,因为事件c的可能性是完全可以通过事件a和事件b推导出来的,没有必要单独去放到表中。换句话说,我们的表中只需要列举原子事件的可能性即可。
V2.0版本:引入原子事件
如图所示,只有不可再分的原子事件才需要被手动的赋予对应的数值。
由此就可以推导出更新后的函数定义:
这时候可能性即数值K就与概率值很像了。
但是这个函数定义还是有问题,因为我们可以得到这个函数是因为定义了原子事件,而原子事件本身便是有问题的。
- 对于离散事件可以很容易确定原子事件,比如掷骰子,可以将得到的点数作为原子事件;
- 但是对于连续事件呢,要使用区间去定义原子事件,这种情况下事件可以无限细分,这时如果再使用原子事件作为思考的起点,基于它建立描述可能性的数学体系,就可能会出现问题。
因为上述描述的原子事件的问题,我们很难再用左边表格作为地基去建立右边表格。
推不动就试一下拉
,可不可以用右边的表格作为地基去建立数学体系呢?
V3.0版本:换用累计分布
先来看上面的两个表格,右边的表格是基础,其中域中的元素是事件;而左边表格里的S是样本空间,其中的元素不是事件。
定义中,上面的是累计分布函数
,下面的是概论密度函数
。
这里就是使用累计分布作为地基去建立概论学体系,可以将连续和离散两种情况统一起来。不同是下面定义的函数,对于离散情况其表示概率质量函数,对于连续情况表示概率密度函数。
至此,概论学的地基便打好了,接下来就算一层层扩展和封装,直到可以解决实际问题。
概率论的三层理解
- 最底层是概率空间和随机变量
这里要重点理解一下概论空间:(从数学的角度,而不是确定性去解释)
首先,任何一个样本空间都可以等价的对应到一个实数空间上去,就像上图中最上面的线。而P(e)表示的就是这个实数空间中一段或者几段的取值,也就是线段的长度。
之后,引入累计分布函数F对P进行重新定义,再进一步就可以得到密度函数f。这个密度到底是什么呢,其实就是给实数空间的每一个点赋予一个额外的描述。
所以对于概率空间就可以这样理解:具体的x的取值代表这个点在空间中的位置信息,而这个点对应的密度函数的取值则是这个点在整个实数空间的权重。
所以仅从数学角度上理解,概率空间就是一个被赋予了权重的实数空间,就像上图中最下面的线。
在纯实数中,两个点的距离就是二者的差值,而在概率空间中两个点的距离是二者对应权重的差值,即对距离这个概念进行了重新的定义。所以要想表示收敛,就是要权重趋于0才可以。
总结:
密度
就是概率空间中一个点的权重值质量
就是概率空间中一个或者多个线段的权重值
- 第二层是多维描述
即将原始的线升级到面、体等,为每一个面积、体积加上权重。
从这个概念上来看,从密度的角度理解概率比从累计分布角度上理解更加直观。
如上图,是一个二维空间里的密度函数,就相当于在二维的空间里定义了一个场,而每一个点的累计分布函数就是这个点的左下角所有面积的权重值。
这个描述二维空间的密度函数值的函数就叫联合概论密度函数。而边缘概率和条件概论就是两个降维考虑问题的方式。
先来看边缘概率密度:
其获取概率密度的方式就是将原本的联合概率密度函数沿着某一个x轴进行压缩,或者说压扁了。
再看看条件概率:
先不用管公式,我们可以这样理解条件概率
- 在联合概率密度的图像取x2 = a的线,即为分子,但是这个线只是二维图的一部分,所以是不归一的。
- 之后通过分母将其等比例放大,使得这一条线的权重值归一,这个分母就是x2 = a这条线的总权重值。
- P的三种不同描述
P的无损描述:就是前面介绍过的累积分布函数和由其推导得到的密度函数、质量函数。
P的参数特征:在累计分布函数的基础上提取关键特征,将P的不同凸显出来,其中最关键的特征是期望和方差以及在其之上衍生出来的矩的概念。
P的整体特征:从P的期望中衍生出的特殊的期望,也就是熵。
根据P的不同描述,衍生出三门学科:概率论、数理统计、信息论
。
注:这里对学科的划分知识up主自己的看法,并不一定是权威的。尽信书则不如无书,要有自己的判断。
写在最后:
本篇文章从概率空间的三层结构说起,系统介绍了其中原理和各对应学科的联系。
但是在学习的过程中我愈发感觉自己知识的浅薄,似乎以前在学校课程的学习都只是为了考试,为了应对那些具体的题目,而考过之后就慢慢淡忘。我觉得这样的学习是无效的,特别是在数学方面的学习上。
所以我准备接续本系列,从头开始学习概率论、数理统计、信息论的相关知识,脱离考试的压力,多一些自己的思考,可以从整体上构建起这个框架并不断完善。(立一个flag)