MiBlog

随机过程 学习笔记(一)

2023-09-24


English Version: Random Process Learning Notes (1)

缘起&基本信息

just for fun…

课程视频:https://www.bilibili.com/video/BV1wj411k7Tj

讲师&时间:张颢(2023年春)

目录

标注意义

笔记内容&参考资料

第一课 导论

讲师在第一节课明确的陈述了几个关键的组织性问题:

此之外: 讲师强调了书写的重要性,特别是在理解抽象概念时的草稿纸和学习新知识时的笔记。这似乎和费曼的学习方式有所呼应,即无输出不输入。 讲师提出了更高的要求,也就是解析解和可视化,他把这两点作为我们对于某个知识点或现象产生理解和直觉的依据。 在这个章节中加入对于推荐信的限制性申请条件可能会进一步提高组织上的透明度。简单的例子是:“在成绩出来后,我会公布收到一份学生名单。如果你不在这个名单上,不意味着我永远不会给你写推荐信,只是可能性降低。”

为我用: 讲师自然地在课程组织内容中穿插生动地解释了诚信守则和教师的价值观——也就是我们应该重视学生作为研究员的素养,重视专长而不是短板。

第二课 相关

什么是随机过程?

什么是随机变量?

概率论中,概率空间由样本空间、σ-代数与概率组成:$(\Omega, \mathcal F, \text{P})$ 而随机变量是一个从样本空间投射到实数空间的函数,即为$\hat{x}: \Omega \rightarrow \R$ 所以,随机函数本身并无任何随机性,随机性的来源是样本空间中的元素以及采样点——它们在统计实验中出现是具有不确定性的。

我们可以通过随机变量的分布$F_{\hat{x}}(x)$刻画随机变量,但通常更频繁使用的是密度$f_{\hat{x}}$ ,也就是分布函数求导的结果。因为随机变量在集合$A$中的概率可以通过密度求出,也就是在$A$集合上做积分。

$$F_{\hat{x}}(x)=P(\hat{x} \subseteq x) \tag {1}$$ $$f_{\hat{x}}=\frac{\text d}{\text dx}F_{\hat x}(x) \tag {2}$$ $$P(\hat{x}\in A)=\int_A f_{\hat{x}}(x)\text dx \tag {3}$$

此外, 我们还可以通过随机变量的数学期望和方差来对它进行粗略地刻画.

$$\mathbb{E}(\hat{x})=\int^{+\infty}_{-\infty} x f_{\hat{x}}(x)\text dx \tag{4}$$ $$\text {Var} (\hat{x}) = E(\hat{x} - E(\hat{x}))^2 \tag{5}$$

此之外:我在学习概率机器学习时特别检查了随机变量的定义,并且做了较为详细的笔记。有空的时候会一同传上来,在这里留一个链接供参考。(TO-DO)

为我用:讲师介绍基本结构时逻辑非常清晰,从整体入手,从基本入手。只在黑板上留下了符号,没有任何多余的文字,搭配讲解。对于初学者,这是非常易于理解和记录的。


随机过程就是一组随机变量, 更精准地描述是一组依赖于实参数t的随机变量. 这些随机变量按照时间顺序排序时,通常被称为随机过程。如果这些随机变量按照空间排序,而非时间,则被称作随机场(Random Fields)。

$$X(t) = \hat{x}_{1}, \hat{x}_{2}, \hat{x}_{3} \dots \tag{Random Process}$$

一般,我们将在连续时间t上的随机过程记为上式中的$X_(t)$。如果是离散时间上的随机过程,则记为$X_n$。这里的tn分别属于实数集和自然数集. 随机过程也可以被看作是一个二元函数$X(w,t)$, 其中w是样本空间中的元素, t是时间.

随机过程(本课程)的学习重点

此之外:Martingale(鞅) 是一个随机变量的序列. 鞅具有特定的性质, 即在给定过去信息的条件下,未来的期望值等于当前的值. 所有的鞅都是随机过程, 但是随机过程不都是鞅.

我们可以使用 $\mathbb{E} [X_t|\mathcal F_s]=X_s$ 来表达鞅的核心性质. 在这里, st均为时间, 且有先后s<t. F表示直到s时刻的所有信息. 当等式中的等号变成≤时, 我们称其为超鞅(supermartingale); 当等号变成≥时, 我们称其为亚鞅(submartingale).

其实也就是当下一个时刻的条件期望至少大于当前值就是亚鞅, 也就是期望的趋势是上升的.

相关: Binary Relation

对于相关性质的判定, 有三种结果:

从定义来看, 若两个变量的联合分布等于他们各自的密度的乘积, 那么他们就是无关的. 说人话就是, 变量X在自身分布上取任意值, 变量Y的分布都是相同的, 他们互不影响.

而不无关和相关又是两个不同的定义。在某些情况下,两个变量是相关的,但他们的相关系数为零,我们通常称为non-independent,否则就是corrected.

通常, 强烈相关的两个变量会在可视化中展现出明显的相同的趋势, 即x的分布移动时, y的分布向固定方向移动. 如果这个方向相反的话, 他们的相关系数就是负数.

此之外: 相关与否应该是一种经验性的结论, 但是概率论将其抽象地刻画出来. 要注意, 这种抽象的无关性, 仍然需要经验性的对比, 或者更直接的假设才能得出. 2023年9月25日下雨这个事件的随机变量(0为不下雨,1为下雨), 与

对于两个随机变量, 我们需要确定一个度量来衡量他们之间的距离, 也就是均方.

$$ \mathbb E (X-Y)^2 = \mathbb EX^2+\mathbb EY^2 - 2\mathbb E (XY) \tag{Mean Square} $$

其中起作用的是第三项, 也就是X和Y的乘积的期望, 这也被称为X和Y的相关(correlation). 当其为0时, 则可以说两者不相关. 期望也常常被表示为 $\mathbb E(X-\mathbb EX)(Y-\mathbb EY) = \mathbb E(XY)-\mathbb EX\mathbb EY$, 由于$\mathbb EX \mathbb EY$是确定的值, 所以这两种定义其实是一个意思.

相关系数 Correlation Coefficient

相关系数是相关除以各自的平方期望的1/2次方,相关系数是小于等于1的。该式做简单转化可以得出柯西-施瓦茨不等式。

$$|\frac{\mathbb{E}(XY)}{\sqrt{\mathbb{E}X^2\mathbb{E}Y^2}}|\leq 1$$ $$|\mathbb{E}(XY)| \leq \mathbb{E}X^2\mathbb{E}Y^2 \tag{Cauchy–Schwarz Inequality}$$

对于柯西(施瓦茨)不等式的证明, 我们可以将相关看作内积. 由于相关本身满足内积的性质(自身的内积大于等于零; 对称性; 双线性), 所以只要证明内积符合该不等式, 就能证明相关符合该不等式. 所以, 结论是: 相关本身就是一种内积.

将相关看作内积, 也可以自然地让我们考虑到在几何的(geometric)视角观察.

$$ \angle (X,Y)=\arccos(\frac{\langle X,Y\rangle}{\sqrt{\langle X,X\rangle \langle Y,Y\rangle}})=\arccos(\frac{\mathbb{E}(XY)}{\sqrt{\mathbb{E}X^2\mathbb{E}Y^2}}) $$

逼近

考虑一种情况: 我们希望随机变量X逼近随机变量Y.

这种情况下, 直觉地可以实践线性估计, 使用最小二乘法估计(LSM)解出当 $\alpha X - Y$ 的期望最小时的参数 $\alpha$ 的取值. 求解可得:

$$\alpha = \frac{\mathbb E{(XY)}}{\mathbb E{(X^2)}}$$

具体计算步骤为: 拆解期望 $\alpha^2 \mathbb{E}X^2 - 2\alpha \mathbb E{(XY)}+\mathbb{E}Y^2$, 对其求导并令其为零 $2\alpha \mathbb{E}X^2 - 2\mathbb{E}(XY) = 0$.

从几何上看, 使用之前推出的结论 - 相关也是一种内积. 上面求参数 $\alpha$ 的过程可以等价于求向量Y在向量X方向上的投影.

相关函数 Corelation Function

研究随机过程中两个随机变量的取值相关, 也就是研究这个随机过程在不同时刻的关联. 例如, 研究股票价格(这个随机过程)在时间$t$和时间$s$的随机变量$X(t)$和$X(s)$的关系, 这两个随机变量分别代表了未来的某一时间, 和现在的股价.

由此, 我们可以引出一个新的定义. 用来描述这一关系的函数, 被称作(连续)随机过程$X(t)$的相关函数(corelation function)

$$R_X(t,s)=\mathbb{E}[X(t)X(s)]$$

平稳性假设(stationary): 如果相关函数在任意时间上都不变, 则称为宽平稳(wide-sense stationary). 换句话说就是, 两个随机变量在时间上的距离(时间差/相对时间)是唯一决定它们之间关系的参数. 事实上, 宽平稳还有一个需要满足的条件, 也就是这个过程的期望在任意时刻都为一个常数$\mathbb{E}(X(t)) = m(t) = m$, 但由于随机过程的特性, 这个要求是自然满足的.

$$R_X(t + T,s + T) = R_X(t,s)$$

这可以帮助我们把二元函数简化为一元函数$R_X(\tau)$, 其中$\tau = t - s$

举了两个例子, 频段调制(phrase modulation), 以及随机电报信号(random telegraph signal). 证明了这两种随机过程的相关函数是符合宽平稳假设的. 那么, 我们可以将其写为以下形式

$$ R_X(\tau) = \mathbb{E}[X(t)X(s)] = \mathbb{E}[X(t)X(t+\tau)] = \mathbb{E}[X(0)X(\tau)] $$

这种情况下, 只要$t-s=\tau$, 等式就成立, 而不一定需要是原来的$t$和原来的$s$. 这是宽平稳中二元变一元函数的另一种说法.

宽平稳下的相关函数有以下性质

  1. 零点非负: $R_X(0) \geq 0$
  2. 偶函数: $R_X(\tau) = R_X(-\tau)$
  3. 零点为上界: 其余均小于等于零点的相关值
  4. 周期推广: 若有某点达到上界, 则这个函数应当为周期函数$R_X(t) = R_X(t+\tau)$
  5. 连续推广: 当$R_X(\tau)$在零上是连续的(continuous), 那么在其他任一点都是连续的.
  6. 正定性: 可以推出①②③
    1. 当n=1时, 可以得到$R(t-t)=R(0) \geq 0$
    2. 由正定性, 可以直接推出性质②
    3. 当n=2时, 使用正定性质的主子式相关的定义, 可以得到$R^2(0)-R^2(\tau) \geq 0$ 等价于性质③
上界的周期性(周期推广)

由相关函数在tau点的取值可以达到在0点时取值(最大值)时, 我们有$R(0)=R(\tau)$ ; 而我们要证明的是, 在这种情况下(相关函数能在某一除了0点之外的点取到最大值), 我们可以推出这个函数具有周期性.

$$ R(t)=R(t+\tau) \iff \mathbb E[R(t)-R(t+\tau)] = 0 \tag{移项} $$ $$ \mathbb E[R(t)-R(t+\tau)] = |\mathbb{E}[X(0)X(t)]-\mathbb{E}[X(0)X(t+\tau)]|\tag{定义} $$ $$ |\mathbb{E}[X(0)X(t)]-\mathbb{E}[X(0)X(t+\tau)]| = |\mathbb{E}[X(0)(X(t)-X(t+\tau))]| \tag{和化积} $$ $$ |\mathbb{E}[X(0)(X(t)-X(t+\tau))]| \leq \sqrt{\underbrace{\mathbb E[X^2(0)] \mathbb{E}^2[X(t) - X(t+\tau)]}_{=0}} \tag{Cauchy} $$

至于为什么这一项为0, 我们可以通过展开获得$X^2(t)+X^2(t+\tau)-2X(t)X(t+\tau)$的期望, 也就是$R(0)+R(0)-2R(\tau) = 0$, 所以其为零.

连续推广

随机过程的谱分析 Spectral Analysis of Stochastic Process

结论: 相关函数与功率谱密度, 是一对傅里叶变换对. 这是维纳-辛钦定理定理(Wiener-Khinchin theorem).

多元相关 multivariate correlation

TODO

高斯过程 Gaussian Process

在这段课程中, 讲师精彩地从不同的领域推出了高斯的表示. 分别是根据爱因斯坦之逻辑, 从布朗运动出发得到的高斯方程. 在这段内容中, 讲师基本上讲解了那篇著名的论文中的思维过程, 极为珍贵.

爱因斯坦的推导(布朗运动)

我们可以通过一个一维的随机运动(墨水运动)来推断出粒子运动轨迹函数f其实是一个高斯分布, x代表空间, t代表时间.

$$ f(x,t) $$

具体来说, 我们寻求解决粒子数量在时空上的分布, 令其为$\rho(\tau, y)$ 相当于密度函数.