指数族分布|机器学习推导系列（九）

一、介绍一般形式指数族分布有：高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。指数族分布的一般形式：P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}其中：①$\eta

酷酷的群

1382人浏览 · 2020-08-12 16:21:27

酷酷的群 · 2020-08-12 16:21:27 发布

一、介绍

一般形式

指数族分布有：高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等。

指数族分布的一般形式：

$P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}$

其中：
① $η\eta$ ：参数向量；
② $ϕ(x)\phi (x)$ ：充分统计量，Sufficient statistic；
③ $A(η)A(\eta )$ ：log partition function（log配分函数）
④ $h (x)$ ：不很重要，通常取1。

配分函数

$P(x∣θ)=1zP^(x∣θ)P(x|\theta )=\frac{1}{z}\hat{P}(x|\theta )$

通常如果我们得到一个可以表达分布的函数 $P^(x∣θ)\hat{P}(x|\theta )$ 但是其积分不为1，需要除以一个归一化因子 $z$ 来将其归一，这个归一化因子 $z$ 就是配分函数， $z$ 取值为 $P^(x∣θ)\hat{P}(x|\theta )$ 的积分：

$∫P(x∣θ)dx=∫1zP^(x∣θ)dx⇒1=1z∫P^(x∣θ)dx⇒z=∫P^(x∣θ)dx\int P(x|\theta )\mathrm{d}x=\int \frac{1}{z}\hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow 1=\frac{1}{z}\int \hat{P}(x|\theta )\mathrm{d}x\\ \Rightarrow z=\int \hat{P}(x|\theta )\mathrm{d}x$

解释一下为什么 $A(η)A(\eta )$ 叫log配分函数：

$P(x∣η)=P(x∣η)=h(x)exp{ηTϕ(x)}exp{−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}⏟P^(x∣θ)P(x|\eta )=P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)\right \}exp\left \{-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}\underset{\hat{P}(x|\theta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)\right \}}}$

因此 $exp{A(η)}exp\left \{A(\eta )\right \}$ 就是配分函数， $A(η)A(\eta )$ 就是log配分函数。

指数族分布的特点、模型和应用

$充分统计量共轭最大熵}指数族分布{广义线性模型概率图模型变分推断\left.\begin{matrix} 充分统计量\\ 共轭\\ 最大熵 \end{matrix}\right\}指数族分布\left\{\begin{matrix} 广义线性模型\\ 概率图模型\\ 变分推断 \end{matrix}\right.$

充分统计量

$ϕ(x)\phi (x)$ 是充分统计量。

什么是充分统计量？举例来说，对于从一些从高斯分布中抽取出来的样本 $,xNx_{1},x_{2},\cdots ,x_{N}$ ，以下统计量就是充分统计量：

$ϕ(x)=(∑i=1Nxi∑i=1Nxi2)\phi (x)=\begin{pmatrix} \sum_{i=1}^{N}x_{i}\\ \sum_{i=1}^{N}x_{i}^{2} \end{pmatrix}$

因为通过上述统计量可以计算样本的均值和方差进而得到其明确的分布。

有了充分统计量就可以将样本丢掉，从而节省了空间，对online learning有重要意义。

共轭

$P(z∣x)=P(x∣z)P(z)∫zP(x∣z)P(z)dzP(z|x)=\frac{P(x|z)P(z)}{\int _{z}P(x|z)P(z)\mathrm{d}z}$

在上面的贝叶斯公式中由于分母 $∫zP(x∣z)P(z)dz\int _{z}P(x|z)P(z)\mathrm{d}z$ 积分难或者 $P (z ∣ x)$ 的形式太复杂，因此直接求 $P (z ∣ x)$ 是很困难的，因此求 $E_{P(z|x)}[f(z)]$ 也是很困难的，所以人们想了很多办法比如近似推断（变分推断、MCMC等），这些方法的提出都是因为上述积分难的问题。

共轭的概念是指在给定一个特殊的似然（ $P (x ∣ z)$ ）的情况下，后验（ $P (z ∣ x)$ ）与先验（ $P (z)$ ）会有一个形式相同的分布，这也就解决了上述积分困难的问题，避免了就分母上的积分项常数。

举个例子：

$P(z∣x)⏟Beta∝P(x∣z)⏟二项式分布P(z)⏟Beta\underset{Beta}{\underbrace{P(z|x)}}\propto \underset{二项式分布}{\underbrace{P(x|z)}}\underset{Beta}{\underbrace{P(z)}}$

最大熵

给出先验 $P (z)$ 的一些方法包括：
①共轭 $→\rightarrow$ 计算上的方便；
②最大熵 $→\rightarrow$ 无信息先验；
③Jerrif。

最大熵原理给出了一种定义先验的方式，可以使得参数更加地随机。

广义线性模型

广义线性模型中出现的一些概念：

$function→(激活函数)−1指数族分布：y∣x∼指数族分布{线性回归：y∣x∼N(μ,Σ)分类：y∣x∼Bernoulli泊松回归：y∣x∼Possion\left\{\begin{matrix} 线性组合w^{T}x\\ link\; function\rightarrow (激活函数)^{-1}\\ 指数族分布：y|x\sim 指数族分布\left\{\begin{matrix} 线性回归：y|x\sim N(\mu ,\Sigma )\\ 分类：y|x\sim Bernoulli\\ 泊松回归：y|x\sim Possion \end{matrix}\right. \end{matrix}\right.$

概率图模型

无向图中的RBM（限制玻尔兹曼机）应用到了指数族分布。

二、高斯分布的指数族分布形式

以一维高斯分布为例，将高斯分布整理成指数族分布的形式：

$θ=(u,σ2)=12πσ2exp{−12σ2(x2−2μx+μ2)}=exp{log(2πσ2)−12}exp{−12σ2(x2−2μx)−μ22σ2}=exp{log(2πσ2)−12}exp{−12σ2(−2μ1)(xx2)−μ22σ2}=exp{(μσ2−12σ2)⏟ηT(xx2)⏟ϕ(x)−(μ22σ2+12log2πσ2)⏟A(η)}P(x|\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}\right \}\; \; \theta =(u,\sigma ^{2})\\ =\frac{1}{\sqrt{2\pi \sigma ^{2}}}exp\left \{-\frac{1}{2\sigma ^{2}}(x^{2}-2\mu x+\mu ^{2})\right \}\\ =exp\left \{log(2\pi \sigma ^{2})^{-\frac{1}{2}}\right \}exp\left \{-\frac{1}{2\sigma ^{2}}(x^{2}-2\mu x)-\frac{\mu ^{2}}{2\sigma ^{2}}\right \}\\ =exp\left \{log(2\pi \sigma ^{2})^{-\frac{1}{2}}\right \}exp\left \{-\frac{1}{2\sigma ^{2}}\begin{pmatrix} -2\mu & 1 \end{pmatrix}\begin{pmatrix} x\\ x^{2} \end{pmatrix}-\frac{\mu ^{2}}{2\sigma ^{2}}\right \}\\ =exp\left \{\underset{\eta ^{T}}{\underbrace{\begin{pmatrix} \frac{\mu }{\sigma ^{2}} & -\frac{1}{2\sigma ^{2}} \end{pmatrix}}}\underset{\phi (x)}{\underbrace{\begin{pmatrix} x\\ x^{2} \end{pmatrix}}}-\underset{A(\eta )}{\underbrace{(\frac{\mu ^{2}}{2\sigma ^{2}}+\frac{1}{2}log2\pi \sigma ^{2})}}\right \}$

然后即可获得 $η\eta$ 和 $θ\theta$ 的关系：

$η=(η1η2)=(μσ2−12σ2){η1=μσ2η2=−12σ2⇒{μ=−η12η2σ2=−12η2\eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix}\\ \left\{\begin{matrix} \eta _{1}=\frac{\mu }{\sigma ^{2}}\\ \eta _{2}=-\frac{1}{2\sigma ^{2}} \end{matrix}\right.\Rightarrow \left\{\begin{matrix} \mu =-\frac{\eta _{1}}{2\eta _{2}}\\ \sigma ^{2}=-\frac{1}{2\eta _{2}} \end{matrix}\right.$

将 $η\eta$ 代入 $A(η)A(\eta )$ 可以得到如下结果：

$A(η)=−η124η2+12log(2π⋅−12η2)=η124η2+12log(−π2η2)A(\eta )=-\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(2\pi \cdot -\frac{1}{2\eta _{2}})\\ =\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$

由此就将高斯分布整理成了指数族分布的形式：

$A(η)=η124η2+12log(−π2η2)P(x|\theta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ h(x)=1\; \; \eta =\begin{pmatrix} \eta _{1}\\ \eta _{2} \end{pmatrix}=\begin{pmatrix} \frac{\mu }{\sigma ^{2}}\\ -\frac{1}{2\sigma ^{2}} \end{pmatrix}\; \; \phi (x)=\begin{pmatrix} x\\ x^{2} \end{pmatrix}\; \; A(\eta )=\frac{\eta _{1}^{2}}{4\eta _{2}}+\frac{1}{2}log(-\frac{\pi }{2\eta _{2}})$

三、对数配分函数与充分统计量

通过对指数族分布的通用形式进行整理，可以得出对数配分函数与充分统计量
的特定关系：

$P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}=1exp{A(η)}h(x)exp{ηTϕ(x)}由前面介绍的内容可知配分函数exp{A(η)}=∫h(x)exp{ηTϕ(x)}dx⇒∂exp{A(η)}∂η=∂(∫h(x)exp{ηTϕ(x)}dx)∂η⇒exp{A(η)}A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dx⇒A′(η)=∫h(x)exp{ηTϕ(x)}ϕ(x)dxexp{A(η)}=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)ϕ(x)dx=∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ(x)]P(x|\eta )=h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\\ =\frac{1}{exp\left \{A(\eta )\right \}}h(x)exp\left \{\eta ^{T}\phi (x)\right \}\\ 由前面介绍的内容可知配分函数exp\left \{A(\eta )\right \}=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x\\ \Rightarrow \frac{\partial exp\left \{A(\eta )\right \}}{\partial \eta }=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\mathrm{d}x)}{\partial \eta }\\ \Rightarrow exp\left \{A(\eta )\right \}A^{'}(\eta )=\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x\\ \Rightarrow A^{'}(\eta )=\frac{\int h(x)exp\left \{\eta ^{T}\phi (x)\right \}\phi (x)\mathrm{d}x}{exp\left \{A(\eta )\right \}}\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi (x)\mathrm{d}x\\ =E_{P(x|\eta )}[\phi (x)]$

类似地，继续对 $A(η)A(\eta )$ 求二阶导数:

$A′′(η)=∂(∫h(x)exp{ηTϕ(x)−A(η)}ϕ(x)dx)∂η=∫h(x)exp{ηTϕ(x)−A(η)}⏟P(x∣η)(ϕ(x)−A′(η))ϕ(x)dx=∫P(x∣η)(ϕ(x)−EP(x∣η)[ϕ(x)])ϕ(x)dx=∫P(x∣η)ϕ2(x)−EP(x∣η)[ϕ(x)]P(x∣η)ϕ(x)dx=∫P(x∣η)ϕ2(x)dx−EP(x∣η)[ϕ(x)]∫P(x∣η)ϕ(x)dx=EP(x∣η)[ϕ2(x)]−EP(x∣η)2[ϕ(x)]=VarP(x∣η)[ϕ(x)]由于方差≥0，则A′′(η)≥0，因此A(η)是凸函数。A^{''}(\eta )=\frac{\partial (\int h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}\phi (x)\mathrm{d}x)}{\partial \eta }\\ =\int \underset{P(x|\eta )}{\underbrace{h(x)exp\left \{\eta ^{T}\phi (x)-A(\eta )\right \}}}(\phi (x)-A^{'}(\eta ))\phi (x)\mathrm{d}x\\ =\int P(x|\eta )(\phi (x)-E_{P(x|\eta )}[\phi (x)])\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi ^{2}(x)-E_{P(x|\eta )}[\phi (x)]P(x|\eta )\phi (x)\mathrm{d}x\\ =\int P(x|\eta )\phi ^{2}(x)\mathrm{d}x-E_{P(x|\eta )}[\phi (x)]\int P(x|\eta )\phi (x)\mathrm{d}x\\ =E_{P(x|\eta )}[\phi ^{2}(x)]-E_{P(x|\eta )}^{2}[\phi (x)]\\ =Var_{P(x|\eta )}[\phi (x)]\\ 由于方差\geq 0，则A^{''}(\eta )\geq 0，因此A(\eta )是凸函数。$

四、极大似然估计与充分统计量

上述推导都是在无样本条件下进行的，在有样本的情况下我们也可以通过极大似然估计法来获得一些特定的关系，假设有如下数据：

$,xN}D=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$

然后使用极大似然估计法求解 $η\eta$ ：

$h(xi)⏟与η无关+ηTϕ(xi)−A(η)]=argmaxη∑i=1N[ηTϕ(xi)−A(η)]∂∑i=1N[ηTϕ(xi)−A(η)]∂η=∑i=1N∂[ηTϕ(xi)−A(η)]∂η=∑i=1N[ϕ(xi)−A′(η)]=∑i=1Nϕ(xi)−NA′(η)=0⇒A′(ηMLE)=1N∑i=1Nϕ(xi)\eta _{MLE}=\underset{\eta }{argmax}\; logP(D|\eta )\\ =\underset{\eta }{argmax}\; log\prod_{i=1}^{N}P(x_{i}|\eta )\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}logP(x_{i}|\eta )\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}log[h(x_{i})exp\left \{\eta ^{T}\phi (x_{i})-A(\eta )\right \}]\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}[\underset{与\eta 无关}{\underbrace{log\; h(x_{i})}}+\eta ^{T}\phi (x_{i})-A(\eta )]\\ =\underset{\eta }{argmax}\sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]\\ \frac{\partial \sum_{i=1}^{N}[\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ =\sum_{i=1}^{N}\frac{\partial [\eta ^{T}\phi (x_{i})-A(\eta )]}{\partial \eta }\\ =\sum_{i=1}^{N}[\phi (x_{i})-A^{'}(\eta )]\\ =\sum_{i=1}^{N}\phi (x_{i})-NA^{'}(\eta )\\ =0\\ \Rightarrow A^{'}(\eta _{MLE})=\frac{1}{N}\sum_{i=1}^{N}\phi (x_{i})$

$ηMLE\eta _{MLE}$ 就可以通过求 $A′(η)A^{'}(\eta )$ 的反函数求出来。这说明 $ϕ(xi)\phi (x_{i})$ 是充分统计量，因为只需要记录 $1N∑i=1Nϕ(xi)\frac{1}{N}\sum_{i=1}^{N}\phi (x_{i})$ 这一个值就可以求出 $η\eta$ ，进而通过 $η\eta$ 求出所有的参数。

五、最大熵

概述

首先定义信息量和熵：

$p(x)(离散)信息量：-log\; p(x)\\ 熵：\\ H[P]=E[-log\; p(x)]=\int -p(x)log\; p(x)\mathrm{d}x(连续)\\ H[P]=E[-log\; p(x)]=-\sum_{i=1}^{N}p(x)log\; p(x)(离散)$

离散情况下的最大熵

假设 $x$ 是离散的：

x	1	2	$⋯\cdots$	k
P	$p_{1}$	$p_{2}$	$⋯\cdots$	$p_{k }$

通过求解以下约束优化问题可以求得使得离散情况下熵最大的分布：

$∑i=1kpi=1\left\{\begin{matrix} max\; H[P]=max-\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.\Leftrightarrow \left\{\begin{matrix} min\sum_{i=1}^{k}p_{i}log\; p_{i}\\ s.t.\; \sum_{i=1}^{k}p_{i}=1 \end{matrix}\right.$

使用拉格朗日乘子法进行求解：

$pi+1−λ=0⇒p^i=exp(λ−1)也就是说每个p^i都等于exp(λ−1)，由∑i=1kpi=1可以得到：p^1=p^2=⋯=p^k=1k∴P(x)是均匀分布。L(P,\lambda )=\sum_{i=1}^{k}p_{i}log\; p_{i}+\lambda (1-\sum_{i=1}^{k}p_{i})\\ \frac{\partial L}{\partial p_{i}}=log\; p_{i}+p_{i}\frac{1}{p_{i}}-\lambda =log\; p_{i}+1-\lambda =0\\ \Rightarrow \hat{p}_{i}=exp(\lambda -1)\\ 也就是说每个\hat{p}_{i}都等于exp(\lambda -1)，由\sum_{i=1}^{k}p_{i}=1可以得到：\\ \hat{p}_{1}=\hat{p}_{2}=\cdots =\hat{p}_{k}=\frac{1}{k}\\ \therefore P(x)是均匀分布。$

离散情况下均匀分布会使得熵最大。也就是说在没有任何已知条件约束的情况下均匀分布的熵最大。

最大熵原理

上一部分得出在无任何已知的情况下的最大熵对应的分布为均匀分布，而在满足一定的约束（已知事实）的条件下就要使用最大熵原理来进行求解。

首先要说明已知事实指的就是我们已经有了一部分数据：

$,xN}Data=\left \{x_{1},x_{2},\cdots ,x_{N}\right \}$

然后根据数据我们可以定义其经验分布：

$p^(x=n)=p^(n)=count(n)N\hat{p}(x=n)=\hat{p}(n)=\frac{count(n)}{N}$

通过该分布可以获得数据的一些属性，比如 $Ep^[x],Varp^[x],⋯E_{\hat{p}}[x],Var_{\hat{p}}[x],\cdots$ 。另外我们假设 $f (x)$ 是任意关于 $x$ 的函数向量，满足：

$Ep^[f(x)]=Δ其中f(x)=(f1(x)f2(x)⋮fQ(x)) Δ=(Δ1Δ2⋮ΔQ)E_{\hat{p}}[f(x)]=\Delta \\ 其中f(x)=\begin{pmatrix} f_{1}(x)\\ f_{2}(x)\\ \vdots \\ f_{Q}(x) \end{pmatrix}\; \; \Delta =\begin{pmatrix} \Delta _{1}\\ \Delta _{2}\\ \vdots \\ \Delta _{Q} \end{pmatrix}$

也就是说现在需要满足上述约束条件，于是在该约束下求解最大熵的分布就转换成了一个约束优化问题：

$∑xp(x)=1Ep[f(x)]=Ep^[f(x)]=Δ\left\{\begin{matrix} min\; \sum _{x}p(x)log\; p(x)\\ s.t.\; \sum _{x}p(x)=1\\ E_{p}[f(x)]=E_{\hat{p}}[f(x)]=\Delta \end{matrix}\right.$

然后就可以使用拉格朗日乘子法进行求解，首先定义拉格朗日函数：

$p(x)+λ0(1−∑xp(x))+λT(Δ−Ep[f(x)])L(P,\lambda _{0},\lambda )=\sum _{x}p(x)log\; p(x)+\lambda _{0}(1-\sum _{x}p(x))+\lambda ^{T}(\Delta -E_{p}[f(x)])$

接着对 $p (x)$ 进行求导，这里指的是对每个 $p(x_{i})进行求导$ ：

$p(x)=λTf(x)+λ0−1⇒p(x)=exp{λTf(x)−(1−λ0)}\frac{\partial L}{\partial p(x)}=log\; p(x)+p(x)\frac{1}{p(x)}-\lambda _{0}-\lambda ^{T}\frac{\partial \sum _{x}p(x)f(x)}{\partial p(x)}\\ =log\; p(x)+1-\lambda _{0}-\lambda ^{T}f(x)\\ =0\\ \Rightarrow log\; p(x)=\lambda ^{T}f(x)+\lambda _{0}-1\\ \Rightarrow p(x)=exp\left \{\lambda ^{T}f(x)-(1-\lambda _{0})\right \}$

显示 $p (x)$ 是一个指数族分布，因此对于连续变量 $x$ ，其在满足既定事实的条件下对应的最大熵的分布是一个指数族分布。

公众号同步更新

微信公众号

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

探索AI编程新纪元：从零开始的智能编程之旅

AI编程社区

当 AI 学会“造沙箱“：OpenSandbox 如何让大模型安全地执行代码

AI编程社区

常见的前端代码编写辅助工具有哪些？从“代码补全”到“规范驱动”的 AI 辅助工具深度评测

在 2026 年，前端开发已从单纯的“Copilot（副驾驶）”模式转向“Agent（智能体）”主导的规范驱动开发时代。本文基于“工程标准化与私有化安全”这一核心主题，深度横评了当前市场主流的 10 款前端代码辅助工具。我们发现，具备多模态设计稿还原能力与白盒化 SPEC 规范引擎的工具，正成为中大型前端团队的首选。