变分推断的基本概念、证据下界(ELBO)。
背景
- 变分推断(Variational Inference, VI)主要用于解决大数据场景下的隐变量后验分布估计问题(在数据量较小时,可以使用MCMC方法)。给定一个数据集中的观测值
和隐变量 ,隐变量 会影响观测值 的取值,即 。将 和 当作随机变量,我们希望求得对 的后验分布 的估计,记作 。 - 变分推断的本质是选取一个恰当的分布族
,从该分布族中选取一个最好的 ,使得 与 尽可能接近。
两个分布函数的距离度量
- VI中使用KL散度(Kullback & Leibler divergence)度量
与 的相似性,即
- 那么最优的后验分布估计为:
证据下界(ELBO)的引入
- 然而上式中的
是难以计算的:
- 计算难点主要在于观测变量的边缘分布
(也被称作证据(evidence))。如果隐变量维度很高,那么计算开销将非常大。为此,需要在 动一些手脚:
- 由上面的变换可知,由于
取期望的对象是 ,这对于证据 是没有关系的!因此我们只需要计算式中 ,将其最大化,即能最小化 :
ELBO的性质
- 我们对ELBO做一些变换:
- 可见ELBO由观测变量的后验分布和隐变量估计分布与其先验分布的KL散度两部分组成(注意KL散度是非对称的)。因此最大化
相当于同时做以下两件事: - 最大化观测变量的后验分布对数期望
- 使隐变量估计分布与其先验分布尽量接近
- 是不是有点贝叶斯推断的感觉了?
- ELBO 的另一个性质来源于它的名字,即证据(的)下界:
- 关键点在于
。VI的目标是最大化ELBO,而ELBO最大不会超过 。个人认为这一结论说明,观测数据本身质量好坏决定了模型的拟合效果。因此数据在VI(乃至机器学习)中扮演极端重要的角色。
补充: 的证明
- 对于任意的两个概率密度函数
和 , - 证明的核心在于对log函数(凹函数)使用Jensen不等式。证明如下:
参考文献
[1] David M. Blei, Alp Kucukelbir, & Jon D. McAuliffe (2016). Variational Inference: A Review for Statisticians. CoRR, abs/1601.00670.