人工智能 人工智能 LDA主题模型 Nuyoah 2022-05-05 2023-06-13 LDA(主题模型)
(5条消息) KaTeX数学公式语法_李乾文的博客-CSDN博客_katex语法
(5条消息) Typora编辑数学公式_Ambitious°的博客-CSDN博客_typora公式编辑
本文是启发是 v_JULY_v这位大佬的博客 博客地址为:https://blog.csdn.net/v_JULY_v/article/details/41209515
该文章单纯是为了以后复习使用!!
LDA主要包含:
一个函数:gamma函数
四个分布:二项分布,多项分布,beta分布,Dirichlet(迪利克雷)分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA, LDA
一个采样:Gibbs采样
gamma函数
对LDA的整体理解:
LDA 主要是可以将文档集中每篇文档中的主题以概率形式给出, 通过分析一些文档抽取它们主题(分布)出来之后,然后通过主题(分布)进行文本聚类和文本分类。LDA也是一种词袋模型,每篇文档是由一组词构成,词和词之间没有先后顺序关系,就像一个袋子,把它们全部装起来,这个袋子就是这一片文档,其中这些词就是能够表达文档主题的一些词汇,没有先后关系,但是有逻辑关系。
一篇文章不是只能拥有一个主题,文档可以有很多个主题组成,可能占比不同,例如一篇文章的主题 = 教育 * 0.6 + 艺术 * 0.1 + 儿童 * 0.1 + 预算 * 0.1
首先 :我们先看一下一篇文档是怎么生成的LDA 创始人给出一个例子:我们事先确定几个主题(topic),例如上面的 几个主题Education, Arts, Children, Budgets,通过这几个事先确定好的主题,通过机器学习获取每个主题的对应的词语,如下图所示:
然后通过一定概率选取上面四个主题之一,在一一定概率选取每个主题下面的一个词,不断重复,而后就能够生成一篇文章,不同颜色的代表不同的主题
当我们看到一篇文章的时候,如果我们想要推理一下该文章的作者是如何写出这篇文章的,大部分人写文章的时候:首先第一步我们就需要确定我们文章的几个主题,例如一个主要主题,几个次要主题,然后寻找在这几个主题下的词语,通过一定的逻辑关系进行组合,然后便能生成一篇文章。
LDA 主要就是做上面的步骤的:通过一篇文章反推其主题分布
借助 v_JULY_v 大佬的话通俗的理解就是:假设我们认定现在网络上出现的文章都是以上述方式生成的,现在有一些人先用通过LDA来做一件事情,就是通过分析网上众多文章,获取这些文章都写了一些什么主题,并且找出每篇文章的各个主题之间的比例(主题分布)
在LDA模型中一篇文章的生成步骤如下:
从服从Dirichlet分布的α中 取样生成文档 i 的主题分布θi(各个主题之间的比例)
从主题的多项式分布θi 中取样生成文章 i 的第 j 个词的主题Z i j ( 就是获取文档i众多主题其中一个 )
从服从Dirichlet分布的 β 中取样生成主题Z i j 对应的词语φ Z i j(就是获取每个词语之间的比例 )
从词语的多项式分布φZ i j 中采样出最终的词语Wij
重复上述几个过程
其中beta分布是二项分布的共轭先验概率分布,而Dirichet分布是多项式的共轭先验概率分布
结构图如下图所示:
上面我们不断重复二项分布,多项分布,beta分布,Dirichlet分布,这些分布究竟是什么,下面我们进行一些简单的描述。
二项分布(Binomial distribution )
二项分布是通过伯努利分布来推进出来的,又称为两点分布或0-1分布, 是一个离散型随机分布,其中随机变量止只有两种情况非正即负,二项分布就是做n次伯努利实验 记作X~B(n, p),就是做一次实验就是伯努利实验,做n次就是二项分布。要么是 p 要么是1-p 只有这两种情况
二项分布的概率函数为:
P ( K = k ) = ( n k ) p k ( 1 − p ) n − k P(K=k)=\begin{pmatrix} n \\ k\end{pmatrix}p^k(1-p)^{n-k}
P ( K = k ) = ( n k ) p k ( 1 − p ) n − k
多项分布,就是二项分布扩展到多维的情况
在二项分布中我们的取值只能是p 或者1-p 但是在多项分布中 我们取值会变得多样化会出现 p1 p2 p3 … pk 但是多个概率相加还是等于一
多项分布的概率密度函数为:
P ( x 1 , x 2 , . . . x k ; n , p 1 , p 2 , . . p k ) = n ! x 1 ! . . . x k ! p 1 x 1 . . . p k x k P(x_1,x_2,...x_k;n,p_1,p_2,..p_k)=\frac{n!}{x_1!...x_k!}p_1^{x_1}...p_k^{x_k}
P ( x 1 , x 2 , . . . x k ; n , p 1 , p 2 , . . p k ) = x 1 ! . . . x k ! n ! p 1 x 1 . . . p k x k
Beta分布,二项分布的共轭先验分布
给定参数α>0和β>0,取值范围为[ 0 , 1 ] 的随机变量x的概率密度函数:
f ( x ; α , β ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}
f ( x ; α , β ) = B ( α , β ) 1 x α − 1 ( 1 − x ) β − 1
其中:
1 B ( α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) , Γ ( z ) = ∫ 0 ∞ t − 1 e − t d t \frac{1}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)},\Gamma(z)=\int_{0}^{\infty}{t^{-1}e^{-t}}dt
B ( α , β ) 1 = Γ ( α ) Γ ( β ) Γ ( α + β ) , Γ ( z ) = ∫ 0 ∞ t − 1 e − t d t
Γ ( x ) \Gamma(x) Γ ( x ) 就是gamma函数 ,gamma函数就是阶乘的具体化
f ( x ; α , β ) = ( α + β ) ! ( α ! ⋅ β ! ) ⋅ x ( α − 1 ) ⋅ ( 1 − x ) ( β − 1 ) f(x;α,β) =\frac{(α + β)!}{(α!\cdot β!)}\cdot x^{(α-1)}\cdot(1-x)^{(β-1)}
f ( x ; α , β ) = ( α ! ⋅ β ! ) ( α + β ) ! ⋅ x ( α − 1 ) ⋅ ( 1 − x ) ( β − 1 )
Dirichlet分布,是beta分布在高维度上的推广
Dirichlet分布的密度函数形式和beta分布的密度函数形式几乎一样
f ( x 1 , x 2 , . . . x k ; α 1 , α 2 , . . α k ) = 1 B ( α ) ∏ i = 1 k x i a i − 1 f(x_1,x_2,...x_k;\alpha_1,\alpha_2,..\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^{k}{x_i^{a^i-1}}
f ( x 1 , x 2 , . . . x k ; α 1 , α 2 , . . α k ) = B ( α ) 1 i = 1 ∏ k x i a i − 1
其中:
B ( α ) = ∏ i = 1 k Γ ( α i ) Γ ( ∑ i = 1 k a n ) ∑ x i = 1 B(\alpha)=\frac{\prod_{i=1}^{k}{\Gamma(\alpha^i)}}{\Gamma(\sum_{i=1}^{k}{a_n})}\sum{x_i=1}
B ( α ) = Γ ( ∑ i = 1 k a n ) ∏ i = 1 k Γ ( α i ) ∑ x i = 1
这两个式子和上面两个式子的形式几乎一致,区别就在于下面这两个式子有多个变量而上面的式子只有两个变量,剩下的计算形式类似。
好整体的LDA叙述完毕之后,我们来看一下gamma函数到底是什么:
gamma函数
gamma函数是阶乘在实数范围内的推广,一般的阶乘例如:3的阶乘为 3 * 2 * 1 = 6, 但是如果我想要求0.5的阶乘呢?,这时候我们所理解的阶乘公式就不再适用了,这时候 欧拉 想出了阶乘的一般函数形式,即gamma函数
Γ ( x ) = ∫ 0 + ∞ e − t t x − 1 d t \Gamma(x)=\int_{0}^{+\infty}e^{-t}t^{x-1}dt
Γ ( x ) = ∫ 0 + ∞ e − t t x − 1 d t
这时候我们来想一个问题:
问题1: 随机变量X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) \sim Uniform(0,1) ∼ U n i f o r m ( 0 , 1 )
把这n个变量排序之后我们得到顺序统计量x ( 1 ) , x ( 2 ) . . . x ( n ) x_{(1)},x_{(2)}...x_{(n)} x ( 1 ) , x ( 2 ) . . . x ( n )
请问这里∣ x ( k ) ∣ |x_{(k)}| ∣ x ( k ) ∣ 的分布是什么
因为这些数据都是在0-1之间的,而且我们都已经进行排序了,这时候如果我们求一下∣ x ( k ) ∣ |x_{(k)}| ∣ x ( k ) ∣ 落在区间[ x , x + Δ x ] [x, x+\Delta x] [ x , x + Δ x ] 的概率是多少,这样就能够求出这些随机变量的分布(比例)是多少了
先把[0,1]区间划分为三份[0,x),[x, x+Δx], (x+Δx, 1], 这里说明区间的大小就代表这个区间的占整体的比例,也就是落在这个区间内的概率,假设n个数中有1个落在了区间[x, x+Δx],由于这个区间内的数据X ( k ) X(k) X ( k ) 是第k大的所以[0,x) 范围内应该有k-1个数据,(x+Δx, 1]区间内应该有 n-k个数据,如图所示:
由上所述我们求出事件E:
E = X 1 ∈ [ x , x + Δ x ] , X i ∈ [ 0 , x ) ( i = 2 , . . k ) , X j ∈ ( x + Δ x , 1 ] ( j = k + 1 , . . , n ) E=X_1\in[x,x+\Delta x],\\X_i\in[0,x)(i=2,..k),\\X_j\in(x+\Delta x, 1](j=k+1,..,n)
E = X 1 ∈ [ x , x + Δ x ] , X i ∈ [ 0 , x ) ( i = 2 , . . k ) , X j ∈ ( x + Δ x , 1 ] ( j = k + 1 , . . , n )
对于上述事件E,有:
P ( E ) = ∏ i = 1 n X i = x k − 1 ( 1 − x − Δ x ) n − k Δ x = x k + 1 ( 1 − x ) n − k Δ x + o ( Δ x ) P(E)=\prod_{i=1}^{n}{X_i} \\= x^{k-1}(1-x-\Delta x)^{n-k}\Delta x \\= x^{k+1}(1-x)^{n-k}\Delta x + o(\Delta x)
P ( E ) = i = 1 ∏ n X i = x k − 1 ( 1 − x − Δ x ) n − k Δ x = x k + 1 ( 1 − x ) n − k Δ x + o ( Δ x )
其中,o(Δx)表示Δx的高阶无穷小。显然,由于不同的排列组合,即n个数中有一个落在 [x,x+Δx]区间的有n种取法,余下n−1个数中有k−1个落在[0,x)的有( n − 1 k − 1 ) \begin{pmatrix} n-1 \\ k-1\end{pmatrix} ( n − 1 k − 1 ) 种组合,所以和事件E等价的事件一共有n ( n − 1 k − 1 ) n\begin{pmatrix} n-1 \\ k-1\end{pmatrix} n ( n − 1 k − 1 ) 个。
如果有两个数落在[ x , x + Δ x ] [x, x+\Delta x] [ x , x + Δ x ] 这个区间里面呢:
E ′ = X 1 , X 2 ∈ [ x , x + Δ x ] , X i ∈ [ 0 , x ] ( i = 3 , . . . k ) , X j ∈ ( x + Δ x , 1 ) ( j = k + 1 , . . . , n ) E' = X_1, X_2 \in [x, x+\Delta x],\\X_i \in [0, x] (i=3,...k), \\X_j \in (x+\Delta x, 1) (j = k+1,...,n)
E ′ = X 1 , X 2 ∈ [ x , x + Δ x ] , X i ∈ [ 0 , x ] ( i = 3 , . . . k ) , X j ∈ ( x + Δ x , 1 ) ( j = k + 1 , . . . , n )
P ( E ′ ) = x k − 2 ( 1 − x − Δ x ) n − k ( Δ x ) 2 = o ( Δ x ) P(E') = x^{k-2}(1-x-\Delta x)^{n-k}(\Delta x)^2\\=o({\Delta x})
P ( E ′ ) = x k − 2 ( 1 − x − Δ x ) n − k ( Δ x ) 2 = o ( Δ x )
由上面可得如果再次区间的数据超过一个的话那个这件事情的概率就几乎为零
由此可得:
P ( x ≤ X ( k ) ≤ x + Δ x ) = n ( n − 1 k − 1 ) P ( E ) + o ( Δ x ) = n ( n − 1 k − 1 ) x k − 1 ( 1 − x ) n − k Δ x + o ( Δ x ) P(x\leq X_{(k)}\leq x + \Delta x) \\= n\begin{pmatrix} n-1 \\ k-1\end{pmatrix}P(E)+o(\Delta x) \\= n\begin{pmatrix} n-1 \\ k-1\end{pmatrix}x^{k-1}(1-x)^{n-k}\Delta x + o(\Delta x)
P ( x ≤ X ( k ) ≤ x + Δ x ) = n ( n − 1 k − 1 ) P ( E ) + o ( Δ x ) = n ( n − 1 k − 1 ) x k − 1 ( 1 − x ) n − k Δ x + o ( Δ x )
从而得出X ( k ) X_{(k)} X ( k ) 的概率密度函数为:
f ( x ) = lim Δ x → 0 P ( x ≤ X ( k ) ≤ x + Δ x ) Δ x = n ( n − 1 k − 1 ) x k + 1 ( 1 − x ) n − k = n ! ( k − 1 ) ! ( n − k ) ! x k − 1 ( 1 − x ) n − k , x ∈ [ 0 , 1 ] f(x)=\lim_{\Delta x\rightarrow0}{\frac{P(x\leq X_{(k)}\leq x+\Delta x)}{\Delta x}}\\=n\begin{pmatrix} n-1 \\ k-1\end{pmatrix}x^{k+1}(1-x)^{n-k}\\=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k},x\in[0,1]
f ( x ) = Δ x → 0 lim Δ x P ( x ≤ X ( k ) ≤ x + Δ x ) = n ( n − 1 k − 1 ) x k + 1 ( 1 − x ) n − k = ( k − 1 ) ! ( n − k ) ! n ! x k − 1 ( 1 − x ) n − k , x ∈ [ 0 , 1 ]
由此问题一得到解决,如果我们仔细观察这个式子就会发现,这个式子的系数为阶乘的形式,这时候如果配上gamma函数的话:
f ( x ) = Γ ( n + 1 ) Γ ( k ) Γ ( n − k + 1 ) x k − 1 ( 1 − x ) n − k f(x)=\frac{\Gamma(n+1)}{\Gamma(k)\Gamma(n-k+1)}x^{k-1}(1-x)^{n-k} f ( x ) = Γ ( k ) Γ ( n − k + 1 ) Γ ( n + 1 ) x k − 1 ( 1 − x ) n − k
然后我们取变量α = k, β = n-k+1 ,转成f(x)得出:
f ( x ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − k f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-k} f ( x ) = Γ ( α ) Γ ( β ) Γ ( α + β ) x α − 1 ( 1 − x ) β − k
由此可见,我们推出了beta分布
beta分布
beta分布
在概率论中beta分布是一组定义在区间(0-1)内的连续分布,有两个参数α和β,并且α和β > 0
beta分布的概率密度函数为:
f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_0^1u^{\alpha-1}(1-u)^{\beta-1}du}\\=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\\=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}
f ( x ; α , β ) = ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u x α − 1 ( 1 − x ) β − 1 = Γ ( α ) Γ ( β ) Γ ( α + β ) x α − 1 ( 1 − x ) β − 1 = B ( α , β ) 1 x α − 1 ( 1 − x ) β − 1
随机变量x服从参数为α和β的beta分布,通常写作:X ~ Be(α,β)
beta分布与二项分布共轭
我们先来了解一下共轭分布
什么叫做共轭分布:后验概率分布函数和先验概率分布函数具有相同的形式。
为什么要采用共轭分布:可以使得后验概率和先验概率的形式相同,这里一部分是符合人的直观理念(他们应该是相同的分布),另一方面,可以形成一个先验链,即现在的后验概率可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条
这时候我们回顾一下开头所提出的问题“问题一:随机变量X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) \sim Uniform(0,1) ∼ U n i f o r m ( 0 , 1 ) ,把这n个随机变量排序后得到顺序统计变量X ( 1 ) , X ( 2 ) , . . . , X ( n ) X_{(1)},X_{(2)},...,X_{(n)} X ( 1 ) , X ( 2 ) , . . . , X ( n ) ,然后想求出X ( k ) X_{(k)} X ( k ) 的分布是什么。”如果我们在这之上增加一些观测数据,变成问题二:
X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) \sim Uniform(0,1) ∼ U n i f o r m ( 0 , 1 ) ,,对应的统计变量是,需X ( 1 ) , X ( 2 ) , . . . , X ( n ) X_{(1)},X_{(2)},...,X_{(n)} X ( 1 ) , X ( 2 ) , . . . , X ( n ) 要猜测p = X ( k ) p=X_{(k)} p = X ( k )
Y 1 , Y 2 , . . . , Y n Y_1,Y_2,...,Y_n Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) \sim Uniform(0,1) ∼ U n i f o r m ( 0 , 1 ) ,,Yi中有m1个比p小,m2个比p大
问题是P ( p ∣ Y 1 , Y 2 , . . . , Y M ) P(p|Y_1,Y_2,...,Y_M) P ( p ∣ Y 1 , Y 2 , . . . , Y M ) 的分布是什么
根据条件二我们得出"Yi中有m1个比p小,m2个比p大", 所以在X 1 , X 2 , . . . , X n , X_1,X_2,...,X_n, X 1 , X 2 , . . . , X n , Y 1 , Y 2 , . . . , Y n Y_1,Y_2,...,Y_n Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) \sim Uniform(0,1) ∼ U n i f o r m ( 0 , 1 ) 中Xk是其中的第m1+k大的数据
根据上面的事件推出事件服从Beta分布从而我们推出P = X ( k ) P=X_{(k)} P = X ( k ) 的概率密度函数为:B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) Beta(p|k+m_1,n-k+1+m_2) B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 )
我们先看一下什么是先验概率和后验概率
P(A|B)是在B发生的情况下A发生的可能性。
首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;
其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;
类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;
同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示。
这个的推理过程类似贝叶斯的推理过程:
为了猜测p = X ( k ) p=X_{(k)} p = X ( k ) ,在获得一定的观测数据前,我们对p的认知为:f ( p ) = B e t a ( p ∣ k , n − k + 1 ) f(p)=Beta(p|k,n-k+1) f ( p ) = B e t a ( p ∣ k , n − k + 1 ) 这称为p的先验分布
然后我们获得这个结果“Y i Y_i Y i 中有m 1 m_1 m 1 个比p小,m 2 m_2 m 2 个比p p p 大”,针对Y i Y_i Y i 是做了m次伯努利实验,所以服从B ( m , p ) B(m,p) B ( m , p )
在给定数据(m1, m2)之后,p的后验分布变成了:f 1 ( p ∣ m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) f_1(p|m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2) f 1 ( p ∣ m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 )
贝叶斯理论中:先验分布 π ( θ ) \pi(\theta) π ( θ ) +样本信息 χ \chi χ =>后验分布 π ( θ ∣ x ) \pi(\theta|x) π ( θ ∣ x )
上面公式的得出就是,新观察到的样本信息将修正人们之前对该事件的认知,通俗的说是人们对θ的认知是先验分布π ( θ ) \pi(\theta) π ( θ ) 在等到新样本信息之后,人们对θ的认知变成了π ( θ ∣ x ) \pi(\theta|x) π ( θ ∣ x )
映射到这个问题上就是:
B e t a ( p ∣ k , n − k + 1 ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) Beta(p|k,n-k+1)+Count(m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)
B e t a ( p ∣ k , n − k + 1 ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 )
其中m1和m2对应的是二项分布的B ( m 1 + m 2 , p ) B(m_1+m_2,p) B ( m 1 + m 2 , p ) 的计数
推广到更一般的形式就是,对于非负实数α和β,我们有如下关系:
B e t a ( p ∣ α , β ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ α + m 1 , β + m 2 ) Beta(p|\alpha,\beta)+Count(m_1,m_2)=Beta(p|\alpha+m_1,\beta+m_2)
B e t a ( p ∣ α , β ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ α + m 1 , β + m 2 )
对于观测数据符合二项分布,参数的先验分布和后验分布都是beta分布,这种情况我们称为 beta分布和二项分布共轭,Beta分布称为二项分布的共轭先验概率分布
二项分布和Beta分布是共轭分布意味着,如果我们为二项分布的参数p选取的先验分布是Beta分布,那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布。
共轭先验分布
共轭函数分布就是一个参数的先验概率分布P ( θ ) P(\theta) P ( θ ) 和后验概率分布P ( θ ∣ x ) P(\theta|x) P ( θ ∣ x ) 具有相同的格式,那么先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的,共轭先验分布。
例如我们观察的数据服从P ( θ ) P(\theta) P ( θ ) 时,当观测到新的X数据时,需要考虑以下问题:
是否可以根据观测到的数据更新θ
根据观测到的数据在多大程度上能够改变θ,即θ ← θ + Δ θ \theta\leftarrow \theta+\Delta \theta θ ← θ + Δ θ
当我们从新估计参数θ的时候,给出新的参数θ分布即P ( θ ∣ x ) P(\theta|x) P ( θ ∣ x )
根据贝叶斯公式可得:
P ( θ ∣ x ) = P ( x ∣ θ ) ⋅ P ( θ ) P ( x ) ∝ P ( x ∣ θ ) ⋅ P ( θ ) P(\theta|x)=\frac{P(x|\theta)\cdot P(\theta)}{P(x)}\varpropto P(x|\theta)\cdot P(\theta)
P ( θ ∣ x ) = P ( x ) P ( x ∣ θ ) ⋅ P ( θ ) ∝ P ( x ∣ θ ) ⋅ P ( θ )
其中P ( x ∣ θ ) P(x|\theta) P ( x ∣ θ ) 表示以预估θ为参数的x概率分布,能够直接求出,p(θ)是已有原始的θ概率分布。
所以我们选取P(x|θ) 的共轭先验作为p(θ)的分布,那么p(x|θ)乘以p(θ), 然后归一化的结果p(θ|x)跟p(θ)的形式一样,先验分布是p(θ),后验分布是p(θ|x)
投硬币的例子:使用参数θ的伯努利模型,θ为硬币正面的概率,那么结果x的分布为:
P ( x ∣ θ ) = θ x ⋅ ( 1 − θ ) 1 − x P(x|\theta)=\theta^x\cdot (1-\theta)^{1-x}
P ( x ∣ θ ) = θ x ⋅ ( 1 − θ ) 1 − x
其共轭先验分布为beta分布:
P ( θ ∣ α , β ) = θ α − 1 ( 1 − θ ) β − 1 ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ P(\theta|\alpha,\beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_0^1\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}
P ( θ ∣ α , β ) = ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ θ α − 1 ( 1 − θ ) β − 1
后验概率为:
P ( θ ∣ x ) ∝ P ( x ∣ θ ) ⋅ P ( θ ) ∝ ( θ x ( 1 − θ ) x ) ( θ α − 1 ( 1 − θ β − 1 ) ) = θ x + α − 1 ( 1 − θ ) 1 − x + β − 1 P(\theta|x)\\\varpropto P(x|\theta)\cdot P(\theta)\\\varpropto(\theta^x(1-\theta)^x)(\theta^{\alpha-1}(1-\theta^{\beta-1}))\\=\theta^{x+\alpha-1}(1-\theta)^{1-x+\beta-1}
P ( θ ∣ x ) ∝ P ( x ∣ θ ) ⋅ P ( θ ) ∝ ( θ x ( 1 − θ ) x ) ( θ α − 1 ( 1 − θ β − 1 ) ) = θ x + α − 1 ( 1 − θ ) 1 − x + β − 1
后验概率归一化之后会得到另一个Beta分布,从而证明Beta分布就是伯努利分布的共轭先验分布
从Beta分布推广到Dirichlet分布
beta分布的性质之一:期望E:
E ( p ) = ∫ 0 1 t ⋅ B e t a ( t ∣ α , β ) d t = ∫ 0 1 t ⋅ Γ ( α + β ) Γ ( α ) Γ ( β ) t α − 1 ( 1 − t ) β − 1 d t = Γ ( α + β ) Γ ( α ) Γ ( β ) ∫ 0 1 t α ( 1 − t ) β − 1 d t E(p) = \int_0^1 t\cdot Beta(t|\alpha,\beta)dt\\=\int_0^1t\cdot\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}t^{\alpha-1}(1-t)^{\beta-1}dt\\=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\int_0^1t^\alpha(1-t)^{\beta-1}dt
E ( p ) = ∫ 0 1 t ⋅ B e t a ( t ∣ α , β ) d t = ∫ 0 1 t ⋅ Γ ( α ) Γ ( β ) Γ ( α + β ) t α − 1 ( 1 − t ) β − 1 d t = Γ ( α ) Γ ( β ) Γ ( α + β ) ∫ 0 1 t α ( 1 − t ) β − 1 d t
上面式子的右边积分为:
∫ 0 1 t α ( 1 − t ) β − 1 \int_0^1t^\alpha(1-t)^{\beta-1} ∫ 0 1 t α ( 1 − t ) β − 1
其分布类似概率分布B e t a ( t ∣ α + 1 , β ) Beta(t|\alpha+1,\beta) B e t a ( t ∣ α + 1 , β ) ,对于这个分布有
∫ 0 1 Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) t α ( 1 − t ) β − 1 d t = 1 \int_0^1\frac{\Gamma(\alpha+\beta+1)}{\Gamma(\alpha+1)\Gamma(\beta)}t^\alpha(1-t)^{\beta-1}dt=1
∫ 0 1 Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) t α ( 1 − t ) β − 1 d t = 1
从而求得∫ 0 1 t α ( 1 − t ) β − 1 d t \int_0^1t^\alpha(1-t)^{\beta-1}dt ∫ 0 1 t α ( 1 − t ) β − 1 d t 的结果为:
Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)}
Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β )
最后将结果带入E§的计算式得出:
E ( p ) = Γ ( α + β ) Γ ( α ) Γ ( β ) ⋅ Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = Γ ( α + β ) Γ ( α + β + 1 ) ⋅ Γ ( α + ) 1 α = α α + β E(p)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\cdot\frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)}\\=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha+\beta+1)}\cdot\frac{\Gamma(\alpha+)1}{\alpha}\\=\frac{\alpha}{\alpha+\beta}
E ( p ) = Γ ( α ) Γ ( β ) Γ ( α + β ) ⋅ Γ ( α + β + 1 ) Γ ( α + 1 ) Γ ( β ) = Γ ( α + β + 1 ) Γ ( α + β ) ⋅ α Γ ( α + ) 1 = α + β α
最后这个结果意味着对于Beta分布的随机变量,其均值(期望)可以使用α α + β \frac{\alpha}{\alpha+\beta} α + β α 来估计。
此外对于Dirichlet分布也有类似的结论,即如果参数满足Dirichlet分布p → ∽ D i r ( t → ∣ α → ) \overrightarrow{p}\backsim Dir(\overrightarrow{t}|\overrightarrow{\alpha}) p ∽ D i r ( t ∣ α ) 的话同样可以证明以下结论成立:
E ( p → ) = ( α 1 ∑ i = 1 K α i , α 2 ∑ i = 1 K α i , . . . , α K ∑ i = 1 K α i ) E(\overrightarrow{p})=\bigg(\frac{\alpha_1}{\sum_{i=1}^K\alpha_i}, \frac{\alpha_2}{\sum_{i=1}^K\alpha_i},...,\frac{\alpha_K}{\sum_{i=1}^{K}\alpha_i}\bigg)
E ( p ) = ( ∑ i = 1 K α i α 1 , ∑ i = 1 K α i α 2 , . . . , ∑ i = 1 K α i α K )
Dirichlet分布
Dirichlet分布
Dirichlet分布的概率密度函数为:
f ( x 1 , . . . , x k − 1 ; α 1 , . . . , α ( k ) ) = 1 B ( α ) ∏ i = 1 k x i α i − 1 f(x_1,...,x_{k-1};\alpha_1,...,\alpha_{(k)}) = \frac{1}{B{(\alpha)}}\prod_{i=1}^{k}x_i^{\alpha_i-1}
f ( x 1 , . . . , x k − 1 ; α 1 , . . . , α ( k ) ) = B ( α ) 1 i = 1 ∏ k x i α i − 1
其中B(α)表示多项Beta函数:
B ( α ) = ∏ i = 1 k Γ ( α i ) Γ ( ∑ i = 1 K α i ) B(\alpha)=\frac{\prod_{i=1}^{k}\Gamma(\alpha_i)}{\Gamma(\sum_{i=1}^K\alpha_i)}
B ( α ) = Γ ( ∑ i = 1 K α i ) ∏ i = 1 k Γ ( α i )
Beta函数与Gamma函数的关系为:
1 B ( α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) \frac{1}{B(\alpha,\beta)} = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}
B ( α , β ) 1 = Γ ( α ) Γ ( β ) Γ ( α + β )
把这个形式和Dirichelt分布中的多项beta函数相比,果然是一一对应的 加法对加法,乘法对乘法,不同的就是,参数的个数不同
在B(α)中α = ( α 1 , . . . , α k ) \alpha=(\alpha_1,...,\alpha_k) α = ( α 1 , . . . , α k ) ,并且x1+x2+x3+…+xk = 1, x1,x2,x3,…,xk-1 > 0,并且在(k-1)维的单纯形上,在其它区域概率为零
单纯形:表示在n维单纯形上有n+1个顶点,例如一维表示线段,二维表示三角形,三维表示四面体,各个面都相等
Dirichlet分布的另一种形式为:
p ( p → ∣ α → ) = D i r ( p → ∣ α → ) = Δ Γ ( ∑ k − 1 K ) α K ∏ k = 1 K Γ ( α k ) ∏ k = 1 K p k α k − 1 = Δ 1 Δ ( α → ) ∏ k = 1 K p k α k − 1 \begin{aligned}
p(\overrightarrow{p}|\overrightarrow{\alpha})
&=Dir(\overrightarrow{p}| \overrightarrow{\alpha})\\
&\stackrel{\Delta}{=} \frac{\Gamma(\sum_{k-1}^K)\alpha_K}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}\\
&\stackrel{\Delta}{=}\frac{1}{\Delta(\overrightarrow{\alpha})}\prod_{k=1}^{K}p_k^{\alpha_k-1}
\end{aligned}
p ( p ∣ α ) = D i r ( p ∣ α ) = Δ ∏ k = 1 K Γ ( α k ) Γ ( ∑ k − 1 K ) α K k = 1 ∏ K p k α k − 1 = Δ Δ ( α ) 1 k = 1 ∏ K p k α k − 1
其中Δ ( α → ) \Delta(\overrightarrow{\alpha}) Δ ( α ) 称为Dirichlet分布的归一化系数:
Δ ( α → ) = ∏ k = 1 d i m a Γ ( α k ) Γ ( ∑ k = 1 d i m a ) α k = i n t ∏ k = 1 V p k α k − 1 d p → \Delta(\overrightarrow{\alpha})=\frac{\prod_{k=1}^{dima}\Gamma(\alpha_k)}{\Gamma(\sum_{k=1}^{dima})\alpha_k}\\=int\prod_{k=1}^{V}p_k^{\alpha_k-1}d\overrightarrow{p}
Δ ( α ) = Γ ( ∑ k = 1 d i m a ) α k ∏ k = 1 d i m a Γ ( α k ) = i n t k = 1 ∏ V p k α k − 1 d p
并且根据Dirichlet分布的积分为1“概率的基本性质”,可以得到:
\int_\overrightarrow{p}\prod_{k=1}^{K}p_k^{\alpha}d\overrightarrow{p}=\Delta(\overrightarrow\alpha)
Dirichlet分布和多项分布共轭
继上面问题二之后我们再提出问题三:
X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) X_1,X_2,...,X_n\sim Uniform(0,1)
X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 )
排序后对应的顺序统计量X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X 1 , X 2 , . . . , X n
问( X ( k 1 ) , X k 1 + k 2 ) (X_{(k_1)},X_{k_1+k_2}) ( X ( k 1 ) , X k 1 + k 2 ) 的联合分布是什么
为了方便计算,选取了x3满足 x1+x2+x3 = 1,但只有x1和x2是变量,如下图所示:
从而有:
P ( X k 1 ∈ ( x 1 , x 1 + Δ x ) , X ( k 1 + k 2 ) ) = n ( n − 1 ) ( n − 2 k 1 − 1 , k 2 − 1 ) x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 ( Δ x ) 2 = n ! ( k 1 − 1 ) ! ( k 2 − 1 ) ! ( n − k 1 − k 2 ) ! x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 ( Δ x ) 2 \begin{aligned}
&P\bigg(X_{k_1}\in(x_1,x_1+\Delta x), X_{(k_1+k_2)}\bigg)\\
&=n(n-1)\begin{pmatrix} n-2 \\ {k_1-1,k_2-1}\end{pmatrix}x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2}(\Delta x)^2\\
&=\frac{n!}{(k_1-1)!(k_2-1)!(n-k_1-k_2)!} x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2}(\Delta x)^2
\end{aligned}
P ( X k 1 ∈ ( x 1 , x 1 + Δ x ) , X ( k 1 + k 2 ) ) = n ( n − 1 ) ( n − 2 k 1 − 1 , k 2 − 1 ) x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 ( Δ x ) 2 = ( k 1 − 1 ) ! ( k 2 − 1 ) ! ( n − k 1 − k 2 ) ! n ! x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 ( Δ x ) 2
继而得到( X ( k 1 ) , X ( k 1 + k 2 ) (X_{(k_1)}, X_{(k_1+k_2)} ( X ( k 1 ) , X ( k 1 + k 2 ) 的联合分布为:
f ( x 1 , x 2 , x 3 ) = n ! ( k 1 − 1 ) ! ( k 2 − 1 ) ! ( n − k 1 − k 2 ) ! x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 = Γ ( n + 1 ) Γ ( k 1 ) Γ ( k 2 ) Γ ( n − k 1 − k 2 + 1 ) x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 \begin{aligned}
&f(x_1, x_2, x_3)\\
&=\frac{n!}{(k_1-1)!(k_2-1)!(n-k_1-k_2)!} x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2}\\
&=\frac{\Gamma(n+1)}{\Gamma(k_1)\Gamma(k_2)\Gamma(n-k_1-k_2+1)} x_1^{k_1-1}x_2^{k_2-1}x_3^{n-k_1-k_2}
\end{aligned}
f ( x 1 , x 2 , x 3 ) = ( k 1 − 1 ) ! ( k 2 − 1 ) ! ( n − k 1 − k 2 ) ! n ! x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2 = Γ ( k 1 ) Γ ( k 2 ) Γ ( n − k 1 − k 2 + 1 ) Γ ( n + 1 ) x 1 k 1 − 1 x 2 k 2 − 1 x 3 n − k 1 − k 2
观察上述式子的最终结果,可以看出其实就是三维的Dirichlet分布
D i r ( x 1 , x 2 , x 3 ∣ k 1 , k 2 , n − k 1 − k 2 + 1 ) Dir(x_1,x_2,x_3|k_1,k_2,n-k_1-k_2+1) D i r ( x 1 , x 2 , x 3 ∣ k 1 , k 2 , n − k 1 − k 2 + 1 )
令:α 1 = k 1 , α 2 = k 2 , α 3 = n − k 1 − k 2 + 1 \alpha_1=k_1,\alpha_2=k_2,\alpha_3=n-k_1-k_2+1 α 1 = k 1 , α 2 = k 2 , α 3 = n − k 1 − k 2 + 1 ,于是分布密度可以写为:
f ( x 1 , x 2 , x 3 ) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x 1 α 1 − 1 x 2 α 2 − 1 x 3 α 3 − 1 f(x_1,x_2,x_3)=\frac{\Gamma(\alpha_1+\alpha_2+\alpha_3)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_3)}x_1^{\alpha_1-1}x_2^{\alpha_2-1}x_3^{\alpha_3-1}
f ( x 1 , x 2 , x 3 ) = Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) Γ ( α 1 + α 2 + α 3 ) x 1 α 1 − 1 x 2 α 2 − 1 x 3 α 3 − 1
为了验证Dirichlet分布是多项分布是共轭分布的共轭先验分布,我们引出问题四:
问题四:
X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) X_1,X_2,...,X_n\sim Uniform(0,1) X 1 , X 2 , . . . , X n ∼ U n i f o r m ( 0 , 1 ) 排序之后对应的顺序统计量X ( 1 ) , X ( 2 ) . . . X ( n ) X_{(1)},X_{(2)}...X_{(n)} X ( 1 ) , X ( 2 ) . . . X ( n )
令p 1 = X ( k 1 ) , p 2 = X ( k 1 + k 2 ) , p 3 = 1 − p 1 − p 2 p_1=X_{(k_1)},p_2=X_{(k_1+k_2)},p3=1-p_1-p_2 p 1 = X ( k 1 ) , p 2 = X ( k 1 + k 2 ) , p 3 = 1 − p 1 − p 2 注:这里的p3不是变量,只是为了方便计算,现在要猜测p → = ( p 1 , p 2 , p 3 ) \overrightarrow{p}=(p_1,p_2,p_3) p = ( p 1 , p 2 , p 3 )
Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) Y_1,Y_2,...,Y_n\sim Uniform(0,1) Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) 中Yi落到[ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] [0,p_1),[p_1,p_2),[p_2,1] [ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] 这三个区间的个数分别为m1,m2,m3,m=m1+m2+m3;
问后验分布P ( p → ∣ Y 1 , Y 2 , . . , Y m ) P(\overrightarrow{p}|Y_1,Y_2,..,Y_m) P ( p ∣ Y 1 , Y 2 , . . , Y m ) 的分布是什么
为了方便讨论,记m → = ( m 1 , m 2 , m 3 ) \overrightarrow{m}=(m_1,m_2,m_3) m = ( m 1 , m 2 , m 3 ) ,以及k → = ( k 1 , k 2 , n − k 1 − k 2 + 1 ) \overrightarrow{k}=(k_1,k_2,n-k_1-k_2+1) k = ( k 1 , k 2 , n − k 1 − k 2 + 1 ) ,根据已知条件Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) Y_1,Y_2,...,Y_n\sim Uniform(0,1) Y 1 , Y 2 , . . . , Y n ∼ U n i f o r m ( 0 , 1 ) ,Yi中落到三个区[ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] [0,p_1),[p_1,p_2),[p_2,1] [ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] 间的个数为m1和m2,可得p1 p2分别是这个m+n个数中k1+m1大和k2+m2大的数,于是后验分布P ( p → ∣ Y 1 , Y 2 , . . , Y m ) P(\overrightarrow{p}|Y_1,Y_2,..,Y_m) P ( p ∣ Y 1 , Y 2 , . . , Y m ) 应该是D i r ( p → ∣ k 1 + m 1 , k 1 + m 2 , n − k 1 − k 2 + 1 + m 3 Dir(\overrightarrow{p}|k_1+m_1,k_1+m_2,n-k_1-k_2+1+m_3 D i r ( p ∣ k 1 + m 1 , k 1 + m 2 , n − k 1 − k 2 + 1 + m 3 即一般化形式表示为:D i r ( p → ∣ k → + m → ) Dir(\overrightarrow{p}|\overrightarrow{k}+\overrightarrow{m}) D i r ( p ∣ k + m )
同样的,按照贝叶斯逻辑,整理为下:
我们要猜测参数p → = ( p 1 , p 2 , p 3 ) \overrightarrow{p}=(p_1,p_2,p_3) p = ( p 1 , p 2 , p 3 ) ,其先验分布为:D i r ( p → ∣ k → ) Dir(\overrightarrow{p}|\overrightarrow{k}) D i r ( p ∣ k )
数据Yi落到三个区间[ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] [0,p_1),[p_1,p_2),[p_2,1] [ 0 , p 1 ) , [ p 1 , p 2 ) , [ p 2 , 1 ] 的个数分别是m1,m2,m3,所以服m → = ( m 1 , m 2 , m 3 ) \overrightarrow{m}=(m_1,m_2,m_3) m = ( m 1 , m 2 , m 3 ) 从多项分布M u l t ( m → ∣ p → ) Mult(\overrightarrow{m}|\overrightarrow{p}) M u l t ( m ∣ p )
当我们提供数据之后先验分布就变成了D i r ( p → ∣ k → + m → ) Dir(\overrightarrow{p}|\overrightarrow{k}+\overrightarrow{m}) D i r ( p ∣ k + m )
上述贝叶斯过程直观的表达为:
D i r ( p → ∣ k → ) + M u l t C o u n t ( m → ) = D i r ( p → ∣ k → + m → ) Dir(\overrightarrow{p}|\overrightarrow{k})+MultCount(\overrightarrow{m})=Dir(\overrightarrow{p}|\overrightarrow{k}+\overrightarrow{m})
D i r ( p ∣ k ) + M u l t C o u n t ( m ) = D i r ( p ∣ k + m )
令α等于k,可以把α从整数集合延伸到实数集合,从而得到更一般的表达式:
D i r ( p → ∣ α → ) + M u l t C o u n t ( m → ) = D i r ( p → ∣ α → + m → ) Dir(\overrightarrow{p}|\overrightarrow{\alpha})+MultCount(\overrightarrow{m})=Dir(\overrightarrow{p}|\overrightarrow{\alpha}+\overrightarrow{m})
D i r ( p ∣ α ) + M u l t C o u n t ( m ) = D i r ( p ∣ α + m )
和上面一样,针对观测到数据符合多项分布,其先验概率分布后验概率分布都符合Dirichlet分布的情况下,就是Dirichlet分布和多项分布共轭
我们为多项分布的参数p选取的先验分布是Dirichlet分布,那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然服从Dirichlet分布。
一般的Dirichlet分布定义如下:
D i r ( p → ∣ α → ) = Γ ( ∑ k = 1 K α k ) ∏ k = 1 K Γ ( α k ) ∏ k = 1 K p k α k − 1 Dir(\overrightarrow{p}|\overrightarrow{\alpha})=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^{K}p_k^{\alpha_k-1}
D i r ( p ∣ α ) = ∏ k = 1 K Γ ( α k ) Γ ( ∑ k = 1 K α k ) k = 1 ∏ K p k α k − 1
而对于给定的P和N,其多项分布是:
M u l t ( n → ∣ p → , N ) = ( N n → ) ∏ k = 1 K p k n k Mult(\overrightarrow{n}|\overrightarrow{p},N)=\begin{pmatrix} N \\{\overrightarrow{n}}\end{pmatrix}\prod_{k=1}^Kp_k^{n_k}
M u l t ( n ∣ p , N ) = ( N n ) k = 1 ∏ K p k n k
最后结论是Dirichelt分布D i r ( p → ∣ α → ) Dir(\overrightarrow{p}|\overrightarrow{\alpha}) D i r ( p ∣ α ) 和多项分布M u l t ( n → ∣ p → , N ) Mult(\overrightarrow{n}|\overrightarrow{p},N) M u l t ( n ∣ p , N ) 是共轭关系
主题模型LDA
在开始进行这部的内容之前,我们先回顾一下上面的内容:
通过上面的内容我们得到:
Beta分布是二项分布的共轭先验分布:
对于非负实数α和β有如下关系:
B e t a ( p ∣ α , β ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ α + m 1 , β + m 2 ) Beta(p|\alpha,\beta)+Count(m_1,m_2)=Beta(p|\alpha+m_1, \beta+m_2)
B e t a ( p ∣ α , β ) + C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ α + m 1 , β + m 2 )
其中(m1,m2)是二项分布B(m1+m2,p)的计数,针对这些观测到的数据符合二项分布,参数的先验概率分布和后验概率分布都符合Beta分布的我们称之为Beta分布和二项分布共轭
Dirichlet分布是多项分布的共轭先验分布
把α从整数集合扩展到实数集合,从而得到更一般的表达式如下:
D i r ( p → ∣ α → ) + M u l t C o u n t ( m → ) = D i r ( p → ∣ α → + m → ) Dir(\overrightarrow{p}|\overrightarrow{\alpha})+MultCount(\overrightarrow{m})=Dir(\overrightarrow{p}|\overrightarrow{\alpha}+\overrightarrow{m})
D i r ( p ∣ α ) + M u l t C o u n t ( m ) = D i r ( p ∣ α + m )
针对这些观测数据符合多项分布,参数的先验概率分布和后验概率分布都符合Dirichelt分的情况,我们称为Dirichelt分布和多项分布共轭
贝叶斯派思考问题的 方式:
先验分布 π ( θ ) \pi(\theta) π ( θ ) +样本信息 χ \chi χ =>后验分布 π ( θ ∣ x ) \pi(\theta|x) π ( θ ∣ x )
上述表达方式为,新观察到的样本信息将修正人们之前对事物的认知,换句话说,在得到新的样本信息之前,人们对θ的认知是先验分布π ( θ ) \pi(\theta) π ( θ ) ,在得到样本信息χ \chi χ 之后,人们对θ的认知为π ( θ ∣ x ) \pi(\theta|x) π ( θ ∣ x )
在我们进行LDA模型的时候我们先要进行一些基础模型的认识:Unigram model,mixture of unigram model,以及和LDA最为接近的pLSA模型
为了方便解释这些模型我们定义一下下面这几个变量:
w表示词,V表示所有单词的个数(固定值)
z表示主题,k是主题的个数(预先给定,固定值)
D = (W1,W2,…Wm)表示语料库,其中的M是语料库中的文档数(固定值)
W = (w1,w2,…,wn)表示文档,其中n表示一个中文文档中的词数(随机变量)
Unigram model
对于文档w = ( w 1 , w 2 , . . . , w N ) w=(w_1,w_2,...,w_N) w = ( w 1 , w 2 , . . . , w N ) ,用p ( w n ) p(w_n) p ( w n ) 表示词wn的先验概率,生成文档w的概率为:
p ( w ) = ∏ n = 1 N p ( w n ) p(w)=\prod_{n=1}^{N}p(w_n) p ( w ) = ∏ n = 1 N p ( w n )
其图模型为(图中被涂色的w表示可观测变量,N表示一篇文章中一共有N个单词,M表示M篇文档):
另一种表示方法为:
unigram model假设文本中的词服从Multinomial分布,而且我们已经知道Multinomial分布的先验分布为Dirichlet分布
上述的w n w_n w n 表示在文本中观察到的第n个词,n∈[1,N]表示该文本中一共有N个词。加上方框表示重复,即一共有N个这样的随机变量。w n w_n w n 其中,p和α是隐含未知变量:
p是服从Multinomial分布的参数
α是Dirichlet分布(即Multinomial分布的先验分布)的参数。
一般α由经验事先给定,p由观察到的文本中出现的词学习得到,表示文本中出现每个词的概率。
Mixture of unigram model
该模型的生成过程是:先给文档一个主题z,然后根据该主题生成文档,该文档中所有词都是来自一个主题,假设主题由z 1 , . . . , z k z_1,...,z_k z 1 , . . . , z k ,生成文档w的概率为:
p ( w ) = p ( z 1 ) ∏ n = 1 N p ( w n ∣ z 1 ) + ⋅ ⋅ ⋅ + p ( z k ) ∏ n = 1 N p ( w n ∣ z k ) = ∑ z p ( z ) ∏ n = 1 N p ( w n ∣ z ) p(w)=p(z_1)\prod_{n=1}^{N}p(w_n|z_1)+\cdot\cdot\cdot+p(z_k)\prod_{n=1}^Np(w_n|z_k)=\sum_zp(z)\prod_{n=1}^Np(w_n|z)
p ( w ) = p ( z 1 ) n = 1 ∏ N p ( w n ∣ z 1 ) + ⋅ ⋅ ⋅ + p ( z k ) n = 1 ∏ N p ( w n ∣ z k ) = z ∑ p ( z ) n = 1 ∏ N p ( w n ∣ z )
其图模型为(图中被涂色的w表示可观测变量,未涂色的z表示为止的隐变量,N表示文档中一共有N个词,M表示M篇文档)
PLSA模型
pLSA模型是和LDA模型比较接近的一个模型,LDA就是pLSA模型加上一个贝叶斯框架
我们在上面的Mixture of unigram model模型中,假定的是一篇文档中只是有一个主题生成,但是实际上,一篇文档是由多个主题共同生成,只是比例不同(分布),比如在介绍一个国家的文档中,我们还要从教育,经济,军事等等主题进行介绍,其中国家是大主题占比比较大,其余的是小主题,占比比较小,那么在pLSA模型中,文档是怎么生成的呢?
先看生成文章的过程:
如果需要生成m篇文章,每一篇文章由各个不同的词组成,需要确定每篇文章每个位置对应的词
假设一共有k个可选的主题,有v个可选词通过投骰子,来生成一篇文档
在写文档的时候我们可以制作一个有k面(文档-主题)的骰子(扔骰子能够得到k个主题中的任意一个),通过投骰子来进行选取主题,和k个v面的“主题-词语”骰子(每个骰子对应一个主题,k个骰子对应k个主题, v面对应的v个词语)
每写一个词,我们都要通过投掷(文档-主题)骰子获取一个主题,得到主题之后,我们从对应的主题的(主题-词语)骰子中投掷选择我们要写的词语
上面这个投骰子产生词的过程简化下便是:“先以一定的概率选取主题,再以一定的概率选取词”。事实上,一开始可供选择的主题有3个:教育、经济、交通,那为何偏偏选取教育这个主题呢?其实是随机选取的,只是这个随机遵循一定的概率分布。比如可能选取教育主题的概率是0.5,选取经济主题的概率是0.3,选取交通主题的概率是0.2,那么这3个主题的概率分布便是{教育:0.5,经济:0.3,交通:0.2},我们把各个主题z在文档d中出现的概率分布称之为主题分布,且是一个多项分布。
同样的,从主题分布中随机抽取出教育主题后,依然面对着3个词:大学、老师、课程,这3个词都可能被选中,但它们被选中的概率也是不一样的。比如大学这个词被选中的概率是0.5,老师这个词被选中的概率是0.3,课程被选中的概率是0.2,那么这3个词的概率分布便是{大学:0.5,老师:0.3,课程:0.2},我们把各个词语w在主题z下出现的概率分布称之为词分布,这个词分布也是一个多项分布。
所以,选主题和选词都是两个随机的过程,先从主题分布{教育:0.5,经济:0.3,交通:0.2}中抽取出主题:教育,然后从该教育主题对应的词分布{大学:0.5,老师:0.3,课程:0.2}中抽取出词:大学。
然后不断重复步骤2,重复N次,完成一篇文档,重复这一篇文档的生成方法m次,我们生成了m篇文档
上述过程为pLSA文档生成模型,在上面的文档生成方法中我们并未关注词与词之间的先后顺序,因此pLSA是一个词袋模型。这些词虽然表面上没有顺序关系,但是通过一些词逻辑上的关系,我们可以得到这篇文章的隐藏的主题类别z k ∈ z 1 , . . , z k z_k\in z_1,..,z_k z k ∈ z 1 , . . , z k ,这里我们定义:
P ( d i ) P(d_i) P ( d i ) 表示海量文档中某篇文档被选中的概率。
P ( w j ∣ d i ) P(w_j|d_i) P ( w j ∣ d i ) 表示词w j w_j w j 在给定文档d i d_i d i 中出现的概率
计算方式,对于海量文档,对所有文档进行分类之后,我们得到一个词汇表,每篇文档就是一个词语的集合,对于每个词语,出现次数比上所有的词的个数,最后结果就是这个词在这篇文档中出现的概率
P ( z k ) P(z_k) P ( z k ) 表示具体某个主题z k z_k z k 在给定文档d i d_i d i 中出现的概率
P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 表示某个词w j w_j w j 在主题z k z_k z k 中出现的概率,与主题关系越密切的词出现的概率越大
利用上述1,3,4个概率,我们可以根据以下步骤生成“文档-词项”模型
按照概率P ( d i ) P(d_i) P ( d i ) 选择一篇文档d i d_i d i
选定文章d i d_i d i 后其主题分布中按照概率P ( z k ∣ d i ) P(z_k|d_i) P ( z k ∣ d i ) 选择一个隐含的主题类别z k z_k z k 选定z k z_k z k 后,从词分布表中按照概率P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 选择一个词w j w_j w j
所以pLSA中生成文档的过程为选定文档,生成主题,确定主题生成词
上述是生成文档的过程,下面为分析文档的的过程
根据文档反推其主题分布:
主要内容是:通过生成文档的过程,反推已有的文档中的主题分布(生产文档的逆过程),建模的目的就是,自动的发现文档集中的主题分布。
换句话来说就是,人们根据文档生成模型生成了各种各样 的文章,然后递交给计算机计算机的目的就是根据一篇篇文章中的一系列词语的分布,推测各个主题出现的概率(分布):主题分布 ,即单词w和文章d是能够观测到的,而主题,是隐含的,我们的目的就是找到这隐含的主题分布,
如下图所示:图中涂色的表示可以观察到的数据d和w ,z表示隐含的数据,N表示一篇文档中一共有N个单词,M表示一共有M篇文档
上图中文档d和词w是我们得到的样本(样本随机,参数虽然不知道但是是固定的,所以pLSA数据频率派思想,区别于下文要介绍的LDA中:样本固定,参数为止,但不固定,是一个随机变量,服从一定的分布,所以LDA属于贝叶斯派思想),可以观测到对于任意一一篇文档,其P ( w j ∣ d i ) P(w_j|d_i) P ( w j ∣ d i ) 是已知的
从而可以根据,大量已知的文档-词项信息P ( w j ∣ d i ) P(w_j|d_i) P ( w j ∣ d i ) 训练出文档-主题P ( z k ∣ d i ) P(z_k|d_i) P ( z k ∣ d i ) 和主题词项P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 如下图公式所示:
P ( w j ∣ d i ) = ∑ k = 1 K P ( w j ∣ z k ) P ( z k ∣ d i ) P(w_j|d_i)=\sum_{k=1}^{K}P(w_j|z_k)P(z_k|d_i)
P ( w j ∣ d i ) = k = 1 ∑ K P ( w j ∣ z k ) P ( z k ∣ d i )
故得到文档中每个词出现的概率为:
P ( d i , w j ) = P ( d i ) P ( w j ∣ d i ) = P ( d i ) ∑ k = 1 K P ( w j ∣ z k ) P ( z k ∣ d i ) \begin{aligned}
&P(d_i,w_j)\\
&=P(d_i)P(w_j|d_i)\\
&=P(d_i)\sum_{k=1}^{K}P(w_j|z_k)P(z_k|d_i)
\end{aligned}
P ( d i , w j ) = P ( d i ) P ( w j ∣ d i ) = P ( d i ) k = 1 ∑ K P ( w j ∣ z k ) P ( z k ∣ d i )
由于p(di)可以事先计算求出,而P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 和P ( z k ∣ d i ) P(z_k|d_i) P ( z k ∣ d i ) 未知,所以θ = ( P ( w j ∣ z k ) ) , P ( z k ∣ d i ) ) \theta=(P(w_j|z_k)), P(z_k|d_i)) θ = ( P ( w j ∣ z k ) ) , P ( z k ∣ d i ) ) 就是我们要估计的参数(值) ,通俗点说就是要最大化这个θ。
用什么方法进行估计呢,常用的参数估计法有极大似然估计MLE,最大后验估计MAP,贝叶斯估计等等,因为该待估计的参数中含有隐变量z,所以我们可以考虑EM算法
LDA模型
LDA和pLSA模型比较相似,就是给pLSA模型加上了一个贝叶斯框架
pLSA模型生成文档和参数估计:
按照先验概率P ( d i ) P(d_i) P ( d i ) 选择一篇文档d i d_i d i
选定文档d i d_i d i 后,确定文档的主题分布
从主题分布后按照概率P ( z k ∣ d i ) P(z_k|d_i) P ( z k ∣ d i ) 选择一个隐含的主题类型z k z_k z k
选定z k z_k z k 后,确定主题下的词分布
从词分布中按照概率P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 选择一个词w j w_j w j
LDA模型生成文档和参数估计:
先根据先验概率P ( d i ) P(d_i) P ( d i ) 选择一篇文档d i d_i d i
从迪利克雷分布(Dirichlet分布)α中取样生成文档d i d_i d i 的主题分布θ i \theta_i θ i ,换句话说就是主题分布θ i \theta_i θ i 由超参数为α的Dirichlet分布形成
从主题多项式分布θ i \theta_i θ i 中取样生成文档d i d_i d i 的第j个主题词z i , j z_{i,j} z i , j
从迪利克雷分布(Dirichlet分布)β中取样生成主题z i , j z_{i,j} z i , j 对应的词语分布Φ z i , j \Phi_{z_i,j} Φ z i , j ,换言之,词语分布Φ z i , j \Phi_{z_i,j} Φ z i , j 由参数为β的Dirichlet分布生成
从词语的多项式分布Φ z i , j \Phi_{z_i,j} Φ z i , j 中采样生成最后的词语w i , j w_{i,j} w i , j
从上面的两个过程可以看出,LDA在pLSA的基础上,为主题分布和词分布增加了两个Dirichlet先验
pLSA分布选取一个词的过程,先从主题分布为{教育:0.5,经济:0.3,交通:0.2}中抽取出主题:教育,然后从该主题对应的词分布{大学:0.5,老师:0.3,课程:0.2}中抽取出词:大学。
LDA选取一个词的过程也是上面的方法,先选取一个主题,然后通过这个主题下面的词分布中选取一个词语,LDA和pLSA的区别就是主题分布和词分布不在是确定的,他是随机可变的,但是这个变化符合一个分布规律就是Dirichlet分布
pLSA中 ,主题分布和词分布确定之后,以一定的概率( p ( z k ∣ d i ) , p ( w j ∣ z k ) ) (p(z_k|d_i),p(w_j|z_k)) ( p ( z k ∣ d i ) , p ( w j ∣ z k ) ) 分别选取具体的主题和词项,生成好文档,然后根据生成好的文档来反推其主题分布,词分布的同时,之后使用EM算法(极大似然估计法)求解出两个为止参数的值:Φ z i , j \Phi_{z_i,j} Φ z i , j (由P ( w j ∣ z k ) P(w_j|z_k) P ( w j ∣ z k ) 转换而来),和θ i , k \theta_{i,k} θ i , k 由(转换而来P ( z k ∣ d i ) P(z_k|d_i) P ( z k ∣ d i ) )
在LDA模型中我们不再认为主题分布和词分布是唯一确定的,而是由很多种可能,但是一篇文档总要确定一个主题把,LDA采用了两个Dirichlet先验参数,这个Dirichlet先验分布为某篇文档随机抽取了某个主题分布和词分布
文档d产生主题z(准确的说,其实是Dirichlet先验为文档d生成主题分布θ,然后根据主题分布θ产生主题z)的概率,主题z产生单词w的概率都不再是准确的两个值,而是随机变量。
总而言之LDA在pLSA的基础上给这两个参数( P ( z k ∣ d i ) , P ( w j ∣ z k ) ) (P(z_k|d_i),P(w_j|z_k)) ( P ( z k ∣ d i ) , P ( w j ∣ z k ) ) 加了两个先验分布的参数(贝叶斯话):一个主题的先验分布Dirichlet分布α,和一个词语分布的先验分布Dirichlet分布β
这两个模型的本质都是为了能够找到给定文档生成主题,给定主题生成词语的概率
LDA中,主题分布 —— 比如{ P(zi), i =1,2,3 }等于{0.4,0.5,0.1}或{0.2,0.2,0.6} —— 是由dirichlet先验给定的,不是根据文档产生的。所以,LDA生成文档的过程中,先从dirichlet先验中“随机”抽取出主题分布,然后从主题分布中“随机”抽取出主题,最后从确定后的主题对应的词分布中“随机”抽取出词。
Dirichlet先验随机抽取主题分布方式:
事实上,从Dirichlet分布中随机抽取主题分布,这个过程并不是完全随机的。事实上,如果我们选取三个事件的话,可以建立一个三维坐标系:
在这个三维坐标点中每一个坐标点(p1, p2,p3)就对应这一个主题分布,而且某一个点(p1,p2,p3)的大小代表着主题123出现的概率大小(因为各个主题出现的概率和为1),所以p1+p2+p3 = 1,比如(p1,p2,p3) = (0.4,0.5,0.1)便对应着主题分布{ P(zi), i =1,2,3 } = {0.4,0.5,0.1}。
这个空间中有很多个这个点,意味着有很多主题分布可以选择,Dirichlet分布选择主题的方法是可以将上面三角形放到,映射到地面平面上,便得到如下所示的一些彩图(3个彩图种,每个点对应着一个主题分布,高度代表着某个主题呗dirichelt分布选中的概率,且选择不同的α,dirichlet分布会偏向不同的主题分布)
α在LDA中的作用,较高的α表示主题稀疏性的影响较小,在一个文章中包含着大多主题,而比较第的α值代表着我们希望文档覆盖少数主题,如果我们只想在这些文档中发掘出两个主题(k=2),那么可能所有文档都包含两个主题,因此我们可以有一个比较大的alpha=0.5值。如果我们想发现一个k=1000主题,很可能大多数文档不会覆盖所有1000个主题,只可能包含较小的一部分(稀疏性很高),因此我们采用较小的α值来解释这个问题预期的稀疏性。
同样β在主题中的单词稀疏性中起作用,较高的β值代表着主题比较一般,单词频率更加统一。第β值意味着主题应该更加具体,他们单词概率将更不均匀,在比较少的单词上面放着更高的概率。这也与要发现的主题数量有关,高的β意味着很少但是比较常见的主题被发现,第β用于更具体的主题