Exercise 11.5 - Gradient descent for fitting GMM

Answers

From the given (11.118) and (11.119):

\begin{aligned} p (𝐱 | 𝜃) & = \sum_{k} π_{k} \cdot 𝒩 (𝐱 | μ_{k}, Σ_{k}) \\ l (𝜃) & = \sum_{n = 1}^{N} \log p (𝐱_{n} | 𝜃) . \end{aligned}

While $r_{𝑛𝑘} = p (z_{𝑛𝑘} = 1 | 𝐱_{n}, 𝜃)$ is defined by (11.120).

For question (a), recall that:

\begin{aligned} l (𝜃) & = \sum_{n = 1}^{N} \log [\sum_{𝐳_{n}} p (𝐱_{n}, 𝐳_{n} | 𝜃)] \\ = \sum_{n = 1}^{N} \log [\sum_{k = 1}^{K} p (𝐱_{n}, z_{𝑛𝑘} = 1 | 𝜃)] \\ = \sum_{n = 1}^{N} \log [\sum_{k = 1}^{K} π_{k} \cdot 𝒩 (𝐱_{n} | μ_{k}, Σ_{k})] . \end{aligned}

We are now ready to taking partial gradient of $l$ w.r.t. $μ_{k}$ , which yields:

\begin{aligned} \frac{∂𝑙}{\partial μ_{k}} & = \sum_{n = 1}^{N} \frac{\partial}{\partial μ_{k}} \log [\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})] \\ = \sum_{n = 1}^{N} \frac{π_{k}}{\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})} \cdot \frac{\partial 𝒩 (𝐱_{n} | μ_{k}, Σ_{k})}{\partial μ_{k}} \\ = \sum_{n = 1}^{N} \frac{π_{k} \cdot 𝒩 (𝐱_{n} | μ_{k}, Σ_{k})}{\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})} \cdot Σ_{k}^{- 1} (𝐱_{n} - μ_{k}), \end{aligned}

using (4.10) for the last step. Now we have arrived in (11.121).

For question (b):

\begin{aligned} \frac{∂𝑙}{\partial π_{k}} & = \sum_{n = 1}^{N} \frac{\partial}{\partial π_{k}} \log [\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})] \\ = \sum_{n = 1}^{N} \frac{𝒩 (𝐱_{n} | μ_{k}, Σ_{k})}{\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})}, \end{aligned}

For question (c), with:

π_{k} = \frac{\exp (w_{k})}{\sum_{k^{'} = 1}^{K} \exp (w_{k^{'}})},

we have:

\begin{aligned} \frac{∂𝑙}{\partial w_{k}} & = \sum_{j} \frac{∂𝑙}{\partial π_{j}} \frac{\partial π_{j}}{\partial w_{k}} \\ = \sum_{j} \sum_{n = 1}^{N} \frac{𝒩 (𝐱_{n} | μ_{j}, Σ_{j})}{\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})} \cdot π_{j} {(1 - π_{j})}^{𝕀 (j = k)} {(- π_{k})}^{𝕀 (j \neq k)} \\ = \sum_{n = 1}^{N} \sum_{j} r_{𝑛𝑗} {(1 - π_{j})}^{𝕀 (j = k)} {(- π_{k})}^{𝕀 (j \neq k)} \\ = \sum_{n = 1}^{N} r_{𝑛𝑘} \cdot (1 - π_{k}) + (1 - r_{𝑛𝑘}) \cdot (- π_{k}) \\ = \sum_{n = 1}^{N} r_{𝑛𝑘} - π_{k}, \end{aligned}

where no constant factor is missed.

For question (d), we have:

\begin{aligned} \frac{∂𝑙}{\partial Σ_{k}} & = \sum_{n = 1}^{N} \frac{\partial}{\partial Σ_{k}} \log [\sum_{k^{'} = 1}^{K} π_{k^{'}} \cdot 𝒩 (𝐱_{n} | μ_{k^{'}}, Σ_{k^{'}})] \\ = \sum_{n = 1}^{N} r_{𝑛𝑘} (- \frac{1}{2}) ((𝑡𝑒𝑥𝑡𝑏𝑓 x_{n} μ_{k}) {(𝑡𝑒𝑥𝑡𝑏𝑓 x_{n} μ_{k})}^{T} - Σ_{k}), \end{aligned}

during which process we need to use (4.10) and the fact:

\frac{\partial | 𝐀 |}{\partial 𝐀} = | 𝐀 | 𝐀^{- 1},

for a symmetric matrix $𝐀$ . Thus the optimal $Σ_{k}$ takes the same form as what has been derived in exercise 11.2.

For question (e), this process is redundant since the MLE for $Σ$ is already a positive definite matrix.

solour_lfq

2021-03-24 13:42