Homepage › Solution manuals › Yaser Abu-Mostafa › Learning from Data › Exercise 3.6

Exercise 3.6

Answers

(a) The probability to get $y_{n}$ is $P (y_{n} | x_{n})$ , by maximum likelihood method, we need maximize the likelihood, $\prod_{n = 1}^{N} P (y_{n} | x_{n})$ , this is equivalent to maximize the logrithm of it: $\sum_{n = 1}^{N} \ln (P (y_{n} | x_{n}))$ , or minimize the negative of it: $- \sum_{n = 1}^{N} \ln (P (y_{n} | x_{n}))$

When $y_{n} = + 1$ , $P (y_{n} | x_{n}) = h (x_{n})$ , and when $y_{n} = - 1$ , $P (y_{n} | x_{n}) = 1 - h (x_{n})$ , separate the cases for $y_{n} = 1$ and $y_{n} = - 1$ , we have:

\begin{array}{l} E_{in} (w) & = - \sum_{n = 1}^{N} \ln (P (y_{n} | x_{n})) \\ = - \sum_{n = 1}^{N} I (y_{n} = + 1) \ln h (x_{n}) + I (y_{n} = - 1) \ln (1 - h (x_{n})) \\ = \sum_{n = 1}^{N} I (y_{n} = + 1) \ln \frac{1}{h (x_{n})} + I (y_{n} = - 1) \ln \frac{1}{(1 - h (x_{n}))} \end{array}

(b) For $h (x) = 𝜃 (w^{T} x) = \frac{e^{w^{T} x}}{1 + e^{w^{T} x}}$ , we have $\ln \frac{1}{h (x_{n})} = \ln (1 + e^{- w^{T} x_{n}})$ and $\ln \frac{1}{(1 - h (x_{n}))} = \ln (1 + e^{w^{T} x_{n}})$ . Combine them together we have

\begin{array}{l} E_{in} (w) & = \sum_{n = 1}^{N} I (y_{n} = + 1) \ln (1 + e^{- w^{T} x_{n}}) + I (y_{n} = - 1) \ln (1 + e^{w^{T} x_{n}}) \\ = \sum_{n = 1}^{N} \ln (1 + e^{- y_{n} w^{T} x_{n}}) \end{array}

Which is equivalent to minimizing the one in equation (3.9).

niuers

2021-12-07 22:14

Exercise 3.6

Answers

Comments

Add answer