On commence par regarder la dérivée par rapport à \(b\) et résoudre l’équation
\begin{equation*}
\frac{\partial log \mathcal{L}(x_1,...x_n; b, \Phi)}{\partial b}=0.
\end{equation*}
Il est assez immédiat de trouver que \(b= \bar{x}\text{.}\) Maintenant on considère la dérivation par \(\Phi\text{.}\) On a
\begin{equation*}
\frac{\partial log \mathcal{L}(x_1,...x_n; b, \Phi)}{\partial \Phi}=0
\end{equation*}
On utilise un résultat de (e.g. see Krzanowski and Marriott 1994, p. 133) pour la différentiation de matrice. On obtient
\begin{equation*}
\frac{\partial log \mathcal{L}(x_1,...x_n; b, \Phi)}{\partial \Phi} = n(C^{-1}\Sigma C^{-1}\Phi- C^{-1}\Phi)
\end{equation*}
On voit donc que les points critiques sont solutions de
\begin{equation}
\Sigma C^{-1}\Phi = \Phi\tag{4.4}
\end{equation}
Maintnenant l’enjeu est de résoudre ce dernier système linéaire. Il y a 3 solutions possibles. D’abord le cas trivial \(\Phi=0\) qui correspond plutôt a un minimum de la log-vraissemblance qu’un maximum. Le second cas est \(C=\Sigma\text{.}\) Par définition de \(C\) (\(C=\Phi\Phi^t+\sigma^2 I_d\)) on obtient donc une caractérisation
\begin{equation*}
\Phi\Phi^t = \Sigma-\sigma^2I_d
\end{equation*}
On peut diagonaliser la matrice \(\Sigma-\sigma^2I_d\) ce que donne
\begin{equation*}
\Sigma-\sigma^2I_d= \omega\omega^t=U (\Delta - \sigma^2 I_d) U^t
\end{equation*}
et donc \(\Phi = U (\Lambda - \sigma^2 I_d)^{\frac{1}{2}} R\) avec \(R\) une matrice orthogonale. Maintenant il reste le dernier cas de figure qui ne correspond à aucun des cas précédent. Pour résoudre le problème on se donne une décomposition en valeur singuliaire de \(\Phi\text{:}\)
\begin{equation*}
\Phi = U D V^t
\end{equation*}
qu’on identifie à \(U_K\) et \(\Lambda_K\) dans le théorème. On a \(U\in \mathcal{M}_{d,K}(\mathbb{R})\) avec des colonnes orthogonales (donc \(U^t U=I_d\)), \(\Lambda\in \mathcal{M}_{K,K}(\mathbb{R})\) diagonale et \(V \in \mathcal{M}_{K,K}(\mathbb{R})\) orthogonale. Maintenant on va utiliser la formule de Sherman–Morrison–Woodbury qui dit que
\begin{equation*}
(A+BEF)^{-1}=A^{-1}-A^{-1}B(E^{-1}-FA^{-1}B)^{-1}FA^{-1}
\end{equation*}
On applique cela à notre matrice \(C\text{.}\) On utilise la SVD de \(\Phi\text{.}\) On rappelle
\begin{equation*}
C^{-1}= (\sigma^2 I_d + \Phi\Phi^t)^{-1} =\frac{1}{\sigma^2} (I_d - \frac{1}{\sigma^2} \Phi \Phi^t)
\end{equation*}
et on pose \(M=(\sigma^2 I_d + \Phi^t \Phi)\text{.}\) On utilise la formule de Sherman–Morrison–Woodbury qui dit que
\begin{equation*}
(I_d-BF)^{-1}=I_d-B(I_d-FB)^{-1}F
\end{equation*}
On montre que \(C^{-1}\Phi=\Phi M^{-1}\) (a démontrer). Ensuite on va développler \(\Phi M^{-1}\text{.}\) On a
\begin{align*}
\theta M^{-1}\amp =U\Lambda V^t (\sigma^2 + V\Lambda^2V^t)^{-1}\\
\theta M^{-1}\amp =U \Lambda V^t (\sigma^2 V V^t+ V\Lambda^2V^t)^{-1}\\
\theta M^{-1}\amp =U \Lambda V^t (\sigma^2 V V^t+ V\Lambda^2V^t)^{-1}\\
\theta M^{-1}\amp =U\Lambda V^t ((\sigma^2 V+ V\Lambda^2)V^t)^{-1}\\
\theta M^{-1}\amp =U \Lambda V^t V^{-t}(\sigma^2 V+ V\Lambda^2)^{-1}\\
\theta M^{-1}\amp =U \Lambda (\sigma^2 V+ V\Lambda^2)^{-1}\\
\theta M^{-1}\amp =U\Lambda(V(\sigma^2+ \Lambda^2))^{-1}\\
\theta M^{-1}\amp =U\Lambda(\sigma^2+ \Lambda^2)^{-1}V^{-1}\\
\theta M^{-1}\amp =U\Lambda(\sigma^2+ \Lambda^2)^{-1}V^{t}
\end{align*}
Maintenant on repart de
(4.4) et on utilise les calculs précédents pour obtenir
\begin{equation*}
\Sigma UL(\sigma^2+ \Lambda^2)^{-1}V^{t} = ULV^t
\end{equation*}
On multiplie par \(V\) puis par \((\sigma^2+ L^2)\) ce qui donne
\begin{equation*}
\Sigma UL=UL(\sigma^2+ \Lambda^2)= U(\sigma^2+ \Lambda^2)\Lambda
\end{equation*}
On se place maintenant dans un cas ou une valeur propre \(\Lambda_{ii}\neq 0\text{.}\) Dans ce cas notre équation précédente implique:
\begin{equation*}
\Sigma u_j = (\sigma^2+l_j^2)u_j, \quad \forall i
\end{equation*}
On en déduit donc que chaque vecteur colonne de \(U\) est un vecteur propre de \(\Sigma\) associée à la valeur propre \(\lambda_j=\sigma^2+l_j^2\text{.}\) On a donc \(l_j=(\lambda_j-\sigma)^{\frac12}\)>. Pour \(l_j=0\) on a donc \(u_j\) qui peut être choisit arbitrairement. On a donc
\begin{equation*}
\omega = UL V^t= U_K(\lambda_K-\sigma^2)^{\frac{1}{2}}R
\end{equation*}
On ne détaillera pas la fin de la preuve sur l’estimation de \(\sigma^2\text{.}\) on peut la retrouver dans ( ref Tipping99probabilisticprincipal) .