L’idée centrale de la méthode est de faire un \textbf{a priori} qui est que la fonction qu’on souhaite construire peut s’approcher par fonction gaussienne multidimensionnelle assez générale. Une fois cette a priori fixé en utilisant des calculs de loi conditionnelle similaire à la régression Bayesienne on peut prédire de nouvelles valeurs de la fonction à partir d’un échantillon. On va commencer par introduire ces distributions. Ces Gaussiennes multidimensionnels ou vecteurs gaussiens sont introduits dans le chapitre 1 de rappel. A partir de ces lois gaussiennes et de notre a priori, on va pouvoir construire une méthode de régression appelée GPR (pour Gaussian process regression).
Définition 3.109.
Un processus stochastique est une famille de variables aléatoires définies sur le même espace de probabilité indexée par \(T\) (on parle de processus discret dénombrable et continu sinon) un ensemble et a valeur dans un espace métrique \(M\text{.}\) On note souvent un processus stochastique est noté par \(\left\{X_t\right\}_{t \in T}\text{.}\) En général on prend
\(T=\mathbb{R}\) ou
\(\mathbb{R}^+\text{.}\)
Définition 3.110.
Un processus stochastique \(\left\{X_t\right\}_{t \in T}\) est dit Gaussien si chaque collection finie de variables aléatoires appartenant au processus suit une loi gaussienne multidimensionnelle. Cela revient à dire que \(\left\{X_t\right\}_{t \in T}\) est gaussien si toute combinaison linéaire
\begin{equation*}
a_1 X_{t_1}+\cdots+a_n X_{t_n}
\end{equation*}
suit une loi gaussienne (pour tout \(n \in \mathbb{N}, t_1, \ldots, t_n \in T\) et \(a_1, \ldots, a_n \in \mathbb{R}\)). La distribution d’un processus gaussien est la loi jointe de toutes ces variables aléatoires. Si \(T\) est un ensemble indénombrable, une réalisation de ce processus donne donc une fonction \(f:T\rightarrow M\text{.}\) On sait que la loi d’un vecteur gaussien
\(\left(X_{t_1}, \ldots, X_{t_n}\right)\) est totalement déterminée si on connaît le vecteur moyenne
\begin{equation*}
\left(\mathbb{E}\left[X_{t_1}\right], \ldots, \mathbb{E}\left[X_{t_n}\right]\right)
\end{equation*}
et la matrice de covariance
\begin{equation*}
\left(\operatorname{Cov}\left(X_{t_i}, X_{t_j}\right)_{1 \leq i, j \leq n}\right)
\end{equation*}
On comprend dès lors que la loi d’un processus gaussien est déterminée complètement (on ne le démontrera pas) dès qu’on se donne la fonction moyenne \(\mu(t)=\mathbb{E}\left[X_t\right]\) et l’opérateur de covariance \(\Sigma(s, t)=\operatorname{Cov}\left(X_s, X_t\right)\text{.}\) De plus En effet, la loi fini dimensionnelle de \(\left(X_{t_1}, \ldots, X_{t_n}\right)\) est alors la loi normale de dimension \(n\) de paramètre \(\mathcal{N}\left(\mu_n, \Sigma_n\right)\) avec \(\mu_n=\left(\mu\left(t_1\right), \ldots, \mu\left(t_n\right)\right)\) et \(\Sigma_n=\left(\Sigma\left(t_i, t_j\right)\right)_{1 \leq i, j \leq n}\text{.}\) Les fonctions \(a\) et \(\Sigma\) définissent donc toutes les lois finies dimensionnelles de \(X\) et donc aussi sa loi.
Un processus gaussien est donc l’extension continue des vecteurs gaussiens et permet de générer aléatoirement une fonction indexée sur une espace\(T\). On remarquer aussi qu’un processus gaussien va générer des données de façon à ce que tout ensemble fini de ces données généré va suivre une loi normale multivariée.
On nomme \(\mathcal{GP}(\mu(x),\Sigma(x_1,x_2))\) un processus gaussien avec \(\mu(x)\text{,}\) \(\Sigma(x_1,x_2)\) les paramètres de la loi multivariée sous-jacente. On considère un problème de régression ou l’on doit déterminer la fonction \(f\) qui satisfait:
\begin{equation*}
y = f(x) + \epsilon
\end{equation*}
avec
\(\epsilon \sim \mathcal{N}(0,1)\text{.}\) On connaît un certain nombre d’exemple
\((x_1,...,x_n)\) et
\((y_1,...,y_n)\text{.}\) On retrouve notre problème de régression classique.
Définition 3.111.
L’a priori des processus gaussiens est que
\begin{equation*}
f(x) \sim \mathcal{GP}(\mu(x),\Sigma(x_1,x_2))
\end{equation*}
On a donc un
processus Gaussien indexé par la variable \(x\). Pour la suite on choisit comme opérateur de covariance
\(\Sigma(.,.)\) une fonction noyau \(k(.,.)\). Comme il a été énoncé précédemment chaque famille finie de variables aléatoires du processus suit une loi gaussienne multidimensionnelle de paramètres
\(\mu\text{,}\) \(\Sigma\text{.}\) Cela veut donc notamment que c’est le cas pour
tout échantillon de la fonction. On pose
\(V_{\mu}=(\mu(x_1),....,\mu(x_n))\) le vecteur de la fonction moyenne appliquée éléments échantillons et
\(M_{\Sigma}\) la matrice des noyaux de covariance appliquée à chaque élément d’ échantillon tel que
\begin{equation*}
M_{\Sigma,ij} = k(x_i,x_j)
\end{equation*}
On voit donc que les données \(Y=(y_1,...y_n)\) peuvent être obtenues par en utilisant
\begin{equation*}
Y \sim \mathcal{N}(V_{\mu},M_{\Sigma})
\end{equation*}
Maintenant on se donne un vecteur \((x_1^*,...x_m^*)\) et l’on souhaite prédire \((y_1^*,...,y_m^*)\text{.}\) On rappelle que toute collection finie de variables aléatoires du processus Gaussien forme un vecteur Gaussien. Par conséquent les données \((y_1^*,...,y_m^*)\) issues de la même fonction (générée par le processus) forme aussi un vecteur Gaussien. On a donc nos échantillons qui forment un vecteur Gaussien et la valeur de nouvelles données \((y_1^*,...,y_m^*)\) associées à \((x_1^*,...x_m^*)\) qui forme aussi un vecteur Gaussien. En utilisant que la loi jointe de deux Gaussiennes généralisées reste une Gaussienne généralisée, on obtient que la loin jointe suivante:
\begin{equation*}
\left[\begin{array}{c}
Y \\
Y^* \end{array}\right]
\sim \mathcal{N}\left(\left[\begin{array}{c}
V_{\mu} \\
V_{\mu}^* \end{array}\right], \left[\begin{array}{cc}
M_{\Sigma} \amp M_{\Sigma}^{*,t} \\
M_{\Sigma}^* \amp M_{\Sigma}^{**} \end{array}\right]\right)
\end{equation*}
avec
\begin{equation*}
M_{\Sigma,ij}^{*} = k(x_i^*,x_j), \quad M_{\Sigma,ij}^{**} = k(x_i^*,x_j^*)
\end{equation*}
Le fait qu’on est un processus gaussien nous assure que la moyenne et la variance du vecteur gaussien associée à
\(Y\) sont données par l’évaluation de
\(\mu(x)\) et
\(\Sigma(x,y)=k(x,y)\) aux points
\((x_1^*,...x_m^*)\text{.}\) Maintenant notre objectif est de déterminer
\(Y^*\) connaissant evidement
\(X^*\text{,}\) mais aussi nos données
\(X,Y\) et pour cela on va utiliser les propriétés des lois conditionnelles pour les vecteurs gaussiens.
Proposition 3.112.
Une estimation de \(f(x_i^*)\) pour \(i\in \left\{1,..,m\right\}\) est donnée par un échantillon de la loi de \(p(Y^* \mid Y)\text{.}\) Cette loi est déterminée par
\begin{equation*}
p(Y^* \mid Y)\sim \mathcal{N}(V_{\mu}^*+M_{\Sigma}^{*}M_{\Sigma}^{-1}(Y-V_{\mu}),M_{\Sigma}^{**}- M_{\Sigma}^* M_{\Sigma}^{-1} M_{\Sigma}^{*,t})
\end{equation*}
Preuve.
Pour cela on utilise uniquement la proposition sur la loi conditionnelle des vecteurs Gaussiens.
En utilisant la dernière méthode on a un modèle prédictif qui nous donne une loi de la valeur de notre fonction
\(f\) aux points
\((x_1^*,...x_m^*)\text{.}\) Le fait d’obtenir une loi nous permet comme pour la régression linéaire Bayesienne d’obtenir aussi des intervaux de confiance à travers la variance. La moyenne est souvent utilisée comme prédiction.
D’un point de vue de calcul, on remarque si on inverse la matrice de covariance des données on calcul la valeur en de nouveaux points par des produits matrices vecteurs. Par contre si cet inverse n’est pas stocké mais on résout juste des systèmes associés à \(M_{\Sigma}\) il faut le faire pour chaque nouvelle prédiction. On peut faire de la classification avec cette méthode, mais nous ne le discuterons pas ici.