On va donc chercher a majorer l’erreur moyenne de généralisation.
\begin{equation*}
\begin{aligned}
\mathcal{E}_g(\theta^*) \amp = \int_{\Omega^N}\parallel u-u_{\theta^*,S} \parallel_X dS\\
\amp \le C_{pde}\int_{\Omega^N}\parallel D(u)-D(u_{\theta^*,S}) \parallel_{L^1} dS\\
\amp \le C_{pde}\int_{\Omega^N}\parallel D(u_{\theta^*,S}) -f \parallel_{L^1} dS\\
\amp \le C_{pde}\int_{\Omega^N}\parallel R(\theta^*,S) \parallel_{L^1} dS\\
\end{aligned}
\end{equation*}
Puisque dans la norme \(L^1\) la fonction \(R(z,\theta^*,S)\) ets intégré sur \(z\) alors on a
\begin{equation*}
\parallel R(\theta^*,S) \parallel_{L^1}= \mathbb{E}_{\omega}[\parallel R(\theta^*,S) \parallel_{L^1}]
\end{equation*}
\begin{equation*}
\begin{aligned}
\amp \le C_{pde}\int_{\Omega^N} \mathbb{E}_{\omega}[\parallel R(\theta^*,S) \parallel_{L^1}] dS\\
\amp \le C_{pde}\int_{A} \left(\int_{\Omega^N} \parallel R(\theta^*,S) \parallel_{L^1}\right) d\mathbb{P}(\omega)\\
\end{aligned}
\end{equation*}
Maintenant on va faire intervenir les erreur d’entrainement moyenne et le résidu de validation. On obtient
\begin{equation*}
\mathcal{E}_g(\theta^*) \le C_{pde}\mathbb{E}_{\omega}
\left[ \mid\left(\int_{\Omega^N}\parallel R(\theta^*,S) \parallel_{L^1}\mid dS\right) -\mathcal{E}_T + \mathcal{E}_T
-\mathcal{E}_V + \mathcal{E}_V\mid\right]
\end{equation*}
On utilise \(\mathcal{E}_{TV}=\mathbb{E}_{\omega}[\mathcal{E}_V-\mathcal{E}_T]\) et le fait que \(\mathcal{E}_T \) ne dépend pas de \(\omega\text{.}\) En effet l’erreur d’entrainement est évalué au point du jeu d’entrainement qui ne valie pas ici. On obtient
\begin{equation*}
\mathcal{E}_g(\theta^*) \le C_{pde}\left(\mathcal{E}_T+\mathcal{E}_{TV}+
\mathbb{E}_{\omega}\left[ \mid \left(\int_{\Omega^N}\parallel R(\theta^*,S) \parallel_{L^1}dS\right) -\mathcal{E}_V\mid\right]
\right)
\end{equation*}
En développant on obtient
\begin{equation*}
\begin{aligned}
\mathcal{E}_g(\theta^*) \amp \le C_{pde}\left(\mathcal{E}_T+\mathcal{E}_{TV}+
\mathbb{E}_{\omega}\left[ \mid \left(\int_{\Omega^N}\int_{\Omega}\mid R(z,\theta^*,S) \mid dz dS\right) -\mathcal{E}_V\mid\right]
\right)\\
\amp \le C_{pde}\left(\mathcal{E}_T+\mathcal{E}_{TV}+
\mathbb{E}_{\omega}\left[ \mid \left(\int_{A}\left(\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS\right) dP(\omega)\right)
-\mathcal{E}_V\mid\right]
\right)
\amp \le C_{pde}\left(\mathcal{E}_T+\mathcal{E}_{TV}+\sqrt{
\mathbb{E}_{\omega}\left[ \mid \left(\int_{A}\left(\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS\right) dP(\omega)\right)
-\mathcal{E}_V\mid^2\right]}
\right)
\end{aligned}
\end{equation*}
Le dernière ligne s’obtient sous certaine condition sur la loi de \(\omega\) que l’on suppose vérifiée. On remarque que la quantité \(\mathcal{E}_V\) est une moyenne empirique de la moyenne \(\mathbb{E}_{\omega}[f(z(\omega))]=\int_{A}\left(\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS\right) dP(\omega)\) associé à la variable aléatoire
\begin{equation*}
f(z(\omega))=\left(\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS\right)
\end{equation*}
Le résidu associé aux réseaux de neurones n’est pas indépendant du jeu de données d’netrainement mais est bien indépendant du jeux de validation. On peut donc utiliser des estimations de Monte Carlo de la section
Section 1.2. Cela nous donne la majoration suivante:
\begin{equation*}
\mathbb{E}_{\omega} \left[\mid \left(\mathbb{E}_{\omega}[f(z(\omega))]-\mathcal{E}_V \right)\mid^2\right]\leq \frac{\sigma^2}{N}
\end{equation*}
\begin{equation*}
\sigma= \sqrt{ (\mathbb{E}_{\omega}[ f(z(\omega)) - \mathbb{E}_{\omega}[f(z(\omega))])^2] }
\end{equation*}
\begin{equation*}
\sigma= \sqrt{ \mathbb{E}_{\omega}[ \left(\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS
- \int_{\Omega}\int_{\Omega^N}\mid R(z(\omega),\theta^*,S) \mid dS dz \right)^2] }
\end{equation*}
ce qui conclu la preuve.