Approche nonlinéaire et réduction de dimension

Section 17.5 Approche nonlinéaire et réduction de dimension

Pour finir ce chapitre, on va utiliser les méthodes introduites dans le chapitre pour traiter l’équation (17.15) pour différentes valeurs du nombre de Reynolds. On montrera la limite des méthodes dans certains régimes physiques. Ensuite on introduira les méthodes nonlinéaires qui permettent d’attaquer ses difficultés.

Objectifs

étudiez la précision des méthodes de réduction d’ordre en fonction du Reynolds, notamment dans les régimes hyperboliques.
Introduction des méthodes nonlinéaires

Subsection 17.5.1 Limite des approches de réduction linéaires

On va commencer par considérer la POD sur une simulation de l’équation de Burgers (17.15) ou l’équation de transport linéaire. Comme indiqué dans la sous-section Subsection 17.2.2 l’erreur effectuée par la POD dépend des valeurs propres correspondantes aux modes non choisis pour la réduction. Pour choisir la dimension réduite, en général, on trace les valeurs propres associées à la POD puis on choisit les vecteurs propres associés aux valeurs propres au-dessus d’un certain seuil. Plus les valeurs propres décroissent vite plus la méthode est efficace. On utilisera un schéma volumes finis d’ordre 2 avec 1000 mailles pour résoudre l’EDP.

Subsubsection 17.5.1.1 EDP linéaire

On va commencer par appliquer la méthode POD sur une équation linéaire. On va considérer l’équation d’advection diffusion et étudier le comportement de la méthode de réduction selon le régime physique. On considère:

\begin{equation} \partial_t \rho + \partial_x \rho = \frac{1}{R_e}\partial_{xx} \rho\tag{17.74} \end{equation}

Figure 17.35. POD pour l’équation (17.74) avec \(T_f=0.6\) pour \(R_e=40\text{.}\) On utilise 5 modes (haut), 10 modes (milieu), 20 (droite). On peut retrouver le notebook ici ¹.

On voit sur la figure Figure 17.35 que la méthode POD marche très bien pour le cas ou le Reynolds est égal à 40. Avec cinq modes on obtient pas une reconstruction très précise mais 10 modes suffisent pour cela. Cependant on est dans ce régime avec des solutions très régulières.

Figure 17.36. POD pour l’équation (17.74) avec \(T_f=0.6\) pour \(R_e=4000\text{.}\) On utilise 5 modes (haut), 10 modes (milieu), 20 (droite). On peut retrouver le notebook ici ².

Sur la figure Figure 17.36 on peut observer que la méthode POD dont des moins bon résultats pour un Reynolds est égal à 4000. En effet la solution n’est pas qualitativement bonne a dix modes. On vont donc que dans le régime advectif il faut augmenter le nombre de modes.

Subsubsection 17.5.1.2 EDP nonlinéaire

On applique maintenant la même approche sur une équation hyperbolique nonlinéaire. On va considérer l’équation de Burgers visqueux et étudier le comportement de la méthode de réduction selon le régime physique. On considère:

\begin{equation} \partial_t \rho + \partial_x \left(\frac{\rho}{2}\right) = \frac{1}{R_e}\partial_{xx} \rho\tag{17.75} \end{equation}

On va commencer par appliquer la méthode de réduction basée sur la POD sans hyperréduction avant d’introduire l’hyperréduction DEIM.

Figure 17.37. POD pour l’équation (17.75) avec \(T_f=0.8\) pour \(R_e=40\text{.}\) On utilise 5 modes (haut), 10 modes (milieu), 20 (droite). On peut retrouver le notebook ici ³.

Les résultats obtenus pour l’équation de Burgers et \(R_e=40\text{,}\) sur la figure Figure 17.37 sont similaire a ceux de l’équation de transport. Dans ce régime diffusif et linéaire la présence de la nonlinéarité ne pose pas de problème particulier.

Figure 17.38. POD pour l’équation (17.75) avec \(T_f=0.8\) pour \(R_e=4000\text{.}\) On utilise 5 modes (haut), 10 modes (milieu), 20 (droite). On peut retrouver le notebook ici ⁴.

Les résultats Figure 17.38 obtenus pour l’équation de Burgers et \(R_e=4000\) sont par contre différents de ceux obtenus pour le transport. En effet on voit que même avec 20 modes les résultats ne sont pas qualitativement parfait. On voit donc que dans ce régime convectif la nonlinéarité pose plus de problème à la POD.

Figure 17.39. POD pour l’équation (17.75) avec \(T_f=0.8\) pour \(R_e=400000\text{.}\) On utilise 5 modes (haut), 20 modes (milieu), 40 (milieu), (droite). On peut retrouver le notebook ici ⁵.

Ceci est confirmé par la figure Figure 17.39 ou on compresse les solutions de l’équation de Burgers pour \(R_e=400 000\) ou il faut 60 modes pour arriver a des résultats précis. Dans ce type de régime le gain commence a devenir discustable. Pour finit on va regarder ce qui passe dans le cas ou on ajoute la méthode DEIM pour éviter de remonter en grande dimension.

Figure 17.40. POD pour l’équation (17.75) avec \(T_f=0.8\) pour \(R_e=400000\text{.}\) On utilise 5 modes (haut), 20 modes (milieu), 40 (milieu), (droite). On peut retrouver le notebook ici ⁶.

On finit sur la figure Figure 17.40 en comparant la méthode POD-DEIM avec 60 et 100 modes. On voit dans ce cas, que même avec 100 modes on a du mal a obtenir des résultats qualitativement bon.

Conclusion.

Ces résultats montrent que les regimes de transports sont plus dur a capturer en basse dimension que les régimes diffusifs. En régime nonlinéaire notamment pour les EDP hyperboliques on voit que la méthode de réduction linéaire avec ou sans DEIM nécessite un nombre important de modes. Cela intervient notamment dans les chocs. En effet la méthode POD agit comme une décomposition spectrale avec une base adaptés aux simulations considérées. Comme toutes les approximations de ce type on obtient des phénomènes de Gibbs autour des forts gradients. On voit donc que ces approches ne sont pas suffisante dans ce cas. Les méthodes de fermetures peuvent améliorer ce type de résultat. Cependant l’hypothèse de linéarité du décodeur (équivalent au fait que le sous espace de basse dimension soit un hyperplan) devient insuffisante.

Subsection 17.5.2 Réduction de modèles nonlinéaire

jusqu’à présent on a vu des méthodes d’apprentissage dit "non supervisé" qui à partir de données construisent des modèles, ici des opérateurs de réduction (encodeur et décodeur). Ces opérateurs permettent de plonger des données en grande dimension dans une variété de basse dimension. On veut maintenant appliquer cela a des solutions EDP. Pour cela comme dans le chapitre 1 on doit construire le modèle réduit qui décrit la dynamique en temps des variables réduites. On considère le modèle suivant (17.23) issu de la discrétisation de notre modèle EDP. Pour construire un modèle réduit on fait l’hypothèse fondamentale suivante:

Seconde Hypothèse fondamentale.

Il existe une sous-variété riemannienne \(\mathcal{M}=\left\{D(\hat{\bs{v}}); \hat{\bs{v}}\in \mathbb{R}^m\right\}\) de dimension \(m \ll n\) tel que

\begin{equation} \bs{x}(t,\bs{\mu}) \approx \bs{x}_{ref}(\bs{\mu})+D(\hat{\bs{x}}(t,\bs{\mu}))\tag{17.76} \end{equation}

avec \(\hat{\bs{x}}\) qui appartient à la variété \(\mathcal{M}\text{.}\)

Cela revient à dire qu’il existe un décodeur nonlinéaire \(D\) qui relie nos variables réduites et nos variables globales. Dans la suite on suppose que le décodeur \(D\) et l’encodeur \(E\) (qui approche l’inverse de \(D\)). La question maintenant est de déterminer comment construire ses encodeurs. C’est ici que les approches du chapitre précédent sont précieuses. On peut citer trois solutions:

On se donne un data set \((x_1,..,x_n)\text{.}\) On détermine leurs projections en petite dimension en l’aide d’une méthode d’apprentissage de variété type ISOMAOP ou Eigenmaps. Puis on construit les opérateurs de décodage-encodage à partir d’une régression (par réseau de neurones ou régression a noyau) ou de l’approche de généralisation par ACP à noyau (on a besoin en général d’une approche dérivable).
On utilise un auto-encodeur profond (AE). En général si la donnée en grande dimension est une EDP discrétisée sur une grille ou un maillage on utilisera des réseaux convolutifs ou des réseaux sur graphes. On peut aussi passser en représentation specrtral comme Fourier et utiliser un auto-encodeur totalement connecté.
On combine une approche POD avec une approche AE. En effet si votre maillage est très fin (notamment si vous utiliser des réseaux GNN en 2D, 3D) le réseau utilisée pour la réduction sera probablement trop large. Une approche proposée dans [1.28] consite a utiliser une POD pour faire une première réduction jusqu’a une dimension de l’ordre de 100 à 1000. Puis d’utiliser un AE pour descendre plus en dimension.

Subsection 17.5.3 Méthodes de projection

Maintenant que l’on a vu comment construire cette réduction nonlinéaire il faut discuter la construction du modèle réduit. Une première approche est de généraliser les méthodes de réductions aux cas nonlinéaires.

Subsubsection 17.5.3.1 Projection NM-Galerkin

La première chose qu’on propose est d’étendre la projection de Galerkin au cas nonlinéaire [1.13]. Comme dans le cas linéaire on repart du résidu associé au problème continu en temps (17.32). Ensuite on va remplacer \(\bs{x}\) par son approximation affine (17.76). On pose \(\tilde{\bs{x}}\) les variables reconstruites:

\begin{equation*} \tilde{\bs{x}}(t,\bs{\mu}) = \bs{x}_{ref}(\bs{\mu})+D(\hat{\bs{x}}(t,\bs{\mu})) \end{equation*}

Cela permet de définit le résidu réduit en utilisant \(\frac{d \tilde{\bs{x}}}{dt}=J_d(\hat{\bs{x}})\frac{d\hat{\bs{x}}}{dt}\) avec \(J_d(\hat{\bs{x}})\) la Jacobienne de \(D\text{:}\)

\begin{equation*} \hat{\mathbf{r}}(\frac{d\hat{\bs{x}}}{dt}, \hat{\bs{x}}, t ; \bs{\mu}):= \bs{r}\left(J_d(\hat{\bs{x}}) \frac{d\hat{\bs{x}}}{dt}, \bs{x}_{ref}+D(\hat{\bs{x}}),t; \bs{\mu}\right) \end{equation*}

Définition 17.41. Projection de Galerkin nonlinéaire (nonlinear manifold Galerkin projection).

La projection de Galerkin nonlinéaire est donnée par la solution du problème

\begin{equation} \dot{\tilde{\bs{x}}}= \underset{\bs{v} \in \mathbb{R}^m}{\operatorname{argmin}}\|\mathbf{r}(\bs{v}, \hat{\bs{x}}, t ; \bs{\mu})\|_{2}^{2}\tag{17.77} \end{equation}

avec \(\hat{\bs{x}}(0 ; \bs{\mu})=E\left(\bs{x}_{0}(\bs{\mu})-\bs{x}_{ref}\right)\text{.}\)

La méthode de Galerkin revient à trouver l’expression de notre dérivée sur variables réduites qui va minimiser le résidu réduit. Si on avait notre résidu qui était nul ce serait équivalent a dire que notre approximation (17.76) ne ferait aucune erreur une fois intégrer dans l’EDP. En pratique on résout le problème de minimisation.

Lemme 17.42. Solution de la Projection de Galerki nonlinéaire (NMG).

La solution de l’équation (17.77) est données par:

\begin{equation} \frac{d \hat{\bs{x}}}{dt}= J_d(\hat{\bs{x}})^{+} \bs{f}\left(\bs{x}_{ref}+D( \hat{\bs{x}}),t ; \bs{\mu}\right), \quad \hat{\bs{x}}(0 ; \bs{\mu})=\hat{\bs{x}}_{0}(\bs{\mu})\tag{17.78} \end{equation}

avec le pseudo-inverse \(J_d(\hat{\bs{x}})^{+}= (J_d(\hat{\bs{x}})^{t} J_d(\hat{\bs{x}}))^{-1} J_d(\hat{\bs{x}})^{t}\text{.}\)

Preuve.

On chercher a minimiser le problème:

\begin{equation*} h(\hat{\bs{v}})=\parallel J_d(\hat{\bs{x}}) \hat{\bs{v}}- \bs{f} \left(\bs{x}_{ref}+ D(\hat{\bs{x}}), t ; \bs{\mu}\right)\parallel_2^2 \end{equation*}

On développe:

\begin{equation*} h(\hat{\bs{v}})= \hat{\bs{v}}^{T} J_d(\hat{\bs{x}})^{T} J_d(\hat{\bs{x}}) \hat{\bs{v}}-2 \hat{\bs{v}}^{T}J_d(\hat{\bs{x}})^{T} \bs{f}\left(\bs{x}_{ref}+D(\hat{\bs{x}}), t;\bs{\mu}\right) +\bs{f}\left(\bs{x}_{ref}+D(\hat{\bs{x}}), t;\bs{\mu}\right)^{T} \bs{f}\left(\bs{x}_{red}+D(\hat{\bs{x}}), t; \bs{\mu}\right) \end{equation*}

On calcul le gradient

\begin{equation*} \frac{\partial h(\hat{\bs{v}})}{\partial \hat{\bs{v}}}= 2 J_d(\hat{\bs{x}})^{T} J_d(\hat{\bs{x}}) \hat{v}^{\star}-2 J_d(\hat{\bs{x}})^{T} \bs{f} \left(\bs{x}_{ref}+D(\hat{\bs{x}}) , t;\bs{\mu}\right) \end{equation*}

On résout maintenant \(\frac{\partial h(\hat{\bs{v}})}{\partial \hat{\bs{v}}}=0\text{.}\) Pour cela on inverse \(J_d(\hat{\bs{x}})^{T} J_d(\hat{\bs{x}})\) ce qui donne \(0= \hat{v}^{\star}- (J_d(\hat{\bs{x}})^{T} J_d(\hat{\bs{x}}))^{-1} \bs{f}J_d(\hat{\bs{x}})^{T}\left(\bs{x}_{ref}+D(\hat{\bs{x}}), t;\bs{\mu}\right)\) ce qui conclut la preuve.

Si on reprend la définition d’un espace tangent pour une sous-variété dans le cas d’un paramétrage on voit que l’espace tangent en \(\hat{\bs{x}}\) peut être défini par

\begin{equation*} T_{\hat{\bs{x}}}\mathcal{M}=\operatorname{Img}(J_d(\hat{\bs{x}})) \end{equation*}

Par conséquent, la projection de Galerkin nonlinéaire peut s’interpréter comme une projection orthogonale sur l’espace tangent de la variété sur lequel vivent nos variables réduites. Dans la foulée comme dans le cas linéaire, on peut en déduire une méthode d’intégration en temps de notre modèle réduit.

Définition 17.43. Méthodes multi-pas pour la méthode NMG.

Une méthode à \(s\) pas s’écrit en deux étapes: une première ou on calcul un résidu solution de:

\begin{equation} \bs{r}^n(\hat{\bs{w}})=0\tag{17.79} \end{equation}

avec

\begin{equation} \bs{r}^n(\hat{\bs{w}})=\alpha_0 \hat{\bs{w}} - \Delta t \beta_0 J_d(\hat{\bs{w}})^{+} \bs{f} \left(\bs{x}_{ref}+D(\hat{\bs{w}}), t^n ; \bs{\mu}\right) + r_{temp}(\hat{\bs{w}})\tag{17.80} \end{equation}

\begin{equation} r_{temp}(\hat{\bs{w}})=\sum_{j=1}^{s} \alpha_{j} \bs{x}^{n-j}-\Delta t \sum_{j=1}^{s} \beta_{j} J_d(\hat{\bs{x}}^{n-j})^{+} \bs{f} \left(\bs{x}_{ref}+D(\hat{\bs{x}}^{n-j}), t^{n-j} ; \bs{\mu}\right), \tag{17.81} \end{equation}

avec comme condition \(\sum_{j=0}^s\alpha_j=0\) et la solution est donnée par

\begin{equation} \hat{\bs{w}}_n=\hat{\bs{w}}.\tag{17.82} \end{equation}

On peut aussi coupler une méthode de Projection de Galerkin nonlinéaire avec un schéma en temps implicite. Cela nécessite d’utiliser des méthodes de Newton ou de quasi-Newton. On veut donc appliquer une méthode de Newton à l’équation (17.80) - (17.81). On commence par dériver le résidu:

\begin{equation*} \frac{ \partial r^n(\hat{\bs{w}})}{\partial \hat{\bs{w}}_i }= \alpha_0 \bs{e}_i - \Delta t \beta_0 \left( \frac{\partial J_d(\hat{\bs{w}})^+}{\partial \hat{\bs{w}}_i } \bs{f}\left(\bs{x}_{ref}+D(\hat{\bs{w}}), t^n ; \bs{\mu}\right) +J_d(\bs{w})^+ \frac{\partial \bs{f}}{\partial \hat{\bs{w}}_i }\left(\bs{x}_{ref}+D(\hat{\bs{w}}), t^n ; \bs{\mu}\right) J_d(\hat{\bs{w}})\bs{e}_i \right) \end{equation*}

par dérivation du produit et de la composition. Ce calcul nécessite de dériver le pseudo-inverse de notre Jacobienne. Pour cela il suffit de développer, ce qui donne:

\begin{align*} \frac{\partial J_d(\hat{\bs{w}})^+}{\partial \hat{\bs{w}}_i } = \amp- J_d^{+}(\hat{\bs{w}})\frac{\partial J_d(\hat{\bs{w}})}{\partial \bs{w}_i }J_d^{+}(\bs{w}) +J_d^{+}(\hat{\bs{w}})J_d^{+,T}(\hat{\bs{w}}) \frac{\partial J_d^T(\hat{\bs{w}})}{\partial \hat{\bs{w}}_i }(I_d-J_d(\hat{\bs{w}})J_d^{T}(\hat{\bs{w}}))\\ \amp +(I_d-J_d^{+}(\hat{\bs{w}})J_d(\hat{\bs{w}}))\frac{\partial J_d^T(\hat{\bs{w}})}{\partial \hat{\bs{w}}_i } J_d^{+,T}(\hat{\bs{w}})J_d^{+}(\hat{\bs{w}}) \end{align*}

On doit donc calculer le gradient de \(J_d\) et par conséquent on doit calculer les dérivées seconde du décodeur \(D\text{.}\) Si on décide d’utiliser une méthode de Newton on doit conserver ce terme. Si on le néglige, car il peut être très lourd à calculer on parle de méthode de Quasi-Newton. Dans ce cas on pose:

\begin{equation*} J_{approx}^n(\hat{\bs{w}})= \alpha_0 - \Delta t \beta_0 \left( J_d(\hat{\bs{w}})^+ \frac{\partial \bs{f}}{\partial \hat{\bs{w}}_i }\left(\bs{x}_{ref}+D(\hat{\bs{w}}), t^n ; \bs{\mu}\right)J_d(\hat{\bs{w}}) \right) \end{equation*}

Pour résoudre \(\bs{r}^n(\hat{\bs{w}})=0 \) on utilise une méthode de Newton. Pour cela on linéarise autour de \(\bs{x}^n\) donnée par:

\begin{equation*} J_{approx}^n(\hat{\bs{x}}^{k})\delta^k - r^n(\hat{\bs{x}}^n)=0 \end{equation*}

On obtient un algorithme de Newton dont l’itéré est donné par:

\begin{equation*} \begin{cases} J_{approx}^n(\hat{\bs{x}}^{k})\bs{\delta}^k=- r^n(\hat{\bs{x}}^k)\\ \hat{\bs{x}}^{k+1}=\hat{\bs{x}}^{k}+\alpha^k \bs{\delta}^k \end{cases} \end{equation*}

La convergence peut être démontrée si

\begin{equation*} \langle r^n(\hat{\bs{x}}^k) ,J^n(\hat{\bs{x}}^{k})\frac{ \partial r^n(\hat{\bs{x}})}{\partial \hat{\bs{x}}} r^n(\bs{x}^k)\rangle \end{equation*}

à chaque itération et si on choisit \(\alpha^k\) afin d’assurer qu’on fait bien descendre à chaque itération \(\parallel r^n(\hat{\bs{w}})\parallel_2^2 \text{.}\) Comme pour le cas linéaire on peut aussi définir une méthode de type Runge-Kutta. La principale différence avec le linéaire vient du calcul de la jacobienne qui alourdit encore un peu la méthode.

Subsubsection 17.5.3.2 Projection NM-Petrov-Galerkin

De la même que pour la méthode de Galerkin on peut adapter la méthode de Petrov-Galerkin au cas nonlinéaire. On rappelle que la méthode de Petrov-Galerkin revient à d’abord discretiser puis à minimiser le résidu discret. On se retrouve retrouve a minimiser la quantité

\begin{equation} \hat{x}^n=\underset{\hat{\bs{w}} \in \mathbb{R}^m}{\arg \min } \| \boldsymbol{r}^n\left(x_{\mathrm{ref}}(\boldsymbol{\mu})+D(\hat{\bs{w}}) ;t,\boldsymbol{\mu}\right)\|_2^2\tag{17.83} \end{equation}

avec \(\bs{r}^n()\) le résidu d’un schéma en temps. Ici on va se restreindre au cas d’un schéma a un pas implicite comme dans [1.13].

Lemme 17.44.

On se place dans le cas multi-pas (17.20) - (17.21) avec \(\beta_j = 0\text{,}\) \(\forall j \ge 1\) (schéma a une étape). La solution de (17.83) est donnée par

\begin{equation} \Psi(\hat{\bs{x}}^n)^t\bs{r}^n(\bs{x}_{ref}+D(\hat{\bs{x}}^n))=0\tag{17.84} \end{equation}

avec

\begin{equation*} \Psi(\hat{\bs{w}}) =\left(\alpha_0 I-\Delta t \beta_0 \frac{\partial \boldsymbol{f}}{\partial \bs{w}} \left(x_{\mathrm{ref}}(\bs{\mu})+D(\hat{\bs{w}}), t^n ; v\right)\right) J(\hat{\bs{w}}) \end{equation*}

Preuve.

On commence par calculer le gradient de \(J_r(\hat{\bs{w}})\) par rapport à \(\hat{\bs{w}}\text{.}\) On pose \(\tilde{\bs{w}}=\bs{x}_{ref}+D(\hat{\bs{w}})\text{.}\) On calcul

\begin{equation*} J_r(\tilde{\bs{w}} +h )= \langle r^n(\tilde{\bs{w}} +\bs{h}) ,r^n(\tilde{\bs{w}}+\bs{h}) \rangle_{\mathbb{R}^n} \end{equation*}

\begin{equation*} J_r(\tilde{\bs{w}} +h )= \langle (r^n(\tilde{\bs{w}}) +\nabla_{\bs{w}}\bs{r}^n \bs{h} ) , (r^n(\tilde{\bs{w}}) +\nabla_{\bs{w}}\bs{r}^n \bs{h} ) \rangle_{\mathbb{R}^n} \end{equation*}

On développe et ce la donne

\begin{equation*} J_r(\tilde{\bs{w}} +h )= J(\tilde{\bs{w}})+ \langle \bs{r}^n , (\nabla_{\bs{w}}\bs{r}^n) \bs{h} \rangle_{\mathbb{R}^n} \end{equation*}

ce qui se réécrit

\begin{equation*} J_r(\tilde{\bs{w}} +h )= J(\tilde{\bs{w}})+ (\nabla_{\bs{w}}\bs{r}^n)^t \bs{r}^n , \bs{h} \rangle_{\mathbb{R}^n} + o(h^2) \end{equation*}

On obtient donc par identification

\begin{equation*} \nabla_{\tilde{\bs{w}}}J_r(\tilde{\bs{w}}) \bs{h} = \langle (\nabla_{\bs{w}}\bs{r}^n)^t \bs{r}^n , \bs{h} \rangle_{\mathbb{R}^n} \end{equation*}

et donc

\begin{equation*} \nabla_{\tilde{\bs{w}}}J_r(\tilde{\bs{w}}) = (\nabla_{\bs{w}}\bs{r}^n)^t \bs{r}^n \end{equation*}

Ensuite on utilise que

\begin{equation*} \nabla_{\hat{\bs{w}}}J_r(\hat{\bs{w}}) =J_d(\hat{\bs{w}})^t \nabla_{\tilde{\bs{w}}}J_r(\tilde{\bs{w}}) \end{equation*}

ce qui nous donne

\begin{equation*} \nabla_{\hat{\bs{w}}}J_r(\hat{\bs{w}}) =J_d(\hat{\bs{w}})^t (\nabla_{\bs{w}}\bs{r}^n)^t \bs{r}^n = \Psi(\hat{\bs{x}}^n)^t\bs{r}^n \end{equation*}

Ensuite on obtient que \(\nabla_{\bs{w}} J(\hat{\bs{w}})=0\) est équivalent au résultat (17.84). Pour finir la preuve il suffit de remarquer que:

\begin{equation*} (\nabla_{\bs{w}}\bs{r}^n)= \left(\alpha_0 I-\Delta t \beta_0 \frac{\partial \boldsymbol{f}}{\partial \bs{w}} \left(x_{\mathrm{ref}}(\bs{\mu})+D(\hat{\bs{w}}), t^n ; \bs{\mu}\right)\right) \end{equation*}

pour conclure la preuve.

Dans ce cadre la fonction \(\Psi(\hat{\bs{x}}^n)\) n’est pas une matrice carrée. Le même genre de calcul peut être fait dans le cas explicite. Maintenant on regarder comment résoudre le problème (17.83) dans le cas implicite à un pas. On commence par linéariser le problème autour de \(\hat{\bs{x}}^n\text{:}\)

\begin{equation*} \underset{\hat{\bs{w}} \in \mathbb{R}^m}{\arg \min } \| \boldsymbol{r}^n\left(x_{\mathrm{ref}}(\boldsymbol{\mu})+D(\hat{\bs{w}}) ;t,\boldsymbol{\mu}\right)\|_2^2\approx \underset{\hat{\bs{\delta}} \in \mathbb{R}^m}{\arg \min } \| \Psi(\hat{\bs{x}}^n)\bs{\delta}- \boldsymbol{r}^n \left(x_{\mathrm{ref}}(\boldsymbol{\mu})+D(\hat{\bs{x}}^n) ;t,\boldsymbol{\mu}\right)\|_2^2 \end{equation*}

Ensuite on va utiliser cette linéarisation pour faire un algorithme de Gauss-Newton ce qui donne a chaque itération:

\begin{equation*} \underset{\hat{\bs{\delta}} \in \mathbb{R}^m}{\arg \min } \| \Psi(\hat{\bs{x}}^k)\bs{\delta}^k- \boldsymbol{r}^n \left(x_{\mathrm{ref}}(\boldsymbol{\mu})+D(\hat{\bs{x}}^k) ;t,\boldsymbol{\mu}\right)\|_2^2 \end{equation*}

Pour résoudre cela on utilise l’équation normale puisqu’il s’agit d’un problème au moindre carré. Cela nous donne l’itéré:

\begin{equation*} \begin{cases} \Psi(\hat{\bs{x}}^k)\Psi(\hat{\bs{x}}^k)^t\bs{\delta}^k=- \Psi(\hat{\bs{x}}^k)^tr^n(\hat{\bs{x}}^k)\\ \hat{\bs{x}}^{k+1}=\hat{\bs{x}}^{k}+\alpha^k \bs{\delta}^k \end{cases} \end{equation*}

Des liens entre les méthodes NMPG et NMG sont étudiées dans [1.13]. En effet à la limite \(\Delta t\) tend vers zéro ou dans le cas linéaire on obtient des correspondances entre les méthodes.

Subsection 17.5.4 Hyper-reduction pour les méthodes nonlinéaires

Etant que à la fois notre EDP et notre réduction sont nonlinéaire il devient essentiel de faire d’appliquer des méthodes d’hyper réduction pour obtenir un modèle aux coûts réduits. Dans un premier temps on va re discuter les méthodes DEIM/Gappy dans ce contexte avant d’introduire des approches basées sur l’apprentissage.

Subsubsection 17.5.4.1 Hyper-réduction basés sur des POD

Les méthodes de projection nonlinéaires sont évidemment compatible avec des méthodes d’hyper réduction. Si on considère le modèle obtenu par la méthode NMG (17.78), on peut évidemment appliquer une méthode DEIM/Gappy-POD ou GNAT. Pour cela il suffit juste d’appliquer cela à la fonction nonlinéaire:

\begin{equation*} g\hat{\bs{x}}=J_d(\hat{\bs{x}})^{+} \bs{f}\left(\bs{x}_{ref}+D( \hat{\bs{x}}),t ; \bs{\mu}\right) \end{equation*}

En pratique on va pouvoir précalculer certaines parties. Il faudra aussi estimer \(Z^t g(\hat{\bs{x}})\) et \(Z^t J_d(\hat{\bs{x}})^{+}\text{.}\) Évidemment ou le fera que pour les indices définis par \(Z^t\) comme proposer dans le chapitre un au moment de la discussion sur l’hyper réduction.

Subsubsection 17.5.4.2 Hyper-réduction et apprentissage profond

Une autre solution pour l’hyper réduction est de construire la non-linéarité dans l’espace réduit en utilisant de l’apprentissage. On peut aussi parler d’inférence d’opérateur. On part de la méthode LSG. L’équation différentielle qu’on doit résoudre est donnée par:

\begin{equation*} \frac{d \hat{\bs{x}}}{dt}= J_d(\hat{\bs{x}})^{+} \bs{f}\left(\bs{x}_{ref}+D( \hat{\bs{x}}),t ; \bs{\mu}\right), \end{equation*}

On se donne maintenant une fonction paramétrée \(\hat{f}_{\theta}()\) qui peut être obtenu avec un réseau de neurones ou une approximation basées sur des noyaux. On est capable en simulant ce modèle d’obtenir des exemples de trajectoires \((\hat{\bs{x}}_1,...,\hat{\bs{x}}_{n_d})\) pour plusieurs paramètres \(\bs{\mu}\text{.}\) Une solution pour construire une hyper réduction est de résoudre le problème de régression:

\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^n\parallel \hat{f}_{\theta}(\hat{\bs{x}}_i,t_i;\bs{\mu}_i) - J_d(\hat{\bs{x}}_i)^{+} \bs{f}\left(\bs{x}_{ref}+D( \hat{\bs{x}}_i),t_i ; \bs{\mu}_i\right)\parallel_2 \end{equation*}

Il s’agit ici d’approcher une nonlinarité dans l’espace réduit. Une autre approche est de directement estimer le résultat de la nonlinearité. Pour cela on définit un réseau paramétré \(\hat{f}_{\theta,u}(t,\bs{\mu})\text{.}\) Cela revient a résoudre le problème:

\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^n\parallel \hat{f}_{\theta,u}(t_i;\bs{\mu}_i) - J_d(\hat{\bs{x}}_i)^{+} \bs{f}\left(\bs{x}_{ref}+D( \hat{\bs{x}}_i),t_i ; \bs{\mu}_i\right)\parallel_2 \end{equation*}

Si on utilise une méthode implicite (comme précédemment) pour résoudre notre problème, on peut aussi approcher les jacobiennes par des fonctions paramétrées. A priori il n’y pas de difficultés particulières a effectuer ses apprentissages. En général on propose des algorithmes globaux qui effectuent les réductions, génèrent les données réduites et apprend l’hyper réduction. On peut citer par exemple [1.15].

Subsection 17.5.5 Méthode nonlinéaire et inférence d’opérateur

Il existe une autre approche pour construire le modèle réduit. Il s’agit de directement apprendre le modèle réduit. Cela peut se faire après avoir déterminer le décodeur et l’encodeur ou en même temps. On se donne un encodeur \(E_{\theta}(\bs{x})\) et un décodeur \(D_{\theta}(\hat{\bs{x}})\text{.}\) On va considérer plusieurs possibilité pour apprendre ce modèle:

La première consiste a faire de l’apprentissage supervisé d’ODE. Pour la on va construire notre data set de la facon suivante:

\begin{equation*} \left( \frac{d \hat{\bs{x}}}{dt}\right)_i^n = \frac{E_{\theta}(\bs{x}_i^{n+1})-E_{\theta}(\bs{x}_i^n)}{t_{n+1}-t_n} \end{equation*}

avec \(i\) le numéro de la trajectoire et \(n\) celui du temps considéré. puis on va résoudre problème de régression

\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^N\sum_{n=1}^{T-1}\parallel \frac{d \hat{\bs{x}}_i^n}{dt} - F_{\theta}(\hat{\bs{x}}_i^n,\boldsymbol{\mu}_i)\parallel_2^2 + Reg(\theta) \end{equation*}

avec \(\boldsymbol{\mu}\) les paramètres du problème. Pour le modèle \(F_{\theta}\) on peut utiliser un réseaux de neurones, un modèle un noyau ou un modèle parcimonieux de tyoe SINDy.
La seconde consiste a utiliser une approche contrôle optimal. On va déterminer l’EDO de facon a ce que le résultat en chaque temps correspond a celui générée par notre EDO apprise. Cela révient a résoudre
\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^N\sum_{n=1}^{T-1}\parallel \hat{\bs{x}}_i(t_n) - E_{\theta}(\bs{x}_i^n)\parallel_2^2 \end{equation*}
sous contrainte que \(\hat{\bs{x}}_i(t)\) soit solution de
\begin{equation*} \left\{ \begin{array}{l} \frac{d \hat{\bs{x}}_i(t)}{dt}=F_{\theta}(\hat{\bs{x}}_i(t); \boldsymbol{\mu}_i)\\ \hat{\bs{x}}(t=0)=E_{\theta}(x_i(t=0)) \end{array} \right. \end{equation*}
Ce problème de contrôle optimal peut être résolu avec une méthode d’adjoint (on est dans le d’une ODE neural) ou après discrétisation par une approche de type physique différentiable.
La troisième approche va consister non pas apprendre une EDO mais directement une discretisation/ un processus discret. Pour Cela on va simplement minimiser:

\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^N\sum_{n=1}^{T-1}\parallel E_{\theta}(\bs{x}_i^{n+1}) - S_{\theta}(E_{\theta}(\bs{x}_i^n))\parallel_2^2 \end{equation*}

avec \(S_{\theta}\) un réseau de type RNN/GRU ou LSTM.
Une dernière va consister apprendre directement la solution du problème réduit par une approche de type PINNs paramétriques. Pour cela on définit un réseau totalement connecté du type \(\hat{\bs{x}}_{\theta}(t,\boldsymbol{\mu})\) et on apprend en résolvant le problème suivant:

\begin{equation*} \operatorname{min}_{\theta}\sum_{i=1}^N\sum_{n=1}^{T-1}\parallel \hat{\bs{x}}_{\theta}(t_n,\boldsymbol{\mu}_i) - E_{\theta}(x_i^n)\parallel_2^2 + \lambda \sum_{i=1}^N\sum_{n=1}^{T-1}\parallel \frac{d \hat{\bs{x}}(t_n,\boldsymbol{\mu}_i)}{dt} - J_d(\hat{\hat{\bs{x}}(t_n,\boldsymbol{\mu}_i)})^{+} \bs{f}\left(D_{\theta}(\hat{\bs{x}}(t_n,\boldsymbol{\mu}_i)) \right) \parallel_2^2 \end{equation*}

La partie résiduelle de la fonction de coût peut être lourde a évaluer.

L’inférence d’opérateur permet notamment d’effectuer la construction du modèle réduit et l’hyper-réduction en même temps. Cette approche donne moins de garantie théorique que les approches de projection pour les EDP linéaires. Pour les problèmes fortement on a globalement du mal a obtenir ses garanties quoi qu’il arrive. Comme introduit précédemment on peut apprendre en même la réduction et le modèle réduit. Pour cela il suffit de coupler ses fonctions de coûts ou des fonctions du même accabies avec la fonction de cout de l’auto-encodeur. Cela permet de faire un seul entrainement. Par contre il faut bien choisir les poids entre les fonctions de coûts.

Figure 17.45. Auto-encodeur couplé avec une approche apprentissage d’ODE par Sindy en dimension réduite. Image issue de [1.29]

Sur la figure Figure 17.45 on voit in exemple d’apprentissage couplé entre un auto-encodeur et un modèle réduit donné par l’approche SIndy.

Prev Top Next