Formalisme général pour les opérateurs neuraux

Section 13.4 Formalisme général pour les opérateurs neuraux

Dans cette section nous allons introduire une formalisme généralisant les méthodes précdentes pour traiter les problèmes linéaires et nonlinéaire. Ce formalisme contient naturellement l’apprentissage de fonction de Green. Il contiendra aussi naturellement es approches de type noyau intégral de la section 5 et les spectrales de la section 6. Les approches de la section 7 (Auto-encodeur) et section 8 (transformer) pourront aussi être relié à ce cadre théorique.

Après avoir introduit la notion général d’opérateur neuraux continue nous avons introduit les fonctions de Green qui permet d’obtenir (dans des cas simples) des solution explicites d’EDP. Ensuite nous avons introduit un premier type d’approximation d’opérateur avec l’apprentissage de fonction de Green. Cependant cette approche est limité au cas linéaire. On va ensuite vu une méthode pour traiter les cas nonlinéaires en linéarisant le problème par un réseau local en espace de type MPC. Cette approche peut être comparer avec la régression à noyau qui approche des fonctions en linéarisant le problème en le projettant dans un espace d grande dimension (voir infini pour les noyaux). Pour approcher des fonctions nonlinéaires les réseaux de neurones utilise une autre approche qui enchaine des transformations linéaires que l’ont casse par des nonlinéarités locales. Le formalisme qu’on va introduire propose finalement la même chose: enchainer des transformations linéaires de type opérateur (Convolution par un noyau come une fonction de Green) entrecoupés de nonlinéarité locales. Ce formalisme a été proposé dans [1.6]. Avant d’introduire une nouveau type de couche on va proposer quelques définitions. De façon générale on suppose que les paramètres \(\bs{\mu}(x)\) sont des fonctions de type

\begin{equation*} \bs{\mu}(x):D_{\mu} \rightarrow \mathbb{R}^{d_{\mu}} \end{equation*}

Définition 13.9. Opérateur à noyau intégral.

On appelle noyau intégral l’opérateur une fonction \(v(y)\in C^0(D_t;\mathbb{R}^{n_t})\)

\begin{equation*} \mathcal{K}(v)(x)=\int k(x,y)v(y) d\nu(y),\quad \forall x\in D_{t+1} \end{equation*}

avec \(k(x,y)\in C^p(D_{t+1}\times D_t;\mathbb{R}^{n_{t+1}}\times \mathbb{R}^{n_{t}})\) et \(\nu\) une mesure. En pratique on choisit souvent la mesure de Lebesgue.

On peut proposer deux variantes de ce noyau intégral:

Définition 13.10. Opérateur à noyau intégral dépendant de paramètres.

On appelle opérateur à noyau intégral dépendant de paramètres l’opérateur qui transforme une fonction \(v(y)\in C^0(D_t;\mathbb{R}^{n_t})\) en

\begin{equation*} \mathcal{K}(v)(x)=\int k(x,y, \bs{\mu}((\Pi_{t+1}(x)),\bs{\mu}(\Pi_{t}(y)) ))v(y) d\nu(y), \quad \forall x\in D_{t+1} \end{equation*}

avec \(k(x,y,a,b)\in C^p(D_{t+1}\times D_t \times \mathbb{R}^{\mu} \times \mathbb{R}^{\mu}; \mathbb{R}^{n_{t+1}}\times \mathbb{R}^{n_{t}})\) et \(\nu\) une mesure. En pratique on choisit souvent la mesure de Lebesgue. \(\Pi_t: D_{t+1}\rightarrow D_{\mu}\) est un projecteur.

Définition 13.11. Opérateur à noyau intégrale nonlinéaire.

On appelle noyau intégrale l’opérateur non linéaire l’opérateur qui transforme une fonction \(v(y)\in C^0(D_t;\mathbb{R}^{n_t})\)

\begin{equation*} \mathcal{K}(v)(x)=\int k(x,y, v(\Pi_t(x)),v(y) )v(y) d\nu(y), \quad \forall x\in D_{t+1} \end{equation*}

avec \(k(x,y,a,b)\in C^p(D_{t+1}\times D_t \times \mathbb{R}^{n_{t}} \times \mathbb{R}^{n_{t}};\mathbb{R}^{n_{t+1}}\times \mathbb{R}^{n_{t}})\) et \(\nu\) une mesure. En pratique on choisit souvent la mesure de Lebesgue. \(\Pi_t: D_{t+1}\rightarrow D_t\) est un projecteur.

Maintenant ces définitions introduites on va définir la couche principale de ces réseaux d’apprentissage d’opérateur. L’idée est de combiner un noyau intégral et une fonction linéaire classique d’avant d’intégrer une nonlinearité. Cet opérateur intégral à noyau va permettre a priori de mieux capturer la nonlocalité du problème.

Définition 13.12. Couche d’opérateur à noyau intégral.

On appelle une couche de noyau intégrale: une fonction qui transforme une fonction \(v_t(x)\) en une fonction \(v_{t+1}(x)\) au point \(x\) de la forme:

\begin{equation*} v_{t+1}(x) = \sigma_{t+1}\left( W_t v(\pi_t(x))+ b(x) + \mathcal{K}^t(v)(x) \right) \end{equation*}

avec \(\mathcal{K}^t\) un opérateur intégral à noyau dépendant d’un noyau \(k_t\) et \(W_t \in \mathcal{M}_{d_{t+1},d_t}(\mathbb{R})\) une matrice de poids.

Si on prend pas de noyau donc \(\mathcal{K}^t(v)(x)\) on voit qu’on se retrouve avec quelque chose qui s’approche d’un réseau totalement connecté ou l’entrée une fonction spatiale \(v(x)\) au lieu d’être des données discrètes. C’est le point clé de cette théorie. Évidemment tout cela en pratique sera évalué des points, mais l’enjeu est de rendre ses opérations indépendantes de la discrétisation (nombre de points, uniforme ou non etc).

Définition 13.13. Réseau de type opérateur.

Un réseau de type opérateur est un réseau de neurones composé des couches suivantes

une couche d’extrapolation \(E\) qui transforme la fonction:

\begin{equation*} \bs{\mu}(x): D_{\mu} \rightarrow \mathbb{R}^{d_{\mu}} \end{equation*}

en une fonction

\begin{equation*} v_0(x): D_{\mu} \rightarrow \mathbb{R}^{d_{v_0}} \end{equation*}

avec \(d_{v_0}>d_{\mu}\) tel que \(E(\bs{\mu}(x))=E(\bs{\mu})(x)\text{.}\)
\(K\) couches d’opérateur à noyau intégral
une couche de projection \(P\) qui transforme la fonction:

\begin{equation*} v_K(x): D_K \rightarrow \mathbb{R}^{d_{v_K}} \end{equation*}

en une fonction

\begin{equation*} u(x): D \rightarrow \mathbb{R}^{d} \end{equation*}

avec \(d_{v_K}>d\) tel que \(P(v_K(x))=P(v_K)(x)\)

La couche d’extrapolation est fait pour plonger les données dans un espace plus grand en espérant que la nolocalité sera plus facile à capturer. C’est la même idée que dans la régression à noyau ou on plonge les données en grande dimension avec des fonctions de redescription pour simplifier la non-linéarité. Ensuite on enchaîne les couches qui vont capturer la nonlocalité et la non-linéarité. Et la projection nous permet donc de revenir à l’espace voulu. On va maintenant détailler comme fonction ses couches.

On se donne le problème:

\begin{equation*} -\partial_x( a(x)\partial_x u(x))=f(x) \end{equation*}

Un opérateur neural serait de la forme:

\begin{equation*} G_{\theta}^{+}(f(x),a(x))\rightarrow u(x) \end{equation*}

La première couche, celle d’extrapolation, va donc transformer les deux fonctions \(f(x),a(x)\) en \(d_1\) fonctions \((v_1(x),....v_{d_1}(x))\text{.}\) Pour cela on va utiliser un MPC. On va donc obtenir comme première couche d’extrapolation:

\begin{equation*} [(v_1(x),....v_{d_1}(x))]= W [f(x),a(x)]+ b \end{equation*}

avec \(W\in \mathcal{M}_{d_1,2}(\mathbb{R})\) et \(b\in \mathbb{R}^{d_1}\) et les suivantes sont données par:

\begin{equation*} [(v_1(x),....v_{d_{L+1}}(x))]= W [(v_1(x),....v_{d_l}(x))]+ b \end{equation*}

avec \(W\in \mathcal{M}_{d_{l+1},d_{l}}(\mathbb{R})\) et \(b\in \mathbb{R}^{d_{l+1}}\text{.}\)

Avant d’introduire différent type d’opérateur neuraux on va essayer de les caractériser en pratique. La théorie introduite si dessous travaille sur des espaces de fonctions. En pratique lors de l’entrainement on va devoir discretiser les fonctions d’entrée et de sorties. Lorsqu’on parle de réseau qui vont travailler sur des espace de fonctions, ce que l’ont recherche en pratiquer ce sont des réseaux qui sont invariants par changement de discretisation des entrées et des sorties. On entend par la que

Condition minimiale:les résultats du réseau doivent être en gros invariant par changement de résolution
Condition plus forte si possible les résultats réseau doivent être en gros invariant par changement de distribution et de résolution.

Dans les deux cas on se donne une résolution minimale. En effet on peut supposer qu’il faut quand même que le gros de la fonction soit capter par la discrétisation. On peut essayer de formaliser un petit peu cela. On note \(\boldsymbol{\mu}(t,x)\) les paramètres de l’EDP. TOOO DOO a revoir avec le formalisme Mishra.

On peut supposer que notre solution \(u(t,x)\) va être approchée par le processus suivant:

\begin{equation*} u(t,x)\approx \circ f_{\theta} \circ P_{N}( \boldsymbol{\mu}(t,x)) \end{equation*}

sur un ensemble de point \((t,x)\text{.}\) On note \(P_{\nu,N}\) un opérateur de projection des \(\boldsymbol{\mu}(t,x)\) sur un ensemble de \(N\) points tirée selon une loi de probabilité \(\mu\) et donc qui renvoit un vecteur, \(f_{\theta}\) est le réseau. La condition minimal revient a demander que

\begin{equation*} \parallel f_{\theta} \circ P_{\mathcal{E},N_1}( \boldsymbol{\mu}(t,x))- f_{\theta} \circ P_{\mathcal{E},N_2}( \boldsymbol{\mu}(t,x)) \parallel \lt \epsilon ,\forall N_1,N_2 \quad \mbox{ tel que } N_1,N_2 \gt C \end{equation*}

avec \(\mathcal{E}\) la loi qui donne une grille équi-répartie. La condition plus forte revient à

\begin{equation*} \parallel f_{\theta} \circ P_{\mathcal{E} ,N_1}( \boldsymbol{\mu}(t,x))- f_{\theta} \circ P_{\mathcal{U},N_2}( \boldsymbol{\mu}(t,x)) \parallel \lt \epsilon ,\forall N_1,N_2,\quad \mbox{ tel que } N_2, N_2 \gt C \end{equation*}

avec \(\mathcal{U}\) la loi uniforme.

Ces conditions reviennent a demander que les points appris ne dependent pas ou peu de la discrétisation et soit donc vraiment associés aux caractéristiques de la fonction. C’est pour cela qu’on parle de réseaux qui agissent sur des fonctions entre espace de Hilbert.

Prev Top Next