Méthodes de réduction basées sur le voisinage

Section 4.2 Méthodes de réduction basées sur le voisinage

Dans cette section on va proposer une première série de méthode qui permette de détecter une variété de basse dimension qui explique les données. L’idée des méthodes ici est de trouver une réduction qui préserve les voisinages. Si nos données sont proches au sens de la variété alors il faut préserver cela lors de la réduction. L’enjeu va donc justement de caractériser ses voisinages au sens de la variété.

Subsection 4.2.1 Méthode LLE

La méthode LLE est une méthode qui permet de plonger un nuage de point \(\left\{x_1,...x_n \right\} \in \mathbb{R}^d\) en dimension \(m\text{.}\) Pour cela on suppose que les données sont distribuées sur une sous-variété régulière de dimension \(m\) ou pouvant s’expliquer grandement par une sous-variété régulière de dimension \(m\text{.}\) La première idée est donc d’essayer de préserver les voisinages au sens de la variété, les configurations locales des données lors du plongement.

Il faut donc commencer par caractériser un voisinage au sens de la variété. Les variétés régulières sont localement homéomorphe à un espace euclidien. L’idée centrale de la méthode est simple. Si le nombre de points est suffisamment grand, on peut supposer qu’un point et ses voisins sont distribués sur un "patch" localement linéaire. Ces petits "patchs" étant supposés linéaires peuvent être on peut reconstruire un point à partir de ses voisins en utilisant une relation linéaire. En pratique ce patch peut donc être caractérisé, par exemple, par les poids de combinaisons linéaires qui relient un point et ses voisins. On suppose que le point \(x_i\) à \(K\) voisins (déterminé par un algorithme de plus proches voisins).

Dans ce cas les poids sont solutions d’un problème de minimisation:

\begin{equation} \operatorname{min}_{\mathbf{w}}E(\mathbf{w})\tag{4.6} \end{equation}

avec

\begin{equation} E(\mathbf{w})=\sum_{i=1}^{n}\left\| x_i-\sum_{j=1}^{K}w_{ij}x_j \right\|_2^2\tag{4.7} \end{equation}

et la contrainte: \(\sum_{j=1}^{K}w_{ij}=1\text{.}\)

Les poids \(w_{ij}\) sont finalement les coordonnées barycentriques du point \(x_i\text{.}\) Les coordonnées sont "purement géométriques : elles sont indépendantes de l’emplacement physique et de la dimension des sommets. dimension des données. On peut trouver plus de détails dans [1.8].

Il s’agit d’un problème de minimisation quadratique sous contrainte linéaire. On peut résoudre cela avec la méthode des multiplicateurs de Lagrange assez facilement. Les poids obtenus par cette minimisation satisfont de bonnes propriétés. Il y a une invariance par rotation, par changement d’échelle et par translation. Les deux premières sont issues du choix de \(E(\mathbf{w})\) et la dernière viens de la contrainte sur la somme des poids locaux. Ces symétries sont importantes pour capture les propriétés géométriques du voisinage. L’idée centrale est de construire une représentation dans l’espace réduit qui préserve les voinisages locaux. Ce revient a dire qu’on cherche \(\mathcal{Z}=\left\{z_1,...z_n \right\} \in \mathbb{R}^m\) qui sont les réductions des échantillons du jeu de données tel que

\begin{equation} \bar{E}(z_1,...,z_n)=\sum_{i=1}^{n}\left\| z_i-\sum_{j=1}^{K}w_{ij}z_j \right\|_2^2\tag{4.8} \end{equation}

soit minimale sous les contraintes

\begin{equation} \sum_{j=1}^{K}z_j=0, \quad \frac{1}{n}Z Z^t =I_d\tag{4.9} \end{equation}

avec \(Z\) la matrice des données de \(\mathcal{Z}\text{.}\)

On cherche donc les réductions telles que les voisinages locaux sont préservés ce qui se traduit ici par le fait que les relations linéaires entre voisins restent les mêmes. Ce problème est d’une problème de recherche de vecteur propre associé à une matrice de poids creuse. La fonction a minimiser est invariante par translation ce qui fait qu’on n’a pas une unique solution. La première contrainte est donc la pour enlever cette possibilité. Cela ne suffit pas forcément. On ajoute donc la seconde contrainte qui revient à fixer la matrice de covariance. Ces principes nous permettent d’introduire l’algorithme suivant.

Algorithm 4.12. Méthode LLE.

pour \(i \lt n\text{:}\)
- Pour chaque point du jeu de données, on calcul les voisinages
- On calcul les poids \(w_{ij}\) en minimisant la fonctionnelle (4.6) (4.7).
- On calcul les points \(z_{i}\) en minimisant la fonctionnelle (4.8) (4.9).

Maintenant on va détaillé comment résoudre le second problème de minimisation sur \(Y\text{.}\) Il s’agit d’un problème de minimisation quadratique sous contrainte quadratique.

Lemme 4.13.

\(W^T = (w_1 | \ldots | w_n) \in \mathcal{M}_{n}(\mathbb{R})\text{.}\)

Si \(Z\) est solution du problème (4.8) - (4.9)., alors \(UZ\) est encore solution pour tout \(U \in O_m(\mathbb{C})\text{.}\)
Une des solutions, est donnée par \(Z \in M_{m,n}(\mathbb{R})\) constitué des \(m\) vecteurs propres (lignes) associés aux \(m\) plus petites valeurs propres non nulles de \(M = (\text{Id}-W^T) (\text{Id}-W) \in M_n(\mathbb{R})\) (matrice creuse).

Preuve.

On commence par écrire le problème sous forme matrice et on calcul le Lagrangien

\begin{align*} \mathcal{L}(Z) \amp= \sum_{i=1}^n \left\| z_i - \sum_{j\neq i} w_{ij} z_j \right\|^2 + \Lambda :\left(\frac{1}{n} Z Z^T - \text{Id}\right) + (Z \mathrm{1})^T \mu \\ \amp = tr((Z - Z W^T)(Z - Z W^T)^T) + \Lambda :\left(\frac{1}{n} Z Z^T - \text{Id}\right) + \mathrm{1}^T Z^T \mu\\ \amp = tr(Z M Z^T) + \Lambda :\left(\frac{1}{n} Z Z^T - \text{Id}\right)+ \mathrm{1}^T Z^T \mu \end{align*}

avec \(\Lambda\) symétrique, \(M = (\text{Id}-W^T) (\text{Id}-W) \in M_n(\mathbb{R})\text{,}\) symétrique positive. Maintenant on va écrire les conditions d’optimalité:

\begin{equation*} Z M = \frac{1}{n} \Lambda Z + \mu \mathrm{1}^T,\quad \frac{1}{n} Z Z^T = \text{Id} \end{equation*}

En multipliant à droite par \(1\) et en utilisant les relations \((\text{Id}-W)\mathrm{1} = 0\) et \(Z\mathrm{1}= 0\text{,}\) on montre que \(\mu = 0\text{.}\) On a donc:

\begin{equation*} Z M = \frac{1}{n} \Lambda Z, \quad \frac{1}{n} Z Z^T = \text{Id} \end{equation*}

Notons que si \((Z, \Lambda)\) est solution alors \((UZ, U \Lambda U^T)\) est encore solution pour tout \(U \in U_m(\mathbb{R})\text{.}\) Quitte à considérer \(U\) (??) , on peut donc supposer \(\Lambda\) diagonale. Alors les \(z_i\) sont des vecteurs propres associés à \(M\) et \(\Lambda\) est composée de valeurs de propres \((\lambda_i)\) de \(M\text{.}\) Nous avons \(Z M Z^T = \Lambda\) et donc

\begin{equation*} \mathcal{L}(Z) = tr(\Lambda) = \sum_i \lambda_i. \end{equation*}

Si l’on veut minimiser \(\mathcal{L}(Z)\text{,}\) il faut donc considérer les vecteurs propres associés aux valeurs propres les plus petites.

La méthode LLE admet beaucoup de variantes. On parle par exemple de la méthode Kernel LLE qui mélange une méthode à noyau et méthode LLE, la méthode Hessian LLE qui adapte les poids de la méthode LLE en minimisant la Hessienne de la transformation que relie les points \(z_i\) aux points \(x_i\text{.}\) Pour la méthode Kernel-LLE le premier problème de minimisation est modifié et on résout (4.6) avec

\begin{equation} E(\mathbf{w})=\sum_{i=1}^{n}\left\| \phi(x_i)-\sum_{j=1}^{K}w_{ij}\phi(x_j) \right\|_2^2\tag{4.10} \end{equation}

et la contrainte: \(\sum_{j=1}^{K}w_{ij}=1\) avec

\begin{equation*} \phi(x)=\sum_{j=1}^n\alpha_i k(x,x_i) \end{equation*}

une fonction de redescription. On peut utiliser cette approche dans le cas ou le nombre de points n’est pas assez grand pour supposer que les voisins sont distribués sur un plan autour de \(x_i\text{.}\) On utilise donc, comme en régression, une fonction de redescription pour envoyer nos données dans un espace (plus grand) cette hypothèse sera plus raisonnable. On peut trouver plus de détaille dans [1.7].

Subsection 4.2.2 Méthode LTSA

La méthode LTSA (pour Local Tangent Space Alignement) et elle aussi basées sur le principe que si on a suffisamment de points autour d’un point on peut approcher l’espace par un hyperplan. Cependant la on la méthode précédente construisait juste des relations de voisinage linéaires qu’il fallait préserver ici la méthode va construire explicitement le plan tangent localement. Ensuite on pourra construire à partir de la une méthode de réduction linéaire locale.

Prev Top Next