• Aucun résultat trouvé

Chapitre 3 - Sélection d’une meilleure base pour la détection des transitoires

3.2 Critère de sélection

3.2 Critère de sélection

Dans la description des critères de sélection de meilleures bases du chapitre précédent, le coût défini par la fonction additive M est lié à la distribution de l’énergie du signal sur les différents nœuds d’un arbre de décomposition. L’optimisation de cette fonction amène à une représentation du signal minimisant la perte d’information. Du fait de la définition même de cette fonction de coût, le choix de la meilleure base est bien adapté à des problèmes liés à la compression. Il n’en est évidemment de même pour un problème de détection. En effet, dans ce cadre, nous avons besoin d’une fonction qui choisit parmi tous les paquets d’ondelettes, ceux qui ont la capacité à mettre en évidence les changements d’événements dans les enregistrements. Or la distance de K-L a déjà été utilisée dans le passé comme mesure discriminante; en particulier pour la comparaison d’images [Kul51], [Do02], ou encore pour des problèmes de classification [Coi92].

Pour une classe donnée de signaux, en particulier pour les signaux EMG utérin, certains paquets représentent bien l’existence d’événements spécifiques comme les contractions, les ondes d’Alvarez, les mouvements actifs fœtaux etc., alors que d’autres ne représentent que du bruit. La figure 3.1 montre la décomposition d’un signal EMG utérin appartenant à la base REELSIM. Il est formé de 10 événements : 3 contractions, 3 mouvements actifs fœtaux, 2 ondes d’Alvarez et 2 ondes LDBF Ces événements ont été artificiellement reliés et bruités, avec un rapport signal sur bruit de 10 dB. Seuls les coefficients des paquets 3, 8, 6 et 14 sont représentés. Il est clair que les paquets 3 et 8 sont capables de différencier les événements de la ligne de base, alors que les paquets 6 et 14 ne donnent aucune indication sur la présence d’événements. Cet exemple illustre l’idée de choisir un ensemble de paquets pertinents pour détecter les événements existants et d’éliminer les autres. Ce qui se pose alors comme question est le choix d’un critère pour sélectionner les paquets qui traitent du problème de détection des événements, sans prendre en compte pour l’instant l’exactitude des instants des changements. La figure 3.1 montre qu’il y a une différence importante entre les distributions statistiques des coefficients sur chacun des nœuds. Dans les paquets où il n’y a pas de

distinction claire sur la présence d’événements, les distributions statistiques sont sensiblement les mêmes. On montrera que les distributions ont un caractère gaussien pour des signaux réels. Par contre on montrera que ce caractère gaussien n’est plus vérifié pour les nœuds faisant bien ressortir les événements, d’où l’idée de s’orienter vers un critère qui mette en évidence ces différences de distributions statistiques.

Figure 3.1. Décomposition en paquets d’ondelettes d’un signal EMG utérin formé de 10 événements. Les coefficients des paquets numéro 3, 8, 6 et 14 sont représentés. Axes des abscisses : nombre des points. Axes des ordonnées : Unités arbitraires.

De façon plus précise, quelle que soit la fenêtre d’observation définie dans un nœud n’exprimant que du bruit, la distribution des amplitudes (ou des énergies instantanées) de la série temporelle contenue dans la fenêtre sera du même type (gaussienne). Par contre, pour des nœuds exprimant bien la présence d’événements, la distribution liée à la série temporelle contenue dans la fenêtre dépendra de la position de cette fenêtre (selon que celle-ci contient un événement ou ne contient que du bruit). Un indicateur de distance est la distance de

Kullback-Leibler [Cov91] dx g f f g f D x

= log ) ,

( ou, lorsque les deux fonctions ne diffèrent que par leur paramètre θ :

= . ) , ( ) , ( log ) , ( )) , ( ), , ( ( dx θ x g θ x f θ x f θ X g θ X f D j i i j i (3.1)

Cette expression calcule bien la distance entre deux distributions de densités de probabilité )

, (X i

f θ et f(Xj), et met en évidence l’augmentation de distance quand les deux distributions sont différentes, alors que cette même distance est théoriquement nulle lorsque les distributions sont les mêmes. Cette propriété de la distance de Kullback Leibler va nous permettre de l’utiliser comme indicateur de la présence de ruptures dans les différents nœuds de l’arbre de décomposition.

A partir de la formulation générale de la distance de Kullback Leibler donnée par l’équation 3.1, il est possible d’envisager une estimation de cette distance à partir de séquences temporelles limitées pour lesquelles la distribution des éléments de la séquence est accessible à l’estimation.

Dans le cadre de l’étude des signaux éléctromyographiques utérins, l’estimation de cette distance, puis son utilisation dans le but de sélectionner les meilleurs paquets d’ondelettes, passe par un certain nombre d’étapes :

- Etape 1 : démontrer que la distribution des éléments d’une séquence donnée varie en fonction du contenu de la séquence. Cela revient à montrer que la distribution des coefficients d’un paquet d’ondelettes donné change selon que ce paquet représente du bruit ou un événement spécifique utile à l’étude (contractions, ondes d’Alvarez etc.). Cette étape est développée dans le paragraphe 3.3, dans lequel on montrera que les coefficients suivent une loi gaussienne généralisée pour les événements de l’EMG utérin, alors qu’ils se résument à une loi normale pour le bruit (absence d’événements dans l’enregistrement).

- Etape 2 : estimer la distance de Kullback Leibler. Une fois les densités de probabilité connues et leurs paramètres estimés, il est possible de remplacer leur expression dans l’équation 3.1, et ainsi d’obtenir une estimation de la distance de Kullback Leibler entre deux séquences comprenant ou non des événements utiles. Cette estimation est présentée dans le paragraphe 3.4.

- Etape 3 : estimer la distribution de la distance de Kullback Leibler. Ayant un outil d’estimation de la distance de Kullback Leibler entre deux séquences, l’idée est

d’utiliser à présent cet outil afin de sélectionner, parmi l’ensemble des paquets d’ondelettes décomposant un enregistrement d’EMG utérin, ceux qui mettent le mieux en évidence les événements utiles.

L’approche que nous avons utilisée prend comme base la séquence des coefficients obtenus au niveau d’un nœud de l’arbre de décomposition en paquets d’ondelettes. L’idée est de découper cette séquence en fenêtres successives de largeur suffisante pour estimer correctement les paramètres de la distribution des coefficients, mais de largeur limitée afin de pouvoir contenir soit uniquement du bruit, soit uniquement une partie d’événement utile.

Dans le cas d’un nœud ne représentant que du bruit, toutes les fenêtres représenteront le même type de séquence (bruit). Ainsi, si l’on calcule les distances de Kullback Leibler entre tous les couples de fenêtres de ce nœud, on obtiendra un ensemble de distances dont la valeur théorique est nulle.

La distribution des distances obtenues sera alors représentative de la distribution de l’estimateur de la distance de Kullback Leibler en l’absence d’événements.

Par contre, dans le cas d’un nœud représentatif de la présence d’événements, la distribution des distances obtenues devrait s’éloigner significativement de la distribution en l’absence d’événements.

Le paragraphe 3.5 est dédié à l’étude de la distribution de la distance de Kullback Leibler en l’absence d’événements. Il propose une première approche de la modélisation de cette distribution à partir d’une distribution exponentielle. Il montre ensuite qu’en présence d’événements, la distribution obtenue n’a plus rien à voir avec ce modèle exponentiel.

- Etape 4 : sélectionner la meilleure base de paquets d’ondelettes. L’étape précédente fournit un outil de discrimination entre les nœuds de l’arbre de décomposition contenant des événements et ceux ne contenant que du bruit. L’étape suiv ante consiste à utiliser une base d’apprentissage pour estimer les distributions de la distance de Kullback Leibler à chacun des nœuds de l’arbre, et à comparer la distribution obtenue à la distribution théorique en l’absence d’événements (étape 3).

Les paquets retenus seront ceux pour lesquels la distribution obtenue s’éloignera le plus de la distribution précédente.

Afin de pouvoir évaluer cette distance entre distributions aussi bien en présence qu’en l’absence de modèle, nous avons cette fois choisi d’utiliser le Dmax de Kolmogorov Smirnov (paragraphes 3.6.1 et 3.6.2).

- Etape 5 : réduire la redondance. L’arbre de décomposition est hautement redondant. La sélection de paquets pertinents à l’étape précédente peut mener à des paquets contenant la même information. La dernière étape consiste alors à éliminer les paquets redondants pour ne conserver qu’un minimum d’entre eux contenant des informations complémentaires. Cette dernière phase du processus de sélection de paquets est décrite au paragraphe 3.6.3.

3.3 Densité gaussienne généralisée pour les coefficients des

Documents relatifs