Visualisation de l’espace de caractéristiques

Partie II Contribution expérimentale

5.5 Visualisation de l’espace de caractéristiques

La particularité la plus remarquable des fonctions noyau est la projection de l’espace de dé- part X vers l’espace de caractéristiques F par l’application d’une transformation non-linéaire Φ. On a mentionné précédemment que ce processus dépend uniquement des produits scalaires Φ(xi)0Φ(xj) dans l’espace de caractéristiques (xi, xj ∈ X ).

En utilisant Isomap initialisé avec les distances entre points dans l’espace de caractéris- tiques (SVM-Isomap), nous obtenons une représentation en coordonnées euclidiennes de la projection Φ. Nous présentons des exemples de ce traitement dans la figure5.10, où l’ensemble

5.5. Visualisation de l’espace de caractéristiques

FIG. 5.9 – Projections spectrales et histogrammes des valeurs propres associés. Dans les pro-

jections, chaque groupe phonétique (silence, fricative, nasal, occlusive, voyelles : ou, ea, i) est identifié par une couleur. Les histogrammes ont été normalisés par rapport à la valeur propre la plus importante.

de départ est constitué de l’échantillonnage de 4 lois gaussiennes et projeté par un noyau polynomial homogène d’ordre 2, et dans la figure5.11, où on montre des ensembles jouets projetés par un noyau RBF. Dans le premier cas, la projection explicite du noyau est visualisable car les données de départ possèdent 2 dimensions et les données Φ(x) se trouvent en un espace de 3 dimensions.

Bien que la projection Φ soit d’une importance fondamentale pour les méthodes à noyau, la projection inverse (de l’espace de caractéristiques vers l’espace de départ) est aussi utile. Considérez, par exemple, l’utilisation du Kernel PCA pour le débruitage de formes : étant

FIG. 5.10 – Visualisation de l’espace des caractéristiques d’un noyau polynomial homogène

d’ordre 2. À gauche se trouvent les données d’entrée, au milieu la projection explicite et, à droite, la projection obtenue au moyen de SVM-Isomap. On constate que les deux projections sont équivalentes.

donné des échantillons bruités, Kernel PCA applique d’abord un PCA sur les données trans- formées Φ(x) et après il les projette dans le sous espace défini par les principaux vecteurs propres. Néanmoins, ces projections se trouvent dans l’espace de caractéristiques et il faut les renvoyer dans l’espace de départ pour récupérer les formes débruitées. Un autre exemple est la visualisation de la solution du regroupement au moyen des fonctions noyau. Encore un fois, il s’agit de retrouver les coordonnées euclidiennes correspondantes aux centroïdes des clusters dans l’espace de caractéristiques.

Nous pouvons donc nous servir de la projection SVM-Isomap pour visualiser la transformation non-linéaire induite par le noyau et ainsi établir les correspondances nécessaires entre les deux ensembles pour obtenir les pré-images des données Φ [Kwo03]. SVM-Isomap peut aussi nous aider à mieux comprendre les traitements effectués dans l’espace de caractéristiques (par exemple, l’emplacement de l’hyperplan séparateur de la solution SVM et les vecteurs de support) et la géométrie de cet espace.

5.6. Conclusion

FIG. 5.11 – Espace de caractéristiques d’un noyau RBF pour des ensembles connus. Le degré de la déformation dépend du paramètre σ.

5.6 Conclusion

Dans ce chapitre nous avons appliqué des algorithmes d’estimation de la dimensionnalité intrinsèque et de réduction de la dimensionnalité aux vecteurs MFCC issus des enregistrements acoustiques.

La première analyse nous permet de dire que, au lieu de 20 coefficients cepstraux, un espace de dimension mineur à 10 est nécessaire afin de caractériser effectivement la parole et la musique. L’analyse de la dimensionnalité intrinsèque nous indique aussi que la parole en condition de stress réduit d’une à deux dimensions sa variabilité par rapport à la parole spontanée.

L’étude des projections obtenues par les méthodes spectrales montre que la parole possède une structure où les vecteurs acoustiques se trouvent ordonnés selon la classe phonétique à laquelle ils appartiennent. Ces classes montrent entre elles une relation explicable par la nature de la production acoustique humaine qui les a générées.

Nous avons observé que, si à l’intérieur des suites de vecteurs acoustiques se trouvent des signaux de parole et de musique, ces classes appartiennent à la même variété mais ils possèdent des zones de variabilité différenciées pour chaque type de son.

La deuxième partie du chapitre démontre que la représentation de la parole trouvée par le regroupement spectral « sépare » les principales classes phonétiques (silences, consonnes et voyelles), une procédure qui semble plus associée à l’extraction d’information qu’à l’apprentis- sage des variétés.

Dans le chapitre suivant nous proposons certains algorithmes qui exploitent les structures de faible dimensionnalité de la parole découvertes tout au long de ce chapitre. On travaille particulièrement sur la séparation des trois grandes classes phonétiques mise en évidence par le regroupement spectral.

Chapitre 6

Regroupement spectral temporel

Sommaire

6.1 Introduction . . . 147 6.2 Regroupement spectral temporel . . . 147 6.2.1 Similarité Euclidio-Temporelle . . . 148 6.2.2 Algorithme de segmentation. . . 149 6.3 Segmentation de parole et étiquetage SCV . . . 152 6.3.1 Algorithme. . . 152 6.3.2 Analyse des segments obtenus . . . 157 6.3.3 Classification des consonnes voisées/non voisées . . . 158 6.4 Alignement des projections. . . 160 6.5 Segmentation vidéo et regroupement . . . 161 6.6 Conclusion . . . 163

6.1. Introduction

6.1 Introduction

Dans ce chapitre nous appliquons la théorie du regroupement spectral aux séquences tempo- relles (audio et vidéo). Ainsi, nous définissons une nouvelle mesure de similarité, fondée sur la distance euclidienne et la proximité temporelle entre les vecteurs. Cette métrique est utile pour adapter les matrices classiques du regroupement spectral aux séquences de vecteurs. Un des résultats de cette modification est la détection de variations abruptes de la séquence d’entrée, ce qui permet de définir une segmentation temporelle du signal.

Normalement, les algorithmes de segmentation automatique dépendent d’une certaine connais- sance du modèle statistique du signal. Les solutions existantes sont liées à des hypothèses complexes comme les modèles autorégressifs, les optimisations des séparateurs à vaste marge, la programmation dynamique, les algorithmes génétiques ou la théorie de Bayes [AO88,Dav02,

Car00].

La segmentation proposée est appelée « regroupement spectral temporel ». Il s’agit d’une méthode non supervisée, rapide et facile à mettre en œuvre.

Lorsque l’entrée de l’algorithme de segmentation est un signal de parole, nous traitons les segments résultants à l’aide du Kernel PCA pour les étiqueter avec le nom de la classe phonétique la plus proche selon leur énergie : silence, consonne ou voyelle. Quand l’entrée est une séquence de vidéo, l’algorithme détecte les changements de plans dans une suite d’images.

Dans le document Méthodes spectrales pour le traitement automatique de documents audio (Page 164-171)