Segmentation vidéo et regroupement - Contribution expérimentale

Partie II Contribution expérimentale

6.5 Segmentation vidéo et regroupement

comme LLE, Isomap où les Laplacien Eigenmaps pour effectuer les projections.

6.5 Segmentation vidéo et regroupement

Quand l’algorithme traite un flux vidéo, le regroupement spectral temporel détecte les chan- gements de plans dans la séquence d’images. Les segments ainsi obtenus peuvent être regroupés pour constituer des catégories homogènes. Dans ce cas nous ne connaissons pas le nombre de catégories/classes présentées dans le document et on essaie de les découvrir automatiquement.

Nous utilisons une métrique d’évaluation de la segmentation qui ne prend pas en compte les images de transition entre plans, donc les segments détectés comme « transitoires » (qui suivent le même principe de variabilité décrit dans la segmentation de parole) sont écartés pendant le calcul de la précision du système. Cela signifie que l’on peut trouver des « trous » dans le plan de montage chronologique de la séquence résultante. La segmentation temporelle est évaluée avec la métrique définie pour le projet ARGOS [Jol07] et les résultats sont présentés dans le tableau6.5.

TAB. 6.5 – Précision de la segmentation en plans pour différentes émissions de la base de

données ARGOS.

Émission Durée Précision INAO1 35 min 55 %

INA02 35 min 61 % SFR01 30 min 58 % INA06 35 min 62 %

Pour l’étape de regroupement on choisit d’abord une image représentative de chaque segment. Nous prenons celle qui se trouve au milieu du segment et qui est appelée désormais « image-clé ». Ensuite, nous appliquons, en prenant toutes les images-clés retrouvées, l’algorithme de regroupement spectral proposé par [San05]. Il s’agit d’une version de l’algorithme standard [Ng01] où les vecteurs propres de la matrice d’affinité ne sont pas normalisés et où la métrique euclidienne pour effectuer le regroupement final par k-means est remplacée par une métrique de Mahalanobis. Ces modifications permettent de découvrir le nombre de clusters pré- sents dans le regroupement, car cette version du k-means détecte la présence des données dans les axes orthogonaux de la représentation de faible dimensionnalité donnée par le regroupement spectral. Un exemple de cette représentation est montré par la figure6.13.

Une fois que l’on a attribué un cluster à chaque image-clé on le généralise à tout son segment, et on fusionne tous les segments appartenant au même groupe. De cette manière nous

construisons des séquences vidéo homogènes. Des exemples de ces séquences sont « l’isole- ment » du présentateur du journal dans un seul segment vidéo ou la construction d’un segment avec toutes les cartes géographiques montrées au long du journal. Sur la figure6.14sont visua- lisés des sujets trouvés dans un journal de télévision.

6.6. Conclusion

6.6 Conclusion

Dans ce chapitre nous présentons l’algorithme de regroupement temporel, qui est une modi- fication de l’algorithme spectral classique. Cette nouvelle version est plus adaptée au traitement des séquences de paramètres temporels. Il s’agit d’un algorithme non supervisé, utilisé pour segmenter les unités stables des suites d’entrée.

Dans le cas des séquences de parole, nous présentons une approche originale pour l’identification et l’étiquetage des segments, à partir d’une analyse Kernel PCA et un regroupement par la méthode des k-means. De cette manière, on classe grossièrement les segments de parole en : silence, consonne ou voyelle.

Nous comparons la procédure proposée par rapport à trois systèmes de référence et nous montrons que le résultat de la segmentation automatique et du lissage est équivalent à l’étique- tage manuel. Un post-traitement des segments consonantiques, utilisant Isomap et le regroupement spectral classique, permet de les étiqueter approximativement en « consonnes voisées » et « consonnes non voisées ». Des applications d’extraction d’information de ce type sont utiles aux tâches qui vont de l’analyse prosodique à l’identification de locuteurs.

L’étiquetage SCV peut être utilisé pour aligner les projections de faible dimensionnalité des séquences de parole. Malheureusement, seules trois dimensions ont pu être identifiées et les modélisations des projections obtenues par GMM ne sont pas encore comparables à celles obtenues avec les 15 coefficients cepstraux d’origine.

Si l’on travaille avec des suites d’images, la segmentation est suivie par une variante du regroupement spectral réalisée avec les images-clés des segments. Le résultat est la décomposition des émissions TV en sujets homogènes.

(a)

(b)

(c)

FIG. 6.11 – Histogrammes des six premières coordonnées de la projection Isomap d’une sé- quence de parole. (a) Silences. (b) Consonnes. (c)Voyelles.

6.6. Conclusion

FIG. 6.12 – Projections alignées des séquences de parole du corpus ANITA. La couleur des vecteurs montre leur appartenance à un groupe phonétique SCV.

FIG. 6.13 – Graphe 3D des vecteurs propres représentant les images-clés d’une émission dans

un espace de regroupement. Chaque image-clé est associé à un segment vidéo.

FIG. 6.14 – Résultats d’une segmentation et d’un regroupement vidéo. Les segments vidéo de caractéristiques similaires sont groupés pour construire des histoires homogènes.

Chapitre 7

Analyse automatique d’une base de

données acoustique

Sommaire

7.1 Introduction . . . 169

7.2 État actuel de l’analyse automatique de l’information audio . . . 170

7.3 Système de base KL : modélisation de séquences audio par GMM et MDS . . . 170

7.4 Discrimination parole/musique . . . 172

7.5 Identification de langues . . . 172

7.6 Regroupement des locuteurs . . . 173

7.6.1 Système KL . . . 174

7.6.1.1 Description . . . 174

7.6.1.2 Analyse non supervisée . . . 175

7.6.1.3 Analyse supervisée . . . 176

7.6.2 Système KL-CV : Modélisation différenciée consonnes-voyelles de séquences audio par GMM et MDS . . . 176

7.6.2.1 Description . . . 176

7.6.2.2 Analyse non supervisée . . . 178

7.6.2.3 Analyse supervisée . . . 178

7.6.3 Système SV : Modélisation des séquences audio par supervec- teurs GMM et MDS . . . 181

7.6.3.1 Description . . . 181

7.6.3.2 Analyse non supervisée . . . 182

7.6.3.3 Analyse supervisée . . . 182

7.1. Introduction

7.1 Introduction

Les collections de données audio sont en constante croissance et nécessitent des procédures automatiques pour structurer leur contenu [Zha98]. Ces études conduisent à définir des mesures de similarité entre séquences de vecteurs acoustiques : chaque vecteur correspond à l’analyse d’une trame de signal de l’ordre de la centiseconde. Pour faire face à la dimension élevée de l’espace de représentation des trames et à la longueur variable des suites de vecteurs, il est d’usage de représenter une séquence de parole par les paramètres d’une distribution probabiliste, le plus souvent un mélange de lois gaussiennes (GMM). La dimension de l’espace de représentation de la suite est alors fixée, mais elle reste élevée. La réduction de la dimensionnalité s’avère nécessaire pour ne traiter que l’information utile et atteindre des signatures fiables, comme dans tout problème d’analyse des données. Une très forte réduction peut également aider à visualiser une collection de séquences et à relier a posteriori des regroupements trouvés automatiquement à des connaissances que l’on avait a priori. Au cours de notre étude nous recherchons si une réduction très forte de la dimensionnalité peut avoir un intérêt en traitement automatique de la parole pour guider un traitement ultérieur.

Vu la complexité des données acoustiques, la plupart des approches proposées sont spé- cifiques, composées d’architectures parallèles et issues de la fusion d’une multitude de para- mètres. Il y a un manque de méthodes générales d’exploration et de classification des contenus audio.

Dans ce chapitre nous allons présenter une démarche permettant de transformer des sé- quences audio de longueur variable en vecteurs de taille fixe. Cette transformation nous permet d’explorer les contenus des bases de données acoustiques. D’abord, on modélise les paramètres cepstraux de chaque séquence de la base de données par un GMM, ensuite, on fait l’estimation de la divergence symétrique de Kullback-Leibler entre deux GMM à l’aide d’un échantillon- nage de Monte-Carlo [Fuk90]. Ces dissimilarités statistiques sont utilisées comme entrées de l’algorithme d’échelle multidimensionnelle (MDS), qui produit un système de représentation de faible dimensionnalité pour chaque GMM donc pour chaque séquence d’entrée. Dans ces espaces, les vecteurs-séquences sont traités avec des algorithmes à noyau et des méthodes de regroupement. On montre les résultats obtenus sur trois bases de données : musique/parole, locuteurs et langues. Certaines variantes du système original sont aussi développées.

7.2 État actuel de l’analyse automatique de l’information au-

Dans le document Méthodes spectrales pour le traitement automatique de documents audio (Page 185-194)