• Aucun résultat trouvé

1.4 Segmentation de la parole

1.4.2 Segmentation automatique de la parole

La segmentation automatique se présente comme la deuxième façon (opposée à la segmentation manuelle) de segmenter un énoncé en de petites unités acoustiques à par-tir de méthodes automatiques sans trop d’interventions manuelles. Elle se base sur les connaissances acoustico-phonétiques des unités (phonétiques ou syllabiques pour la plu-part) pour identifier des segments plus petits dans une parole continue. Elle intervient, soit à l’étiquetage, soit à la vérification et à la correction.

6. http ://julius.osdn.jp/en_index.php 7. http ://cmusphinx.sourceforge.net/ 8. http ://htk.eng.cam.ac.uk/ 9. www.praat.org 10. http ://www.loria.fr/ laprie/WinSnoori/ 11. http ://www.sppas.org/ 12. http ://www.pd.istc.cnr.it/pages/slam.htm

Deux grandes catégories de méthodes de segmentation automatique existent [15] : • les méthodes de segmentation sans contraintes linguistiques : ce sont des méthodes

de segmentation du signal de parole qui ne nécessitent pas une connaissance a priori du contenu linguistique du signal à segmenter ;

• les méthodes de segmentation avec contraintes linguistiques : ce sont des méthodes de segmentation du signal de la parole qui intègre, pour leur fonctionnement, une description linguistique du signal à segmenter.

Les méthodes de segmentation classées dans la première catégorie sont aussi appelées des méthodes non-supervisées tandis que celles de la deuxième catégorie sont appelées des méthodes supervisées compte tenu de leur mode de fonctionnement.

1.4.2.1 Segmentation sans contraintes linguistiques : non-supervisée

La segmentation Sans Contraintes Linguistiques (SCL) est effectuée indépendamment de la langue donc sans lien a priori avec les connaissances linguistiques. Elle consiste à segmenter un signal de parole à l’aide de méthodes paramétriques ou ad-hoc (mesure de stationnarité ou détection de maxima/minima/discontinuités) à partir d’informations pertinentes extraites de la représentation acoustique du signal. Elle opère sur la dynamique physique du signal pour calculer une mesures de distance entre vecteurs acoustiques ou modèles statistiques afin de détecter ou de délimiter des zones d’homogénéité spectrale (segments acoustiques du signal).

De nos jours, la plupart des méthodes de segmentation SCL sont basées sur le calcul du Zero Crossing Rate (ZCR), de l’énergie à court-terme [16, 17, 18]. Ce sont des descripteurs temporels du signal qui sont mis en exergue par la représentation acoustique et permettent de séparer des modèles acoustiques selon les distances calculées. On y retrouve aussi les descripteurs fondés sur les coefficients de prédiction linéaire (LPC), sur l’estimation de la fréquence fondamentale et sur les coefficients cepstraux à l’échelle fréquentielle de Mel (MFCC) [19]. Sans connaissances a priori de l’étiquetage du signal de parole, les méthodes de segmentation SCL ne fournissent pas un étiquetage linguistique des segments acoustiques qu’elles délimitent. Ces segments donnent néanmoins la réalité physique du signal en entrée. Dans le domaine de la reconnaissance de la parole, nous pouvons citer les méthodes de segmentation SCL [12] suivantes :

• détection de rupture de stationnarité dans le temps - cette méthode vise à dé-tecter des ruptures correspondant à des discontinuités de stationnarité. Les travaux

[20] et [21] ont exploité le fonctionnement de cette méthode pour la segmentation automatique d’un flux de parole.

• détection d’activité vocale - la détection d’activité vocale vise à localiser avec précision les zones contenant de la parole à partir des échantillons du signal de parole. Cela revient à séparer le silence de la parole dans un signal de parole. Elle se base, soit sur la comparaison des amplitudes du signal de parole avec le niveau de bruit [22], soit sur la fonction d’énergie à court-terme calculée par la somme du signal multiplié par une fonction de fenêtrage sur N trames [23].

• détection de voisement - les méthodes de détection de voisement considèrent un segment voisé, soit en calculant les valeurs de la mesure HNR (Harmonic-to-Noise Ratio) locale, de l’énergie, d’un coefficient de corrélation, soit en utilisant l’information sur le nombre de passages par zéro. Dans le premier cas, on distingue les méthodes du domaine temporel [24, 25] et les méthodes du domaine fréquentiel [26, 27]. Dans le second cas, le principe est de construire une courbe qui passe par les milieux des segments, puis de détecter les passages par zéro de cette courbe [28, 22]. • segmentation fricatif - les méthodes de segmentation fricatif/non-fricatif exploitent une statistique du nombre de passages par zéro de la dérivée du signal pour déterminer un bruit de friction. La segmentation est basée sur l’identi-fication de ce bruit [29, 30].

• segmentation par ondelettes - ce sont des méthodes qui segmentent le signal de parole à partir de son analyse temps/fréquence. On retrouve, entre autres, la segmentation par paquets d’ondelettes [31], et par ondelettes de Malvar [26]. • détection des variables spectrales - ces méthodes sont basées sur le calcul de

la fonction de variation spectrale SVF (Spectral Variation Function) définie comme une mesure de corrélation ayant pour but de localiser des changements spectraux rapides [32, 33].

Certaines de ces méthodes seront abordées et bien détaillées dans le chapitre traitant de la segmentation syllabique de la parole en Fongbe.

1.4.2.2 Segmentation avec contraintes linguistiques : supervisée

La segmentation Avec Contraintes Linguistiques (ACL) utilise une séquence de boles linguistiques du signal pour délimiter des trames acoustiques d’un énoncé. Ces sym-boles sont pour la plupart des phonèmes, syllabes ou mots et constituent la description

linguistique de l’énoncé. Les méthodes de la segmentation ACL ont pour but de dé-terminer des frontières entre unités acoustiques conformément aux différentes étiquettes pré-établies à l’étiquetage du signal. Pour une segmentation syllabique, les marques de frontières entre les unités acoustiques représentent les marques de transitions entre les syllabes constituant l’énoncé contenu dans le signal.

Comme la segmentation SCL, il existe plusieurs catégories de méthodes qui permettent une segmentation du signal de parole en se basant sur une séquence de symboles linguis-tiques contenu dans le signal. Nous pouvons citer les méthodes :

• basées sur le Dynamic Time Warping (DTW) - la segmentation par DTW produit des marques de segmentation à partir de la phonétisation connue du signal à segmenter. Elle exploite l’algorithme basé sur la programmation pour comparer le signal de parole à segmenter à un signal de référence produit par son système de synthèse de parole. L’algorithme vise à minimiser la distorsion spectrale entre les séquences de trames acoustiques des deux signaux alignés [34].

• basées sur les Modèles de Markov Cachés (MMCs) - la segmentation de la parole par les MMCs s’effectuent en deux étapes : l’apprentissage des modèles (MMC) des unités acoustiques et le décodage (SCL ou ACL) ou l’alignement [35, 36]. • basées les réseaux de neurones - la segmentation par les réseaux de neurones, comme la précédente, est basée sur l’emploi de modèles pour déterminer les frontières entre unités acoustiques des signaux de la parole. La segmentation est effectuée en procédant d’abord à une estimation des paramètres des modèles d’apprentissage du corpus et ensuite à un alignement entre la séquence des trames du signal à segmenter et la séquence des modèles associés au contenu linguistique de l’énoncé. Pour ce cas, nous pouvons citer le travail de Vorstermans et al. [37] qui est basé sur l’utilisation des réseaux de neurones pour estimer les probabilités a posteriori des marques de frontières phonétiques et des classes phonétiques larges de la langue.

1.5 Reconnaissance automatique de la parole

Dans une chaîne de traitement automatique de la parole, l’étape qui suit la segmenta-tion de la parole est la reconnaissance de la parole. La reconnaissance permet d’extraire les informations lexicales contenues dans des segments de parole obtenus à la segmentation. Dans cette section, nous décrivons les principes et modules de traitements d’un Système de Reconnaissance de la Parole (SRP) en précisant les algorithmes utilisés pour chaque méthode de reconnaissance.