• Aucun résultat trouvé

CHAPITRE 2 : ÉTAT DE L’ART

2.4 Classification des plosives

2.4 Classification des plosives

Une classification des plosives est une information intéressante dans le cas d’un traitement ciblé par lieu d’articulation ou par phonème. Certaines méthodes s’appuient sur un découpage phonémique de la parole, d’autres sur une segmentation préliminaire précise des plosives, et enfin certaines se contentent de l’instant de transition fermeture-éclatement pour extraire les caractéristiques nécessaires à la classification.

La plupart des techniques s’appuient sur des caractéristiques acoustiques et phonétiques. La méthode présentée en [11] utilise des réseaux de neurones entrainés et testés sur le découpage phonétique de TIMIT, et obtient environ 90% réussite. Une autre méthode [12] estime les formants du modèle LPC grâce à MUSIC et à ESPRIT puis utilise les six premiers formants et leurs propriétés comme caractéristiques. La recherche de caractéristiques est faite sur des segments de 35 ms.

Les sous-parties suivantes présentent en détail trois méthodes utilisant respectivement des caractéristiques acoustiques, des segmentations variables, et une application aux plosives dites aspirées indo aryennes.

2.4.1 Classification par caractéristiques acoustiques et phonétiques

La méthode décrite dans [13] est une combinaison de système expert et d’analyse statistique. Elle utilise les caractéristiques suivantes :

 Transitions des formants et spectre de l’éclatement : l’importance de ces caractéristiques est controversé, elles sont importantes pour trouver le lieu d’articulation, mais ne seraient pas significatives pour la décision sur le voisement.

 Amplitude de l’éclatement : Une étude décrite dans [14] a prouvé que l’amplitude était plus faible pour un lieu d’articulation labial que pour un lieu d’articulation vélaire ou alvéolaire. Ceci serait d’autant plus vrai pour les plosives non-voisées. Une caractéristique intéressante, mais qui sert surtout à conforter l’information fournie par la première caractéristique présentée.

 Durée et voisement : Voice-onset Time (VOT) moyen plus long pour les non-voisées. Le pré-voisement quant à lui serait une caractéristique suffisante mais non nécessaire à la détection.

L’extraction de ces caractéristiques se base sur une segmentation par phonèmes. Ensuite un processus de décision intervient pour déterminer s’il s’agit d’une plosive, d’une fricative ou d’une consonne sonnante. Ensuite concernant les plosives, un processus détermine s’il y a du voisement et détermine le lieu d’articulation. Ces informations permettent de décider si une plosive est présente.

Pour détecter le voisement, trois caractéristiques sont utilisées : le voisement durant la fermeture (pré voisement), le VOT, et la durée de la fermeture. Les résultats présentés dans [13] montrent une précision de 96% sur un corpus de 1200 plosives. Ces résultats montrent également que la

22 CHAPITRE 2 : ÉTAT DE L’ART

durée de fermeture joue un rôle indirect très important (le pourcentage tombe à 90% lorsque cette donnée n’est pas utilisée).

Pour déterminer le lieu d’articulation, une séparation préalable des consonnes battues est effectuée (94% de réussite), puis une collection de caractéristiques permet de statuer sur le lieu d’articulation :

 La fréquence de l’éclatement

 Le second formant de la voyelle suivante  Le maximum normalisé de la pente spectrale  La proéminence fréquentielle de l’éclatement

 Les transitions des formants avant et après l’occlusion  Une détection du voisement (similaire à celle déjà faite)

La fréquence de l’éclatement est la caractéristique la plus importante pour la détection du lieu d’articulation. Cependant cette caractéristique dépend beaucoup du contexte, c’est pourquoi elle n’est pas la seule utilisée.

Appliqué à la base TIMIT, cette méthode obtient un score de 96% pour la décision du voisement des plosives, de 90% pour le lieu articulation, et de 86% pour la classification individuelle finale des plosives.

2.4.2 Détection et classification basée sur un découpage phonémique

L’article [15] aborde le problème de la détection des plosives sous plusieurs angles. Les caractéristiques extraites du signal sont entre autres l’énergie dans certaines bandes importantes, l’énergie des enveloppes d'autres bandes, et la fréquence et la largeur de bande des quatre premiers formants. Ces caractéristiques sont ensuite utilisées pour classer les plosives, et plusieurs configurations de classes sont testées :

 Deux classes : Plosives et non-plosives (ce qui revient à une détection simple)  Trois classes : Plosives voisées, plosives non-voisées, et non-plosives

 Sept classes : Une pour chaque plosive, et les non-plosives

Ce processus est appliqué de deux manières différentes sur TIMIT, premièrement en considérant des segments de 10 ms, puis en utilisant la segmentation par phonèmes de TIMIT sans considérer les étiquettes. Cette technique n’est pas très performante pour les plosives voisées, et repose sur la segmentation de TIMIT, ce qui fait que la segmentation phonétique effectuée en amont est indépendante mais impacte directement les performances. Les résultats indiquent de meilleures performances de classification lorsque les segments sont de durée fixe pour un nombre de caractéristiques observées faibles, mais la classification basée sur le découpage phonémique de TIMIT est améliorée si on augmente le nombre de caractéristiques (à environ 20) et présente une matrice de confusion plus équilibrée.

2.4 Classification des plosives 23

2.4.3 Détection des plosives aspirées (Indo-Aryen)

Les plosives aspirées sont très présentes dans les langues Indiques/Indo-Aryennes. Pour des applications de reconnaissance de parole, il est donc important de pouvoir les distinguer par rapport aux plosives non aspirées. L’article [16] vise donc la détection d’aspiration dans les plosives de la langue ‘Marathi’, qu’elles soient voisées ou non, par le biais de différentes caractéristiques acoustiques (On rappelle que le VOT est une caractéristique importante de cette distinction). Les caractéristiques utilisées sont :

 Le Voice-onset time (VOT)

 Caractéristiques fréquentielles : les deux premiers formants et leurs pentes spectrales  L’index de synchronisation : représente la présence d’une composante haute fréquence liée

à l’aspiration

 Les puissances et pentes de certaines bandes de fréquence : des indicateurs de tendance sifflante ou brutale de la voix

 RSB (SNR) : Analyse cepstrale du taux d’enrouement (ou de vieillissement) Harmonic-to- Noise-Ratio (HNR)

24 CHAPITRE 2 : ÉTAT DE L’ART

Documents relatifs