• Aucun résultat trouvé

Les travaux en reconnaissance automatique de la parole

2 PARTIE II – THÉORIE

2.2 CHAPITRE 2 – PROSODIE ET DÉMARCATION DES UNITÉS LEXICALES

2.2.3 Les travaux en reconnaissance automatique de la parole

des recherches en reconnaissance automatique de la parole développées au CLIPS- IMAG59 et à l‟ICP60 dans les années 90 (Caillaud, 1996; Caillaud et al., 1993; Caillaud et

al., 1998; Munteanu, 1996; Munteanu et al., 1997). Elles sont succinctement résumées dans cette section.

MICRO (Modélisation Informatique de la Cognition en Reconnaissance de l'Oral) est un projet de recherche en compréhension automatique de la parole inspiré des théories cognitives, duquel est née une architecture logicielle permettant d‟aboutir à un système robuste de traitement de la parole. L‟architecture de ce système, modulaire et interactive, est donnée dans la Figure 10 (Munteanu, 1996).

Figure 10 : Architecture du système MICRO

signal

Parole

Acoustique

filtrage

Fusion

syntaxe

catégories

accès au lexique

phonèmes

Frontières

intonation

Linguistique

Dialogue

Voie globale

traits

Voie Analytique noyaux vocaliques

reconnaissance

sémantique

Phonétique

Pseudo- syllabes

prosodie du mot

Prosodie

Avec : Rectangles bleus (sombre): modules; Rectangles oranges (clair): agents du module; Ellipses jaunes: éléments traités.

59 Communication Langagière: Interaction Personne-Système, Institut de Mathématiques Appliquées de

Grenoble.

MICRO dispose d‟un module dédié au traitement de la prosodie (module « Prosodie »), chargé de détecter les noyaux vocaliques, de localiser les frontières lexicales et syntagmatiques probables, et de modéliser l'intonation. L‟hypothèse sous- jacente à l‟existence de ce module est que la prosodie reflète des phénomènes lexicaux, syntaxiques, sémantiques et pragmatiques du discours, et que l‟information qu‟elle véhicule est suffisante pour offrir des points d'ancrage, nécessaires à la création d'hypothèses de segmentation lexicale lors du traitement linguistique. Dans MICRO, l'agent « prosodie du mot » assure cette fonctionnalité en fournissant des informations sur la localisation la plus probable des frontières de mots, ainsi que sur leur catégorie morphosyntaxique (mots outils ou mots de contenu). Cette tâche est définie comme un problème de classification de syllabes, utilisant en entrée la durée des syllabes et leur f0 et intensité moyennes, mesurées par l'agent « noyaux vocaliques » du module prosodique. L‟estimation est effectuée à partir de portions de signal de 3 syllabes et porte sur la syllabe centrale de l'échantillon. Elle se base donc sur l'utilisation de 12 valeurs (avec un supplément éventuel d'information si une pause discursive est présente entre 2 de ces 3 syllabes). L'agent « noyaux vocaliques » attribue au noyau vocalique de la syllabe centrale l'une des 8 catégories issues du croisement complet entre type de mot (2 modalités : mot grammatical (G) vs. mot de contenu (L)) et localisation de la syllabe dans le mot (4 modalités : début (D), non-début non-fin (M), fin de mot plurisyllabique (F), mot monosyllabique ()), soient DG, MG, LG, G, DL, ML, FL, L.

L'agent « prosodie du mot » met en œuvre l'algorithme « PmBc » (Caillaud, 1996; Munteanu, 1996). Il s‟agit d‟une heuristique de recherche produisant et corrigeant ses propres règles de classification (généralisations successives à partir d'exemples)61. Ses

performances de classification62, testées sur un corpus de parole lue63 sont données dans

le Tableau 5.

61 Les règles sont de type "IF f0(n) 0.35 AND E(n + 1) 0.59 AND d(n - 1) 0.13 AND d(n) 0.18 THEN G". Pour plus de détails sur le fonctionnement du système, se reporter à Caillaud, Munteanu et col., "Prosodic knowledge acquisition for lexical access improvement", Communication and cognition. Artificial Intelligence. The Journal for the integrated study of AI cognitive science and applied epistemology, 1998, 15-3, pp 255-278, ainsi qu'aux thèses de doctorat de Caillaud (Bertrand Caillaud, Apprentissage de connaissances prosodiques pour la reconnaissance automatique de la parole, Institut national polytechnique de Grenoble, 1996) et de Munteanu (Paul Munteanu, Extraction de connaissances dans les bases de données Parole: apport de l'apprentissage symbolique, Institut national polytechnique de Grenoble, 1996).

62 Taux de détection: [Nombre d'exemples de la catégorie correctement classés] / [Nombre total

d'exemples présentés de cette catégorie]

Taux de fiabilité de la détection: [Nombre d'exemples de la catégorie correctement classés] / [(Nombre d'exemples de la catégorie correctement classés) + (Nombre d'éléments classés par erreur dans la catégorie considérée)]

Tableau 5 : Performances de classification de l‟algorithme PmBc (taux en %)64

Détection Fiabilité Certitude

DL

16,56 60,63 10,04

ML

9,29 65,83 6,12

FL

45,50 73,58 33,48

L

11,40 60,50 6,90

G

51,59 73,58 37,96

Moy

26,87 66,82 18,90 Remarque :

DG et FG renfermaient trop peu d‟items pour autoriser un apprentissage de règles, tandis que MG ne renfermait aucun item. Ces 3 catégories ne sont donc pas renseignées dans le Tableau 5.

Le Tableau 6 présente les moyennes de détection, de fiabilité et de certitude de 3 algorithmes classificateurs (PmBc, ID3, NOPT - repris du travail de thèse de (Munteanu, 1996)) testés sur le corpus précédemment présenté, selon la même procédure.

Tableau 6 : Performance moyenne des 3 algorithmes dans la catégorisation des syllabes Performance

moyenne des 3 algorithmes par catégorie de syllabe (%)

Détection Fiabilité Certitude

DL 24.08 56.29 13.64 ML 11.18 45.41 5.90 FL 53.70 66.56 35.45 L 16.85 53.85 8.95 G 57.73 69.18 39.86 Moyenne 32.71 58.26 20.76

Les performances sont du même ordre de grandeur que celles de l‟algorithme PmBc. Avec un taux moyen de 33% de détection correcte et une fiabilité moyenne de 58%, l‟information prosodique a permis de catégoriser en moyenne 1 syllabe sur 5 avec certitude.

63 1591 items extraits de la base de données LABIS de BDSONS (Descout, Serignat, Cervantes, & Carré, 1986) Les items utilisés dans le test sont distribués de la manière suivante dans les catégories :

DG MG FG G DL ML FL L Total

27 0 27 556 345 141 345 150 1591

64 Deux catégories supplémentaires (début d'un mot grammatical, fin d'un mot grammatical) sont

distinguées dans l'étude, mais les résultats obtenus ne sont pas présentés (lacunaires compte tenu de la faible quantité d'items, la présente étude n'ayant par ailleurs pas porté sur ces catégories).

Dans le cadre de ce corpus, les résultats montrent que les monosyllabes grammaticaux correspondent à la catégorie la mieux identifiée et présentent le meilleur taux de fiabilité, immédiatement suivie des fins de plurisyllabes lexicaux. Ce sont ensuite les débuts de plurisyllabes lexicaux, tandis que monosyllabes lexicaux et milieux de plurisyllabes lexicaux présentent des taux de reconnaissance et de fiabilité faibles. On aurait donc la meilleure détection pour les mots outil et pour les frontières de mots de contenu plurisyllabiques.

En dépit de performances de détection ne dépassant pas 60% (G), le procédé s'avère suffisant selon les auteurs pour améliorer de façon très significative les taux de reconnaissance des mots par le système, grâce à la réduction qu'il permet du nombre d'hypothèses de segmentations lexicales erronées. Les auteurs précisent qu‟aucune amélioration des taux de classification prosodique des syllabes n'est remarquée avec une augmentation de la précision de l'analyse (nombre de sous-catégories supérieur).

Une seconde étude (Caillaud, 1996; Munteanu, 1996) a porté sur l'exploration des performances de classification de syllabes à partir de l‟information prosodique par un linguiste expert, dans le but de découvrir des règles de classification nouvelles ou plus performantes et d'améliorer les algorithmes existant. La procédure de classification est similaire à celle utilisée avec les algorithmes (excepté le format de présentation des données (graphique), et la normalisation des données (par rapport à la valeur maximale atteinte pour chaque paramètre dans la production du locuteur considéré, ces valeurs étant donc exprimées en %)). Le test porte sur une quarantaine d'exemples, et les résultats sont présentés dans le Tableau 7.

Tableau 7 : Présentation des performances de classification des syllabes par un linguiste expert Décidé Présenté DL FL L G Total présentation DL 5 1 2 4 12 FL 4 9 4 0 17 L 0 3 0 2 5 G 1 1 0 8 10 Total décision 10 14 6 14

Détection Fiabilité Certitude

DL 41,67 50,00 20,83

FL 52,94 64,29 34,03

L 0,00 0,00 0,00

G 80,00 57,14 45,71

En dépit du faible nombre d'items utilisés dans cette évaluation, on retrouve une performance comparable à celle obtenue avec un algorithme : les monosyllabes grammaticaux sont les mieux identifiés, suivis des fins de plurisyllabes lexicaux puis des débuts de plurisyllabes lexicaux. Les monosyllabes lexicaux seraient mal reconnus (peu d'items présentés, toutefois).

Ces travaux montrent :

 La plausibilité de l‟hypothèse d‟un code prososyllabique, en rapport avec une information morphosyntaxique et topologique.

 L‟utilité de ce code prososyllabique pour guider la démarcation lexicale (amélioration des performances du système).