Article pp.185-189 du Vol.43 n°2 (2002)

(1)

Rubrique préparée par Denis Maurel

LI (Laboratoire d’informatique de l’Université de Tours) maurel@univ-tours.fr

Robustness in language and speech technology, Edited by Jean-Claude Junka et Gertjan Van Noord, Kluwer Academic Publishers, Dordrecht, 2001 par Henri Madec

Université de Franche-Comté Henri.madec@univ-fcomte.fr

La nécessité pour les systèmes de reconnaissance automatique de la parole (RAP) d’être robustes s’impose. En laboratoire, c’est assez facile, traiter les communications orales quotidiennes, c’est autre chose. Un discours peut être troublé par un bruit extérieur, déformé du fait de variations inter/intra locuteurs.

Les systèmes de RAP doivent donner de bons résultats, quelles que soient les perturbations. Depuis la reconnaissance des phones, des phonèmes, des mots et des phrases, jusqu’à la compréhension, on doit disposer de techniques robustes.

L’ouvrage édité par Junka et Van Noord rassemble des articles d’experts sur la robustesse dans deux des composantes des systèmes : les reconnaisseurs de parole et les analyseurs syntaxiques de parole.

1. Robustesse dans les reconnaisseurs de parole

L’article de Johan De Veth, Bert Cranen et Louis Boves traite de la robustesse dans la reconnaissance des phones en environnement bruité. Retrouver le signal non altéré produit par l’émetteur est nécessaire en phase d’apprentissage et en phase de test. D’abord, il faut supprimer les perturbations dues aux micros et aux canaux de transmission. Chaque micro a une sensibilité différente aux fréquences et à la

(2)

direction des sons. Il introduit des effets linéaires et des effets non linéaires.

L’auteur discute d’abord les différentes techniques mises au point pour traiter les effets de filtrage linéaire dus au micro et au canal de transmission : les techniques de normalisation du canal puis les techniques de filtrage des traits retenus sur l’enregistrement. Trois techniques sont présentées (RASTA Filtering, Ceptrum Mean Subtraction, Phase Corrected) et comparées. Le problème est de déformer le moins possible les valeurs spectrales, le signal de parole, les mots prononcés.

Ensuite c’est la question des bruits extérieurs différents : une voiture sur une autoroute, un hall de gare ou une chambre d’hôtel. Un bruit de fond connu peut être soustrait du bruit total (Spectral Subtraction). La modélisation de bruits permet d’y retrouver celui qui est le plus proche (Predicative Model Combination). Mais que faire si le bruit n’est pas connu, s’il y a une combinaison de bruits, si le bruit varie ? La Missing Feature Theory utilise les passages non altérés pour retrouver le contenu des passages altérés, si on sait détecter les passages altérés. De nombreux chercheurs ont proposé d’autres approches (Huber, 1981 ; Kharin, 1996). On peut retrouver les vecteurs émis dans les vecteurs altérés en se servant des différences avec les probabilités contenues dans un HMM appris. Enfin, dans l’un et l’autre domaine, l’article montre l’interdépendance entre les modèles, le choix des paramètres de représentation et le calcul de la distance spectrale au cœur de tous les problèmes de la RAP.

L’article de Daniel Tapias traite de la compensation, c’est-à-dire la différence entre le modèle appris et le test, quant aux variations inter/intra individuelles : différences culturelles, dialectales perturbant durée, intonation, construction des phrases, vocabulaire, mais encore défauts de prononciation, fatigue, rhumes, etc.

Plusieurs technologies existent. D’abord, on a la technique fondée sur l’apprentissage du locuteur. La méthode des clusters s’appuie sur le calcul d’un ensemble de différentes bases de référence et, en phase de test, le système choisit la base qui correspond au locuteur. On peut utiliser une méthode de type transformation. Le système calcule une nouvelle base apprise à partir des données du locuteur. On peut utiliser une méthode d’estimation bayésienne. Ensuite, on trouve les techniques de normalisation du locuteur, rapprochant le test de la base apprise. La difficulté est de trouver une formule de normalisation pour tout locuteur.

On modélise le conduit vocal (VTLN, Vocal Track Lengh Normalisation), ou on recalcule les formants (FEN, Formants Estimation Normalisation). Peu de succès ont été obtenus ainsi. Enfin, on a l’apprentissage adapté au locuteur. On intègre la normalisation au cours du processus d’estimation acoustique en tentant de réduire l’effet du locuteur sur la base apprise. Le modèle acoustique obtenu est dit compact et en phase de test une transformation de type MLLR est appliquée.

Le chapitre écrit par J.R. Bellegarda demande comment réduire la distance entre le modèle statistique de la langue (SLM, Statistical Language Model), et celui du test. Les AEF ne s’étant révélés efficaces que pour de petits domaines, on utilise pour de larges domaines et les tâches complexes, des bigrammes et des trigrammes extraits de corpus. On a fixé différents critères. La couverture et l’estimation de la

(3)

probabilité d’une forme dans la langue sont essentielles. Plus on place de contraintes sur les corpus, meilleurs seront les résultats, avec trop de contraintes ils seront non productifs. Le but est une bonne estimation de la présence du mot dans le contexte traité. Il faut prendre garde aux bigrammes très rares dans les corpus énormes, différencier les fréquences très faibles entre elles, ne pas avoir à manipuler des corpus énormes en des temps très courts, tenir compte des langues compositionnelles (l’allemand), fortement flexionnelles (le français). On doit aussi utiliser des techniques de lissage pour obtenir une estimation robuste : technique de l’entropie maximum, constitution de classes auxquelles on pourra se référer pour estimer la fréquence d’une forme donnée. Mais les bigrammes ne permettent pas de traiter les effets à distance. La modification de la taille des fenêtres est une solution : parsage par sous-arbres, ou par automates à états finis pour retrouver les liens entre des mots peu distants. Dans le cas de phrase ou de paragraphe, on fonctionne avec des triggers et des règles : si un mot donné est présent, on doit s’attendre à trouver un autre mot donné à une distance donnée. On utilise aussi la sémantique latente.

Mais peut-on associer fréquence générale et présence d’une structure dans un texte donné ? On exploite enfin les connaissances dérivées des connaissances des tests pour modifier la base de connaissance apprise. On utilise pour ce faire des techniques comme le CMLM (Cache Memory Language Model).

L’article de P.A. Heeman et J.E. Allen traite un problème d’énonciation, l’autocorrection qui disloque la phrase, et entrave l’analyse syntaxique. Ce phénomène touche 10 % des formes et 54 % des tours de parole dans le corpus de référence : TRAINS. On élimine habituellement ces phénomènes, alors qu’ils doivent être explicitement modélisés et taggés dans la phase d’apprentissage du corpus. Donc les contractions seront étiquetées comme des mots simples, les troncations, les réparations (recommencement, modification, abréviation), les remplisseurs (euh, euh…), avec des marques spéciales. On définit un modèle d’apprentissage probabiliste traditionnel basé sur l’étiquetage. On peut ainsi tagger sans problème tout nouveau texte, ainsi localiser les points à réparer et calculer leur extension (respect des groupes syntaxiques, des bornes et des structures mises en causes dans les différents types de réparations). On rectifie alors après avoir établi une correspondance entre les éléments à corriger et les éléments corrigeant. Le système traite aussi l’intonation. Les tests sur corpus donnent des résultats encourageants.

2. Les traitements syntaxiques robustes

L’analyse syntaxique de l’oral est nécessaire en RAP. L’article de M. Mohri et M.-J. Nederhof propose un algorithme qui s’applique à toute grammaire indépendante du contexte (CFG) et la compile en un AEF (automate à états finis).

On obtient un outil extrêmement rapide tout à fait adapté à une utilisation en temps réel pour faire de la RAP. Pour ce faire, on constitue une grammaire fortement régulière sur les règles de la CFG sans emboîtement. Dans une telle grammaire, les

(4)

règles de chaque ensemble M de non-terminaux mutuellement récursifs sont toutes linéaires à G ou linéaire à D. (Dans le cas de CFG avec des poids associés aux règles, on peut obtenir un AEF pondéré équivalent.) La grammaire obtenue contient au moins un nouveau non-terminal pour tout non-terminal de la grammaire d’entrée.

Différentes expérimentations présentées montrent l’intérêt de cette technologie. Un autre article de Mohri expose les principes algorithmiques d’une bibliothèque de grammaires (GRM, General Grammar Library) à base de règles de réécriture dépendantes du contexte compilées en transducteurs à états finis, de grammaires de règles de dépendance contextuelle pondérées pouvant être transformées en transducteurs pondérés, ainsi que quelques autres outils.

L’article de J.P Chanod propose de prendre en compte les accidents morphologiques dans le cas de grammaires avec règles d’unification. On traite des problèmes comme : « mon adorable chatte, *mon chatte, mon chèvre (fromage de chèvre), un cinq tonnes, le France s’appelle le Norway, Le premier et dernier chapitre… ». L’auteur envisage comme solution des parsers robustes. La première technique (PLNLP) est de type constructiviste. L’analyse prend les deux premiers éléments et attend la suite pour voir s’il n’y a pas une règle qui permet de créer un groupe. La règle porte sur un ensemble plus vaste que précédemment. Ainsi, l’absence d’un sujet est tolérée et n’est pas bloquante. En cas d’échec, une deuxième passe a lieu, assouplissant les contraintes. En cas de passages multiples, on hiérarchise les analyses obtenues. Dans la seconde technologie, une approche réductionniste (ENGCG, English Contraint Grammar) est utilisée. Comme on ne peut pas donner toutes les structures, on va se contenter de calculer les structures qui sont impossibles. Le calcul consistera à élaguer les branches impossibles en se servant des contraintes. Une technologie mêlant les deux approches est envisagée.

Ces grammaires sont plus proches des technologies utilisant les POS plutôt que les grammaires formelles.

Dans l’article de Van Noord, une autre technique de traitement syntaxique est utilisée : les graphes lexicaux. On construit pour représenter un domaine, des graphes possédant une quantité considérable de chemins. Pour reconnaître une phrase donnée dans le graphe, il faudra réduire l’espace de recherche. S’il y a plusieurs chemins, il faudra des heuristiques pour choisir le bon. Mais il n’est pas sûr que ce soit celui-là qui sera reconnu. Et si aucun chemin n’est reconnu, ce qui risque d’être fréquemment le cas dans la langue parlée, la solution consiste à parser partiellement la phrase donnée et à trouver le plus court chemin dans le graphe construit. Ceci est obtenu à partir de paramètres acoustiques, de N-grams et d’autres heuristiques. Une évaluation du système est proposée et commentée.

Le dernier article, celui de C. Penstein Rosé et A. Lavie, se demande quelles doivent être les caractéristiques des parsers qui traitent de l’oral, si l’on prend en compte trois paramètres essentiels de la RAP. D’abord, l’efficacité d’un parser qui dépend de sa flexibilité, la façon par laquelle il traite les accidents, déformations, et déviations de la langue. Ensuite la manière par laquelle il parcourt l’espace de recherche pour élaguer l’arbre et retenir le meilleur chemin. Enfin, comment se fait

(5)

le choix des solutions retenues étant donné la flexibilité du parser. Pour explorer ces directions, les auteurs cherchent à voir comment s’équilibrent efficacité et flexibilité dans le cas de deux parsers fondés sur un formalisme de type context free avec unification : le GLR, Generalized Left-Right (bottom-up) de Tomita et le LCFlex, Left Corner Flexible (Rosé). Ce dernier saute des mots, fait des insertions. Le LCFlex, avec flexibilité, contrôlé par un algorithme de type beam search (retenir à chaque étape du parcours d’un graphe seulement les chemins fortement probables) est le mécanisme le plus efficace avec un coût de calcul acceptable. Il s’avère meilleur que tous les autres plus complexes pour traiter de l’insertion de catégories lexicales. Mais d’autres possibilités sont à envisager.

Ces articles extrêmement denses proposent des solutions pour constituer des technologies robustes en RAP et posent les bases et les contraintes d’un nouveau domaine du TAL. Chacun est accompagné des formules et des calculs mathématiques nécessaires, souvent d’algorithmes informatiques, de références de travaux déjà réalisés sur les points abordés et possède à la fin une solide bibliographie.