Article pp.7-10 du Vol.44 n°1 (2003)

(1)

TAL. Volume 44 – n° 1/2003, pages 7 à 10

Modélisation probabiliste du langage naturel

Michèle Jardino* — Marc El-Bèze**

* CNRS, LIMSI jardino@limsi.fr

** LIA, Université d’Avignon marc.elbeze@lia.univ-avignon.fr

Les modèles de langage [CHE 93, JEL 98, MOR 98] jouent un rôle déterminant dans le fonctionnement des systèmes de traitement automatique de la langue naturelle qui sont confrontés à des problèmes réels, le plus souvent de grande taille.

C’est le cas par exemple en reconnaissance de la parole [MON 99, BIM 01], en traduction automatique ou en recherche d’information [MAN 99]. Pour que ces systèmes puissent être adaptés à des applications nouvelles ou suivre l’évolution de l’usage qui en est fait par les utilisateurs, il est indispensable que l’apprentissage des paramètres des modèles employés soit automatisé. Leur adaptation doit pouvoir se faire au préalable ou à la volée. Dans certaines applications, il n’est pas toujours possible de collecter un corpus adéquat d’un point de vue quantitatif et qualitatif. La collecte des données d’apprentissage se trouve facilitée par la quantité des données à présent en ligne via l’internet, mais dans la masse des données accessibles, il faut savoir séparer le bon grain de l’ivraie. Le premier article (Allauzen et al.) de ce numéro spécial montre que l’adaptation dynamique d’un modèle de langage pour la reconnaissance de la parole de type 4-grammes peut être réalisée avec une quantité réduite de données nouvelles issues du web (inférieure à 1 % des données initiales d’apprentissage).

Même si la taille des données d’apprentissage est très grande, elle ne permet pas la couverture de tous les n-grammes. On trouve dans la littérature beaucoup d’articles portant sur la détermination des probabilités des n-grammes non observés (voir par exemple [NEY 93] et [NEY 00]). Toutefois, on s’y pose rarement la

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(2)

8 TAL. Volume 44 – n° 1/2003

question de savoir quels sont, parmi ces n-grammes non observés, ceux qui sont réellement possibles au regard de la connaissance de la langue. Une façon originale de traiter ce problème est proposée dans le deuxième article (Langlois et al.).

Au-delà de la vieille opposition entre les approches numériques et les méthodes à base de connaissances, tout le monde s’accorde pour introduire des règles dans les modèles stochastiques ou des probabilités dans les grammaires, dans l’espoir de cumuler les avantages des deux points de vue. Dans deux des articles de cette revue, une analyse syntaxique est utilisée pour introduire de nouvelles connaissances sur les corpus de textes d’apprentissage utilisés. Ceci permet de créer des modèles bigrammes plus robustes pour la reconnaissance de l’écriture manuscrite (Perraud et al.) et de mieux estimer les probabilités des bigrammes non observés (Langlois et al.).

L’écart entre le langage engendré par une grammaire et l’ensemble des syntagmes dans la réalité a poussé quelques chercheurs à tenter de renverser la proposition en dérivant la grammaire à partir des observations. C’est ainsi que, dans le dernier article, Gamallo et al. utilisent des statistiques pour résoudre les ambiguïtés d’une grammaire initiale.

Présentation des articles

L’article d’Alexandre Allauzen et Jean-Luc Gauvain, « Adaptation automatique du modèle de langage d’un système de transcription de journaux parlés », aborde la tâche de l’adaptation dynamique des modèles de langage, tâche visant à garantir que la couverture du vocabulaire ne diminue pas avec le temps. Pour cela, des pages web de sites journalistiques qui fournissent les données d’actualité, sont mises à contribution pour prendre en compte, en particulier, les nouveaux acteurs qui font l’actualité et les néologismes dont les journalistes sont si friands. De cette façon, la réactualisation du vocabulaire de l’application colle autant que faire se peut à certaines fluctuations de la langue.

L’article de David Langlois, Armelle Brun, Kamel Smaïli et Jean-Paul Haton,

« Evénements impossibles en modélisation stochastique du langage », apporte une réponse originale à une critique que le point de vue linguistique adresse assez souvent aux modèles de langage probabilistes. En effet, ces modèles assurent une couverture totale des n-grammes, et affectent des probabilités faibles mais non nulles à des événements impossibles. Dans cet article, les auteurs proposent de recenser une partie de ces événements impossibles (successions de deux mots), au moyen de règles syntaxiques, phonologiques mais également par des méthodes statistiques. Les modèles de langage 2-grammes qui en résultent aboutissent à de meilleures performances sous certaines conditions.

Le troisième article utilise des modèles de langage pour un autre type d’application. Il s’agit de l’article de Freddy Perraud, Emmanuel Morin, Christian

(3)

Editorial 9

Viard-Gaudin et Pierre-Michel Lallican intitulé « Modèles n-grammes et n-classes pour la reconnaissance de l’écriture manuscrite en ligne ». Les auteurs emploient des méthodes classiques du domaine pour créer des modèles de langage efficaces et robustes pour cette tâche. Ils observent en particulier que ces différents modèles (dont certains incluent des connaissances syntaxiques) améliorent sensiblement la reconnaissance des mots écrits.

Le dernier article « Learning subcategorisation information to model a grammar with co-restrictions » montre comment la construction automatique de classes syntaxiques et sémantiques permet d’améliorer les performances d’un analyseur syntaxique. Pablo Gamallo, Alexandre Agustini et Gabriel P. Lopes utilisent des statistiques sur un corpus pour regrouper des mots selon leur position syntaxique, ces mots sont ensuite regroupés dans des classes généralisant les relations binaires observées. Ainsi, sont réduites de nombreuses ambiguïtés que la grammaire initiale ne pouvait résoudre.

En dehors de l’élaboration de modèles efficaces (ici pour la reconnaissance de la parole et pour l’écriture manuscrite) ces quatre articles renforcent les éléments d’une preuve qui se solidifie de contribution en contribution. Les méthodes statistiques que d’aucuns ont parfois qualifiées d’aveugles ou de brutales savent également mettre en jeu une analyse fine de la langue. On peut ainsi suivre l’évolution du vocabulaire journalistique au fil des jours ou encore découvrir automatiquement des classes sémantiques induites par des règles de corestrictions syntaxiques.

Bibliographie

[BIM 01] Bimbot F., El-Bèze M., Igounet S., Jardino M., Smaili K., Zitouni I., “An alternative scheme for perplexity estimation and its assessment for the evaluation of language models”, Computer Speech and Language, vol. 15, n° 1, p. 1-13, 2001.

[CHE 93] Cherniak E., “Statistical Language Learning”, MIT Press, 1993.

[JEL 98] Jelinek F., “Statistical Methods for Speech Recognition”, MIT Press, 1998.

[MAN 99] Manning C.D., Schütze H., “Foundations of Statistical Natural Language Processing”, MIT Press, 1999.

[MON 99] Montacié C., Indexation et interface Homme-Machine. Reconnaissance d’un signal vocal, Habilitation à diriger des recherches, soutenue au LIP6, 14 janvier, 1999, 164 p.

[MOR 98] Mori R. (de), “Spoken dialogues with computers”, 1998, Academic Press, 1998.

[NEY 94] Ney H., “On structuring probabilistic dependencies in stochastic language modeling”, Computer Speech and Language, 8, p. 1-38, 1994.

[NEY 00] Martin S.C., Ney H., Hamacher C., “Maximum entropy language modelling and the smoothing problem”, IEEE Trans. on Speech and Language Processing, 8, 5, p. 626-632.

(4)

10 TAL. Volume 44 – n° 1/2003

Nous tenons à remercier le comité de rédaction de la revue TAL et le comité de lecture spécifique à ce numéro pour leurs commentaires sur les articles soumis à cette publication.

Membres du comité de lecture spécifique

− Gilles Adda, LIMSI (France)

− Jérôme Bellegarda, Apple (USA)

− Pierre Dupont, UCL (Belgique)

− Fréderic Béchet, ATT (USA) et LIA (France)

− Fréderic Bimbot, IRISA (France)

− Colin de la Higuera, EURISE (France)

− Frederic Jelinek, JHU (USA)

− Eric Gaussier, XeroX (France)

− Rémi Gilleron, LIFL (France)

− Renato de Mori, LIA (France)

− Herman Ney, RWTH Aix (Allemagne)

− Martin Rajman, EPFL (Suisse)

− Sophie Rosset, LIMSI (France)

− Kamel Smaïli, LORIA (France)

− Enrique Vidal, ITI (Espagne)

− Claire Waast, IBM (France)