Article pp.209-215 du Vol.43 n°3 (2002)

(1)

Rubrique préparée par Denis Maurel

LI (Laboratoire d’informatique de l’Université de Tours) maurel@univ-tours.fr

R. Harald Baayen, Word Frequency Distribution, Book series: Text, Speech and Language Technology, No. 18, Kluwer Academic Publishers, Dordrecht, 2001.

par Benoît Habert et Michèle Jardino LIR-LIMSI

{Benoit.Habert, Michele.Jardino}@limsi.fr

H. Baayen (désormais HB) a publié récemment, généralement en partenariat, de nombreux articles importants en statistique linguistique, sur la notion de productivité morphologique tout particulièrement [Baayen et al., 2000] [Baayen, Schreuder, 2000]¹. L’ouvrage de synthèse qu’il présente est une étude statistique approfondie des distributions des fréquences des mots. La forme même choisie vient tempérer l’austérité du propos : les sections commencent par des résumés explicites, détachés, qui permettent de saisir les enjeux, quitte à examiner plus tard, quand on le désire ou si l’on peut comprendre, les démonstrations détaillées qui suivent. De nombreux graphes, sous formes de tables ou de courbes, illustrent et étayent les modèles présentés. La bibliographie du domaine (y compris française) est commentée avec précision. HB fournit un logiciel pour Linux sous licence GPL, Lexstat, qui permet d’opérer sur ses propres données les calculs décrits dans le livre (les sous-programmes sont clairement documentés). L’interopérabilité est assurée avec R (http://cran.r-project.org/welcome.html) et Splus. Exercices et solutions figurent également.

1. La question est d’ailleurs reprise p. 154 et p. 203.

(2)

Le premier chapitre décrit les lois empiriques (Zipf et autres) qui rendent compte de la variation des fréquences de mots. Il souligne que l’augmentation en taille des données langagières utilisées n’aboutit pas forcément à une plus grande précision de l’estimation de certains paramètres (comme le montrent par exemple (p. 17) les ajustements nécessaires pour adapter les prédictions de Zipf à différentes tailles de texte). Il essaie également de montrer les conséquences d’une simplification souvent faite : les mots arriveraient « au hasard » dans les textes.

Les chapitres deux à quatre explicitent les modèles statistiques mis en œuvre pour caractériser les distributions des fréquences lexicales comme des LNRE (Large Number of Rare Events distributions) : ce sont des modèles² qui prennent en compte les très nombreux nombreux mots qui ont des probabilités d’apparition extrêmement faibles.

Le chapitre deux est consacré aux modèles non paramétriques. Après des rappels de probabilités, il présente le modèle d’urne, puis le modèle binomial et son approximation poissonienne, adaptée aux événements rares. HB, « tirant » 90 millions de mots du British National Corpus (BNC), souligne que la taille du vocabulaire continue à augmenter avec celle de l’échantillon (en revanche, plus de la moitié des types – formes ou chaînes de caractères – trouvées dans le BNC ont une fréquence relative de 0.00000001). Quand on estime les probabilités des types à partir d’un échantillon, ces probabilités par définition ont pour somme 1. Le fait que les données langagières relèvent en fait des LNRE oblige alors en quelque sort

« réserver » une masse de probabilité pour les types non encore rencontrés si l’on prend un échantillon plus large ou différent. HB présente (p. 57) une technique d’estimation (Good-Turing) des probabilités des types à partir d’un échantillon qui opère cette « épargne probabiliste ». Il montre ensuite (p. 69) les limites de l’extrapolation des probabilités pour des échantillons substantiellement plus volumineux.

Le chapitre trois entend enrichir les expressions non paramétriques du chapitre précédent avec des hypothèses paramétriques sur la structure de la distribution. Trois familles de modèles LNRE sont présentés. Ils sont tous fondés sur un paramètre libre correspondant à une taille pivot des données. L’ensemble des paramètres doit être évalué par ajustement des courbes théoriques et expérimentales. Une étude comparative sur Alice au pays des merveilles, De l’autre côté du miroir (L. Carroll également), Le chien des Baskerville (C. Doyle), La guerre des mondes (H.G. Wells) et la partie du BNC d’oral « situationnel » (lié à des contextes d’interaction bien délimités) montre en fait que le modèle optimal varie selon les textes. Le nombre de paramètres à évaluer pour chaque méthode aurait d’ailleurs pu être signalé clairement, en séparant par exemple dans le tableau de résultats 3.3 les paramètres évalués des valeurs connexes. C’est en effet un élément important de choix du modèle.

2. Introduits par Khmaladze en 1987.

(3)

Le chapitre quatre aborde les « assemblages³ » de distributions (mixture distributions) : l’hétérogénéité interne des corpus soit parce qu’ils regroupent des textes d’auteurs, de styles ou de genres distincts, soit parce que leurs mots sont de structure distincte (mots simples comme arbre/mots complexes – ou construits morphologiquement – comme arboré). HB met en évidence par exemple (p. 135) pour le néerlandais les différences de comportement fréquenciel des noms simples et des noms construits en -heid (équivalent de -ness en anglais, dans fitness, fait d’être en forme) : les premiers présentent peu d’hapax⁴ au contraire des seconds. HB raffine ensuite cette analyse (p. 145) en montrant que les deux sens du suffixe -heit (« le fait de »/rôle anaphorique) ont eux-mêmes deux distributions distinctes. Bertold Brecht faisait dire en substance à Lénine dans des pastiches d’aphorismes chinois qu’il fallait éviter de mettre de l’eau dans son vin « car il est beaucoup trop difficile de séparer après coup le vin de l’eau⁵ ». L’objectif d’HB est en quelque sorte à l’inverse : étant donné de l’eau coupée de vin(s), être capable de retrouver le(s) vin(s) et l’eau de départ. Le suffixe -ness donne ainsi lieu à des observations divergentes quand on oppose partie d’oral situationnel du BNC et partie d’écrit : des distributions distinctes sont à l’œuvre et il faut se donner les moyens de les distinguer.

Le chapitre cinq montre les limites de l’hypothèse d’une distribution aléatoire des mots, liées en particulier à la cohésion thématique ou discursive des textes et à l’arrivée « en rafales » (Lafon, 1981) des mots « pleins ». HB fournit deux techniques d’ajustement pour pallier partiellement ces limites.

Le dernier chapitre est consacré à des exemples d’applications : lien entre taille des mots et longueur de l’échantillon, rapport entre fréquence des lemmes (ou formes canoniques) et des flexions, productivité morphologique, attribution d’auteur et style.

On peut regretter que les études exhaustives réalisées ici se soient appuyées le plus souvent sur des textes de petite taille (Alice au pays des merveilles, 26 505

« mots », sert d’exemple récurrent, même si les 100 millions de mots du BNC sont aussi utilisés). Néanmoins le logiciel fourni devrait permettre de vérifier si les modèles présentés rendent également compte des fréquences des mots dans les grands corpus électroniques constituables à partir des archives disponibles (comme celles du journal Le Monde).

3. En vinification, pour certaines appellations, obtention d’un vin par mélange de cépages distincts, dans des proportions prédéfinies et/ou ajustées à la dégustation. Le rapport entre les distributions d’ensemble et les distributions sous-jacentes « assemblées » au sein d’un corpus est probablement à peu près aussi complexe que celui entre le vin obtenu et ses composants.

4. Formes de fréquence 1.

5. Me-ti Livre des retournements, L’Arche, 1968, p. 20.

(4)

Bibliographie

Baayen H.R., Schreuder R., Sproat R., “Morphology in the mental lexicon: a computational model for visual word recognition”, Lexicon Development for Speech and Language Processing, p. 267-293, Kluwer Academic Publishers, 2000, éd. Frank Van Eynde and Dafydd Gibbon, n° 12, Book series: Text, Speech and Language Technology, Dordrecht.

Baayen H.R., Schreuder R., “Towards a psychological computational model for morphological parsing”, Philosophical Transactions: Mathematical, Physical and Engineering Sciences, 2000, n° 358, p. 1281-1293.

Lafon P., « Statistiques des localisations des formes d’un texte », MOTS, 1981, n° 2, p. 157-188, Presses de la Fondation nationale des sciences politiques.

Harry Bunt, Anton Nijholt, Advances in probabilistic and other parsing technologies, Book series: Text, Speech and Language Technology, n° 16, Kluwer Academic Publishers, Dordrecht, 2001.

par Patrice Bellot

Laboratoire d’informatique d’Avignon patrice.bellot@lia.univ-avignon.fr

Le volume 16 de la série Text, Speech and Language Technology éditée par Nancy Ide et Jean Véronis chez Kluwer Academic Publishers est consacré aux dernières avancées dans le domaine des analyseurs. Ce volume est composé de douze articles dont la version originelle se trouve dans les actes de l’atelier de travail « Fifth International Workshop on Parsing Technologies (IWPT’97) » qui s’est tenu en septembre 1997 au MIT à Boston. Cette conférence était organisée par Bob Berwick et les deux éditeurs de ce volume : Harry Bunt et Anton Nijholt. Les douze papiers sélectionnés parmi les vingt-quatre présentés lors de l’atelier IWPT’97 ont été révisés par leurs auteurs avant publication dans cet ouvrage (2000).

Les deux éditeurs ont écrit le premier chapitre de ce livre. Ils y présentent très clairement les différents articles retenus. La lecture de ce chapitre est indispensable mais une introduction plus complète aurait rendu l’ouvrage facilement accessible aux non-initiés. Il aurait par exemple été appréciable de présenter quelques applications des analyseurs et d’indiquer les manières courantes de les évaluer (Marcus et al., 1993). Dans le même ordre d’idées, un glossaire aurait évité d’être obligé de chercher, parfois en vain, le chapitre susceptible de définir un acronyme employé par tel ou tel auteur. Après avoir présenté (trop) sommairement l’objectif des techniques de parsing (détection des composants porteurs de sens qui constituent des structures complexes), les auteurs insistent sur ce qui différencie un analyseur pour langage formel d’un analyseur sur des phrases en langage naturel. Ces différences permettent

(5)

d’introduire la nécessité d’employer des techniques probabilistes⁶, d’approximation (par exemple approximation d’une grammaire non contextuelle, élaboration de stratégies qui conduisent à la meilleure solution en plusieurs itérations – le chapitre 13 écrit par Helmut Schmid traite ce cas) et de sous-spécification (notamment à partir de la D-Theory : John Chen et K. Vijay-Shanker, chapitre 8, en proposent de nouveaux développements). Les éditeurs soulignent enfin l’intérêt d’intégrer des informations contextuelles et sémantiques durant l’analyse syntaxique – aspects décrits dans le chapitre 9 par E. Hektoen.

Contenant des articles de grande valeur, ce livre intéressera les chercheurs en traitement automatique du langage naturel. Il peut être être utilisé par des doctorants ou comme base pour un cours sur les techniques de parsing. Cependant, on peut regretter qu’il n’y ait pas d’introduction plus complète et que les articles n’aient pas été révisés pour être mis en relation les uns avec les autres. Comme pour quantité de compilations, de nombreuses répétitions sont présentes et les notions ne sont pas toutes introduites dans un ordre qui rendrait leur apprentissage facile. En outre, le prix très élevé de l’ouvrage (112 $ US) le rend difficilement accessible, d’autant qu’il est regrettable que de nombreuses méthodes présentées nécessitent de se procurer séparément certains articles plus récents, afin de voir décrits les résultats des expériences correspondantes.

Les lignes qui suivent présentent très brièvement les chapitres du livre.

Les cinq premiers chapitres sont consacrés aux grammaires probabilistes : – Carroll et Weir (« Encoding frequency information in lexicalized grammars ») évoquent le problème du non-déterminisme dans le processus de dérivation. Ils recensent quatre solutions au problème de l’intégration des fréquences associées aux arbres élémentaires dans des grammaires lexicalisées – plus précisément Lexicalized Tree Adjoining Grammars LTAG ; ils proposent trois techniques de lissage des probabilités puis évaluent les différentes propositions sur le Penn treebank ;

– Eisner (« Bilexical grammars and a cubic-time probabilistic parser ») introduit les grammaires bilexicales pondérées – probabilistes. Eisner détaille un algorithme en O(n³) aussi performant que ceux en O(n⁵) utilisés par exemple par Charniak (1997). Eisner a effectué plusieurs évaluations de cet algorithme mais les résultats ne sont malheureusement pas reportés dans ce chapitre (voir entre autres les actes de COLING-96). Comme pour le chapitre précédent écrit par Carroll et Weir, ce papier est très intéressant pour l’étude de la complexité des grammaires proposées ;

– Goodman (« Probabilistic Feature Grammars PFG ») présente un nouveau formalisme de grammaire probabiliste, PFG, qui combine les avantages des formalismes de Collins, Magerman ou Charniak. Une telle grammaire utilise des probabilités conditionnées suivant le contexte local (parsing en temps polynomial 6. Les techniques probabilistes ont pour objectif de trouver la structure la plus probable d’une entrée donnée et se basent sur le fait que lorsqu’il existe plusieurs possibilités de combiner des mots (ou des groupes de mots) pour former un constituant plus grand, certaines combinaisons sont plus probables que d’autres.

(6)

possible) et obtient des performances de haut niveau (en termes de rappel et de précision). De nombreuses évaluations sont fournies par J. Goodman ;

– Inui, Sornlertlamvanich, Tanaka et Tokunaga (« Probabilistic GLR Parsing ») présentent une extension du modèle LR probabiliste proposé par Briscoe et Carroll en 1993 qui permet d’obtenir des propriétés mathématiques notables absentes dans les autres modèles LR. Il faut se reporter à un article non présent dans cet ouvrage pour obtenir une évaluation du modèle proposé ;

– Manning et Carpenter (« Probabilistic parsing using left-corner language models ») introduisent un nouveau modèle de grammaire probabiliste basé sur la stratégie left-corner (Rosenkrantz & Lewis, 1970)). Les auteurs fournissent des explications très claires et précises de leur méthode qu’ils comparent à d’autres, tout en présentant de nombreuses évaluations. Ils en profitent pour montrer que le Penn Treebank associé aux mesures PARSEVAL constitue un ensemble de test relativement facile à cause de la faible profondeur des arbres et des aspects sur- générateurs ou sous-générateurs de la grammaire induite (cette constatation a été reprise par plusieurs auteurs depuis).

Les sept chapitres suivants présentent des stratégies variées pour réaliser un analyseur efficace :

– Yoon, Kim et Song (« A new parsing method for Korean using a global association table ») présentent une méthode semi-déterministe spécialement étudiée pour la langue coréenne à partir d’associations lexicales extraites d’un corpus (ces associations jouent un rôle important dans la découverte de dépendances entre les mots) ;

– Chen et Vijay-Shanker (« Towards a reduced commitment, D-Theory style TAG parser ») présentent un développement de la D-Theory⁷ destiné à être intégré dans les analyseurs de type TAG. Les auteurs n’ont pas réalisé d’implémentation ;

– Hektoen (« Probabilistic parse selection based on semantic cooccurrences ») présente une méthode (Semco) qui introduit des informations sémantiques dans le parsing (fréquences des cooccurrences d’éléments linguistiques mais aussi de formes sémantiques) pour sélectionner la structure correcte de phrases ambiguës. La méthode est basée sur les différences entre les distributions des cooccurrences dans des parsing corrects et incorrects (une estimation bayesienne est employée à profit à la place d’une estimation selon le maximum de vraisemblance). Une évaluation est présentée sur le Penn Treebank ;

– Hahn, Bröker et Neuhaus (« Let’s ParseTalk – message passing protocols for object oriented parsing ») présentent un système orienté objets (ParseTalk, lui-même intégré dans le logiciel d’acquisition de connaissances SynDiKate). Ils définissent un protocole d’échange de messages entre objets qui permet d’implémenter efficacement différentes heuristiques pour le parsing. Une évaluation est fournie sur 7. Selon la D-Theory, les ambiguïtés syntaxiques sont traitées par des arbres « sous- spécifiés » contrairement aux analyseurs TAG traditionnels qui considèrent simultanément tous les choix possibles.

(7)

41 phrases extraites d’articles de magazines allemands. L’intérêt essentiel de ce chapitre réside dans le soucis d’implémenter une méthode efficace en terme de complexité ;

– Srinivas (« Performance evaluation of supertagging for partial parsing ») présente une nouvelle application des super-tags (étiquettes qui contiennent plus d’informations qu’une étiquette classique : arbre élémentaire avec catégorie, sous- catégorie…) destinés à faciliter le travail d’un analyseur. Les évaluations fournies par l’auteur prouvent le bien fondé de cette solution pour un parsing partiel.

Les deux derniers chapitres du livres sont consacrés aux techniques d’approximation.

– Nederhof (« Regular approximation of context-free languages: a grammatical view ») montre qu’il est possible de construire une grammaire générant un langage régulier à partir de toute grammaire non contextuelle (l’étude se concentre sur ce qui rend les grammaires non régulières). Malheureusement aucune expérimentation n’a été effectuée dans ce cadre ;

– Schmid (« Parsing by successive approximation ») présente une méthode de parsing en trois étapes : parsing non contextuel, évaluation des contraintes syntaxiques puis représentation sémantique.

Bibliographie

Carroll J., Briscoe T., Sanfilippo A., « Parser evaluation: a survey and a new proposal », Actes de First International Conference on Language Resources and Evaluation (LREC’98), p. 447-454, Grenade, Espagne, 1998.

Charniak E., « Statistical parsing with a context-free grammar and word statistics », Actes de Fourteenth National Conference on Artificial Intelligence, pages 598-603, AAAI Press/MIT Press, 1997.

Marcus M.P., Santorini B., Marcinkiewicz M.A., « Building a large annotated corpus of English: the Penn treebank », Computational Linguistics, vol. 19, p. 313-330, 1993.

Rosenkrantz S.J., Lewis II P.M., « Deterministic left corner parser », Actes de IEEE 11th Annual Symposium on Switching and Automata, p. 139-152, 1970.