Les modèles de langage n -grammes - Composants autonomes de génération de surface

2.2 Composants autonomes de génération de surface

3.1.1 Les modèles de langage n -grammes

de la GAT . . . 45

3.2 Éléments statistiques de générateurs de textes. . . 46

3.3 Utilisation de corpus dans la génération de texte . . . 50

3.4 Conclusion . . . 52

Nous avons souligné en étudiant les architectures existantes (1.3.4) qu’il existait une approche dominante de la GAT. Cette approche prévoit une architecture de typepipeline

à trois composants dits tactiques. Cescomposants tactiquesmettent en forme une Inten-tion de CommunicaInten-tion avec un Gestionnaire de l’intention de communication, un planifi-cateur de phrase et un Générateur de formes de surface qui produit la phrase terminale. Des méthodes logiques assurent la préparation de l’Intention de Communication avant sa transformation en phrase par un Générateur de forme de surfaceà base de règles in-spirées d’une théorie linguistique. On observe que tous ces éléments d’un générateur de texte pourraient à un moment ou un autre faire appel à une méthode statistique, ex-ploiter des applications d’extraction d’information ou d’apprentissage appliquées à un corpus. Ces méthodes ont démontré dans de nombreux domaines du TAL (étiquetage, compréhension sémantique ou syntaxique) leur aptitude à gérer de manière perfor-mante des tâches complexes aussi bien que les systèmes à base de règles. Cependant comme le rappelle (Belz,2006),«sur les 30 systèmes et modules [de GAT] implémentés depuis ou après 2000, listés sur le site de référence de la GAT¹, seulement 5 sont munis de composants statistiques (et six autres mettent en œuvre des méthodes qui d’une manière ou d’une autre font appel à des corpus)». L’auteure en conclut qu’il est possible que l’une des raisons prob-ables de ce désintérêt pour les systèmes de GAT probabilistes soit «[que] la plupart des

techniques de GAT reposant sur des méthodes statistiques sont coûteuses par nature, exigeant que les ensembles d’alternatives [phrastiques] à produire soient intégralement générés avant de pouvoir être [exploités] par un modèle statistique». Elle envisage qu’il faille considérer plus simplement que«les méthodes de génération de texte à base de statistiques n’ont peut être pas encore démontrées leur capacité à produire des sorties d’une qualité suffisante».

La question de la nature générative² d’un alphabet ou d’un lexique est explorée méthodiquement depuis Leibnitz et, dans le cadre particulier de la linguistique com-putationnelle, par Shannon dans saThéorie mathématique de la communication(Shannon,

1948). Il fût le premier à tenter - dans une perspective d’amélioration des communica-tions - d’exploiter les capacités d’un système combinatoire probabilisé de l’alphabet ou d’un lexique à modéliser des séquences de lettres (pour reproduire des mots) ou des séquences de mots (pour reproduire des phrases). Dès les années 50, et sans capacité de calcul, Shannon en utilisant les processus markoviens et des probabilités de tran-sitions d’un mot à un autre manuellement recensées dans un corpus, était en mesure de produire aléatoirement des phrases syntaxiquement correctes. Il utilisait pour cela un lexique et une approximation de deuxième ordre (c’est-à-dire prenant en compte la probabilité d’apparition d’un mot d’après son prédécesseur) comme dans cet exemple qu’il fournit en préambule de l’article énonçant sa théorie :

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

Shannon observa qu’avec cette méthode,«la ressemblance avec un texte en anglais or-dinaire s’améliore

[

en fonction du degré de complexité

][...]

et que les exemples

[

ainsi produits

]

offrent une relativement bonne structure, au delà de la portée

[

cad du degré d’ordre NdEC

]

qui a été prise en compte pour leur construction». En d’autres termes, Shannon démon-trait la capacité de la propriété de Markov à modéliser le langage et en particulier sa structure syntaxique par le simple inventaire des probabilités de co-occurrences des objets textuels qui le composent. A savoir qu’un processus stochastique dont la dis-tribution conditionnelle de probabilité des états futurs, étant donné les états passés et l’état présent, ne dépend en fait que de l’état présent et non pas des états passés (ab-sence de «mémoire»). Ces exemples illustrent à quel point on cherche à savoir depuis longtemps si les systèmes statistiques ont un réel potentiel de génération.

Les méthodes de GAT existantes reposant sur des approches statistiques exploitent deux grandes familles de techniques. Elles utilisent des observations statistiques faites sur des corpus pour guider des systèmes de génération de texte pendant la phase con-ceptuelle (Varges et Mellish,2001;White,2004). Ou bien elles recourent à des modèlesn -grammes pour générer une forme de surface plus riche ou plus appropriée postérieure-ment et en complépostérieure-ment d’un processus de GAT déjà réalisé (Knight et Hatzivassiloglou,

2. Parnature générativenous entendons, la capacité d’un ensemble d’éléments à produire par associa-tion un système d’ordre supérieur complet. Ainsi, la combinaison des lettres d’un alphabet est capable de générer la totalité des mots d’une langue, de même que des combinaisons lexicales peuvent reproduire toutes les phrases d’un langage.

3.1. Principes théoriques de base des approches statistiques

1995;Langkilde et Knight,1998b;Bangalore et Rambow,2000b). Il s’agit ici plus d’une étape de réécriture et de correction grammaticale que de production de la forme de sur-face (on reviendra plus loin sur ce point en décrivant les logiciels de la famille HALO-GEN). On ajoutera - bien qu’il s’agisse d’une problématique différente de celle traitée dans ce chapitre - que les ressources lexicales et conceptuelles qui peuvent être im-pliquées dans un système de GAT sont elles aussi concernées par des méthodes d’ap-prentissage statistique parfois proches de celles impliquées dans la génération. Men-tionnons pour l’exhaustivité une approche intermédiaire utilisant un processus d’ex-traction d’information faiblement numérique mais très original (Kosseim et al.,2001) élaboré en vue de répondre automatiquement à des emails.

Nous ajoutons que des recherches parallèles ont envisagé la possibilité que le pro-cessus de génération puisse être considéré comme un problème de satisfaction de con-traintes, étudié par les méthodes de laRecherche Opérationnelle. Ce point de vue mérite d’être mentionné ici puisqu’il considère le caractère hautement combinatoire du lan-gage comme un problème mathématique à résoudre. Des précurseurs en ce domaine ont été le système PAULINE (Hovy,1988) qui utilise pour satisfaire les contraintes des objectifs rhétoriques ou encore ICONOCLAST (Power,2000) qui autorisait l’utilisateur du système de GAT à régler finement des combinaisons de contraintes. On mention-nera plus récemment les travaux de (Hankash,2009) qui explorent cette approche. Ici, en plus de la définition de contraintes pour la cohérence du texte, est formulé un en-semble de contraintes qui permet de façonner l’IC³en fonction des buts communicatifs afin de favoriser leur réalisation. Il est également proposé une solution au problème de la complexité de calcul de la génération de textes de grande taille. Nous ne nous attarderons pas sur ces approches particulières du problème de la GAT. Nous nous contenterons de noter qu’il existe une communauté de vue entre l’idée de modéliser les probabilités de co-occurences de mots dans un corpus utilisé en tant que support d’ap-prentissage et un système de GAT par contraintes qui cherche à formaliser de manière mathématique ces contraintes. On se trouve ici à un stade intermédiaire hybride entre les systèmes à base de règles et les systèmes à base de statistiques.

3.1 Principes théoriques de base des approches statistiques

Les modèles de génération statistiques font majoritairement appel à une sélection

de mots par n-grammes et à des modèles de langage. Dans un modèle n-grammes,

la probabilité P

(

w1, . . . ,wn

)

d’observer une phrase composée des mots w1, ...,wn est estimée par le produit des probabilités d’apparitions individuelles des mots contenus dans la séquence (formule3.1).

(

w_1,_n

)≈

(

w₁

)

(

)...

(

)

(3.1)

Ce modèle ditunigrammerepose sur l’hypothèse forte que dans une suite de mots, chaque mot apparaît indépendamment et qu’en conséquence, la probabilité

tion d’un mot dans une séquence denmots peut être estimée par le produit des prob-abilités d’apparition desn mots qui le précèdent, pris indépendamment. Il exploite la propriété de Markov d’ordre 1. Par extension, on peut utiliser une propriété de Markov d’ordre supérieur en estimant la probabilité d’apparition d’un mot non plus pris isolé-ment, mais lui même conditionné par les mots qui le précèdent : on utilise alors un modèlen-grammes, c’est-à-dire le plus souvent 2 (bigrammes) ou 3 mots (trigrammes).

On aura ainsi pour un modèle bigramme appliqué à une séquence denmotswla

for-mule3.2.

(

w₁, . . . ,wn

)≈

(

w₁

)

(

w2|w₁

)...

(

|

w_n−1

)

(3.2) Pour un modèle trigramme appliqué à une séquence denmots (formule3.3).

(

w1, . . . ,wn

)≈

(

)

(

w2|w1

)

(

w3|w1,2

)...

(

|

w_n−2,n−1

)

(3.3) que l’on peut généraliser pour une phrase denmotswavec une estimation par des

n-grammes de longueurn(formule3.4).

(

w₁, . . . ,w_n

)≈

∏

i=1

(

w_i

|

w_i₋₍_n₋₁₎, . . . ,w_i₋₁

)

(3.4) Les probabilités conditionnelles sont préalablement calculées dans une liste de n -grammes ordonnée par leur fréquence d’apparition et apprises depuis un corpus représen-tatif (3.5). En pratique, lemodèle de langage (ML) n-grammes est appris avec un outil du domaine public tel que SRLIM (Stolcke,2002).

(

|

w_i₋₍_n₋₁₎, . . . ,wi−1

) =

count

(

w_i₋₍_n₋₁₎, . . . ,w_i₋₁,w_i

)

count

(

w_i₋₍_n₋₁₎, . . . ,w_i−1

)

(3.5)

3.1.1 Les modèles de langagen-grammes

Le principe fonctionnel d’un composant de génération à base de méthode statistique peut donc se résumer ainsi : une représentation symbolique d’une partie d’une phrase à élaborer est produite et unmodèle de langage(ML) à base de n-grammes est exploré pour sélectionner la réalisation qui offre la meilleure probabilité d’être syntaxiquement correcte. Les méthodes à base de modèlesn-grammes ont de nombreuses propriétés ap-préciables dans un système de GAT. Elles sont en particulier robustes puisque le pro-cessus de sélection qu’elles induisent repose sur une observation statistique. Les ML

n-grammes peuvent être appris sur des corpus dédiés et donc tenir compte du champ sémantique d’un domaine d’application (par exemple les spécificités du discours ju-ridique ou du contenu encyclopédique). On considère qu’en théorie, un ML appris sur un corpus infini d’une langue donnée, est génératif pour cette langue (c’est-à-dire qu’il inventorie toute les formes possibles de la langue). En pratique, les ML sont appris sur

3.1. Principes théoriques de base des approches statistiques

des corpus finis qui correspondent à un domaine. Le texte source utilisé pour l’appren-tissage du ML devra donc être adapté au domaine applicatif recherché.

Dans le document Génération de phrases multilingues par apprentissage automatique de modèles de phrases (Page 42-46)