Formalisme à base de DRT - Génération de phrases multilingues par apprentissage automatique de

4.2 Proposition

4.2.1 Formalisme à base de DRT

4.2.3 Exemple . . . 58

4.3 Système de Génération Automatique de Texte à base deCorpus de Phrases Modèles . . . 60

4.3.1 Description du système de génération de texte proposé . . . 61

4.4 Conclusion . . . 64

Le chapitre1nous a conduit à identifier dans la littérature les trois composants dits

consensuelsd’une architecture de système de GAT. Nous avons également pu observer que la hiérarchisation de ces trois composants étaient communément réalisée au cœur d’une architecture de type pipeline. Dans le chapitre 2 nous avons vu comment l’ar-chitecture dominante de génération de texte exploite des composants linguistiques à base de grammaires pour produire la forme de surface d’une phrase d’après une Inten-tion de CommunicaInten-tion. Dans le chapitre3nous avons montré que plusieurs alternatives sont proposées pour compléter les composants linguistiques à base de grammaire par des approches à base de méthodes statistiques. Nous avons observé que ces méthodes statistiques exploitent le plus souvent des modèles de langage n-grammes, ce qui les rapprochent d’autres familles applicatives du TAL telles que la Traduction Automa-tique (TA) ou encore le Reconnaissance AutomaAutoma-tique de la Parole (RAP). Nous avons précisé que certains systèmes de GAT tentaient d’exploiter des ressources lexicales ou ontologiques apprises au besoin par méthode statistique, pour enrichir le processus de génération. Nous avons souligné qu’aucun système de GAT entièrement statistique n’existait. Nous avons vu que, parfois, les composants grammaticaux des générateurs peuvent se réduire à une forme rudimentaire, par exemple en produisant des phrases

dont la qualité de surface serait dégradée et améliorée à posteriori par approche statis-tique. Mais globalement aucun système de GAT présenté jusqu’ici ne se dispense d’un composant de production de phrase reposant sur un minimum de règles de produc-tions grammaticales écrites par un expert humain. Par ailleurs, nous avons pu remar-quer que les systèmes à base de patrons décrits dans le chapitre1, bien que plus répan-dus et anciens, ont un statut à part. On aura remarqué que le potentiel de ces systèmes n’a été que peu exploré, principalement pour la raison que 70% des générateurs décrits implémentent des méthodes de génération à base de règles difficilement compatibles avec les systèmes à base de patrons tels qu’ils sont conçus aujourd’hui.

4.1 Avantages et inconvénients des différentes approches

L’examen des différentes architectures de GAT connues et du rôle que les différentes théories linguistiques jouent dans ces architectures nous inspire les réflexions suivantes sur leur avantages et inconvénients.

Systèmes à base de patrons. Les architectures à base de patrons sont simples à déployer, peuvent être le cas échéant multilingues, mais résolvent mal des tâches de génération complexes qui impliquent des transformations intervenant au cœur de la structure de la phrase (i.e un changement de nature de mot).

Systèmespipeline incluant des composants linguistiques à base de grammaires.

Au contraire, les systèmes à base de composants linguistiques à règles de génération grammaticales, insérés dans une architecturepipelineà trois niveaux s’adaptent parti-culièrement bien au changement de nature d’un constituant de la phrase (tel que le temps d’un verbe ou le genre d’un mot), grâce à la souplesse de leur module de réali-sation de surface. Le défaut de ces systèmes à base de règles est leur grande proximité avec la langue, qui impose d’implémenter au cœur même du programme de génération des règles de production et de transformation difficilement adaptables dans un autre langage (gestion des temps, de morphologie, adaptation selon les genres, etc.).

Systèmes pipelineincluant des composants linguistiques à base de statistiques. Le systèmes statistiques se heurtent à un double problème : les phénomènes d’explo-sion combinatoires rencontrés dès qu’il est question de produire des phrases d’après un modèle de langage, et le manque de solutions disponibles pour guider la construction de phrases d’après ce mêmemodèle de langage(ML). Tout semble montrer que le trop grand éloignement entre la réalité sémantique du choix lexical et la forme du ML bride ces systèmes. Finalement les concepteurs de systèmes statistiques sont contraints d’hy-brider leurs applications avec des systèmes à base de règles, ce qui en limite le potentiel puisque la partie statistique du système est restreinte à un traitement correctif mineur de la surface des phrases.

4.2. Proposition

4.2 Proposition

Deux grands courants de pensée se heurtent lorsqu’il s’agit de modéliser les struc-tures d’une langue d’après ses constituants élémentaires. L’approche chomskienne his-torique¹ (qui prévaut dans les systèmes de GAT à base de règles) décrit la langue comme un système infini et non dénombrable, et non modélisable par des approches statistiques, dans laquelle la syntaxe prime sur le sens.

D’autres auteurs, inspirés par Davidson, considèrent à l’opposé que la structure sé-mantique d’une phrase prime sur sa syntaxe et peut aider à créer un formalisme uni-versel du langage. La pensée de Davidson sur la théorie sémantique est développée sur la base d’une conception holistique²de la compréhension linguistique³. Selon lui, proposer une théorie du sens pour un langage revient à développer une théorie qui produirait, pour n’importe quelle phrase existante ou potentielle du langage en ques-tion, un théorème qui décrit ce qu’elle signifie. Ainsi, une théorie du sens de l’anglais, qui serait donnée en français, pourrait expliquer que le sens de la phrase en anglais

snow is white, correspond en français à la neige est blanche. Le sens, car-actériserait donc la structure profonde de la phrase, devenue abstraite et universelle (pour une espèce parlante donnée) et reléguant la syntaxe au second plan, celui d’un ensemble de mécanismes de production dédiés à la formation de surface de la phrase, destinée à n’être plus qu’un véhicule du sens, une interface de communication. Suivant Davidson, nous avons envisagé un système de GAT qui chercherait pour exprimer une IC une phrase déjà connue, par exemple observée dans un corpus.

4.2.1 Formalisme à base de DRT

Ceci revient à insérer dans une architecturepipelineun composant de génération de surface qui utiliserait des modèles de phrases appris sur un corpus et représentées avec un formalisme logique d’inspiration davidsonienne. On aura pas à proprement parler reproduit dans le système de GAT le raisonnement logique qui conduit à la formation d’une phrase au sens davidsonien, mais plutôt simulé ce mécanisme en transformant, par une approche pragmatique, des phrases existantes en patrons réutilisables, décrits par une formule logique. Cette approche est explorée sous l’angle du raisonnement à base de cas (CBR) dont un état de l’art détaillé à été présenté dans (Lamontagne et La-palme,2002). L’idée du CBR est d’exploiter une méthodologie très proche de celle que nous proposons non pas appliquée à la production textuelle, mais plutôt à la recherche et à l’extraction d’information depuis des phrases en combinant des formules séman-tiques avec des méthodes statisséman-tiques. Notre idée est que l’existence de très grand cor-pus (Wikipédia, projet Gutemberg, pages Web), conjuguée à la disponibilité d’outil de

1. Nous croyons utile de préciser historiquecar au cours des deux dernières décennies, l’approche chomskyenne a été profondément transformée, y compris par son auteur. Ces transformations ne nous semblent pas encore totalement intégrées dans le TAL en général et la GAT en particulier (Fitch et al.,

2005;Chomsky,2005;Hauser et al.,2002).

2. Qui relève du holisme, considérant l’objet comme constituant d’un tout. 3. LireTruth and Meaning, 1967.

traitement automatique des langues (en particulier d’étiquetage et d’analyse lexicale et sémantique), rend aujourd’hui envisageable l’idée que des phrases pré-existantes puis-sent suffire à répondre au besoin de génération. Par exemple, nous postulons que les 27 millions de phrases de Wikipédia en français ou les 90 millions de phrases de Wikipédia en Anglais pourraient suffire à représenter une proportion importante desIntentions de

communicationcontenues dans cette encyclopédie. Nous nous appuyons pour

dévelop-per cette proposition sur laThéorie de la représentation du discours (Discourse Representa-tion Theory, DRT)(Kamp,1988). La DRT est devenue un nom générique pour englober toute les formes d’interprétations dynamiques du langage naturel. Elle est exploitée dans le cadre de la tâche d’analyse sémantique et fait l’objet d’un intérêt croissant dans ce cadre (Bos,2008;Jan van Eijck, 2005) notamment en raison de son potentiel de de-scription du contenu sémantique d’une phrase, selon un formalisme très proche de la théorie davidsonienne. Elle fût étudiée en GAT par (Gagnon et Lapalme,1996a). Con-sidérons dans le cadre de la logique des prédicats un langage L. Ce langage prévoit deux variables :

– uqui est une description sémantique exprimée enlogique de prédicats

– pqui est une phrase syntaxiquement correcte et un prédicat :

– Squi définit la relation sémantique entreuet p

∀

∃

{

(

p,u

)}

(4.1)

On applique dansLla formule4.1. Soit pour toute phrasepcontenue dansL, il existe une représentation sémantique formelleu. Étant donné les objectifs que nous avons ici, on peut s’interroger sur le rapport entre phrase (au sens linguistique) et proposition (au sens logique).

Dans le document Génération de phrases multilingues par apprentissage automatique de modèles de phrases (Page 54-57)