• Aucun résultat trouvé

10.3 Méthodes d’aggrégation

10.3.1 Aggrégation des causes multiples

10.4 Implémentation. . . 133

10.4.1 Modification et automatisation de l’agrégateur de SimpleNLG. 134 10.4.2 NLGEN.Sp: Algorithme de recherche de phrases simples en

vue de l’agrégation . . . 135

10.5 Évaluation deNLGEN.Agg . . . 136

10.5.1 Méthode d’évaluation proposée . . . 136

10.6 Conclusion . . . 140

Dans ce chapitre nous décrivons un algorithme d’agrégation de proto-phrases dont la finalité est de produire une phrase support (PS)lorsque la méthode de recherche de

NLGEN.S appliquée auxCorpus de Phrases Modèles (CPM) n’a pas été en mesure de

retourner un ensemble dephrases candidates (PC)correspondant à l’Intention de Commu-nication (IC). Le processus d’agrégation consiste à assembler des phrases élémentaires (lesproto-phrases) qui chacune prise séparément correspondent à l’un des prédicats con-tenus dansIC, et ainsi à former une phrase complète neuve, correspondant exactement à l’IC d’origine. Notre objectif est d’utiliser la propriété des langages qui veut que la plupart des intentions de communications complexes puissent être réduites à un en-semble de structures de typeSujet, Verbe, Objet. Ce postulat fort repose sur des fonde-ments théoriques solides que nous inventorions dans un premier temps. Nous com-mençons par rappeler les bases de la typologie des langues et leur relation à la structure

Sujet, Verbe, Objetainsi que la prédominance de l’ordre de ces structures. Nous mettons ensuite en perspective la formeSVOavec plusieurs langues et soulignons son intérêt

dans le cadre d’un système de génération multilingue à base de corpus. Puis, nous ex-aminons les méthodes d’agrégation proposées par la littérature pour les formesSVO, observons comment ces méthodes sont implémentées dans des systèmes de GAT et terminons en décrivant notre propre implémentation d’un agrégateurSVO. Nous pro-posons pour finir une méthode originale d’évaluation de l’agrégateur que nous avons conçu, dans un contexte tri-lingue (français, anglais et espagnol).

10.1 Capacités multilingues du systèmeSVO

Dans la formeSVO, l’acteur est devant, l’action de transition au milieu et le récep-teur/subisseur ensuite. Ainsi, le verbe sépare clairement les 2 parties nominales de la phrase, à l’image d’un graphe :

sujet

relation

verbale

objet

Que l’on retrouve opportunément, pour l’application qui nous intéresse, dans le prédicat logique de premier ordre :

verbe

(

sujet,objet

)

On notera que bien que pour les langues qui adoptent une règle générale d’ordre sujet-verbe-objet, cette typologie ne s’applique pas systématiquement, en particulier à l’oral. On trouve ainsi fréquemment dans le français quotidien des phrases qui ne suivent pas l’ordreSVOtelles que :

– Il les adore.(ordre SOV)

– Les bonbons, j’adore.(ordre OSV)

À l’écrit, la transgression de la règleSVOest appréciée pour l’originalité stylistique qu’elle peut conférer à un texte, comme dans les exemples suivants :

– Le jardinier est la plus belle rose de son jardin.(Jean Genet) ((O)S) – Alors seulement Abraham le scribe se levait [...].(Marek Alter) (OSV) Selon Gilbert Lazard1, l’ordre SVO «est plus ou moins rigide selon les langues. Il est strict dans les langues sans déclinaison ou la flexion verbale (accord avec le sujet) est nulle ou réduite comme dans l’anglais, la plupart des langues scandinaves et dans une moindre mesure le français. Il est plus souple dans des langues où la flexion verbale est bien différenciée, tel l’espagnol, l’italien et l’allemand».

La linguistique cognitive2 précise que sur les 6 ordres autorisés par les permu-tations de S,V,O, il existe trois combinaisons dominantes SVO,VSO,SOV, les trois autres étant particulièrement rares. Les trois formes dominantes sont présentes dans l’allemand et le néerlandais. L’anglais ne connaît que l’ordreSVO; l’espagnol est ma-joritairement SVO (ex«El abogado escribio la carta») et n’autorise le SOV que si O est

1. Gilbert Lazard, l’Études de linguistique générale :typologie grammaticale, Peeters Publishers, 2001, page 207.

2. Nicolas Delbecque, Linguistique cognitive : comprendre comment fonctionne le langage. De Boeck Université, 2006, page 28.

10.2. Algorithme de génération par agrégation

exprimé sous forme de pronom clictique. Le français n’admet majoritairement que les ordonnancements SVO («je mange une pomme») et le SOV («il lui a fait demander») et parfois leVSO(dans le cas interrogatif tel que«manges tu une pomme ?»). On citera pour le français l’existence de structuresOVSrares telles que«Bleu est le ciel»utilisées dans certains registres (poétiques notamment).

10.2 Algorithme de génération par agrégation

La taille du Corpus de Phrases Modèles (CPM) et son adéquation au domaine

sé-mantique de l’Intention de Communication (IC) conditionne la capacité de l’algorithme

NLGEN.Sà retourner une ou plusphrases candidates (PC). La probabilité que

|

PC

| =

0

augmente à mesure que IC contient des formules de prédicats complexes ou

séman-tiquement distante de CPM. Si la probabilité de trouver dans un corpus de grande

taille une structure {sujet, verbe, complément} est relativement élevée, la tâche devient de plus en plus ardue à mesure que la structure recherchée gagne en complexité. Il faut donc envisager un mécanisme de repli qui tire partie de la probabilité élevée de trouver un ensemble des phrases courtes correspondants séparément à chacune des formules logiques contenues dans IC, pour proposer malgré tout une phrase à trans-former lorsque

|

PC

|=

0. Si nous reprenons la phrase d’illustration vue en section9.2.1:

– Jean-Baptiste de Monet est un naturaliste né le 1er Août 1744 dans le village de Bazentin-le-Petit.

nous observons que la formule logique qui lui correspond :

e

[

A

(

e,l

)∧

V

(

e,d

)∧

M

(

e,m

)]

autorise également une représentation par proto-phrases telles que : – Jean-Baptiste de Monet est un naturaliste.

– Jean-Baptiste de Monet est né le 1er Août 1744.

– Jean-Baptiste de Monet est né dans le village de Bazentin-le-Petit. Même si cette suite de phrase est à la fois syntaxiquement et sémantiquement ac-ceptable, il est évident que la répétition d’un ensemble de phrases courtes est d’une grande pauvreté stylistique. C’est d’ailleurs aussi pour répondre à ce problème de style qu’on introduit dans les systèmes de GAT classiques des mécanismes d’agrégation qui permettent de produire une phrase unique d’après plusieurs phrases courtes.

10.3 Méthodes d’aggrégation

Nous avons postulé qu’à mesure que la complexité de l’Intention de Communica-tion (IC) augmente, la probabilité qu’il existe une PC dans leCorpus de Phrases Mod-èlessusceptible de la représenter diminue. En revanche, il est hautement probable que

cette même IC puisse être représentée par un ensemble de phrases élémentaires (de typeprédicat(objet, sujet)) ; cet ensemble de phrases élémentaires pourrait être à son tour transformé en une ou plusieurs phrases simples ou complexes via un processus d’agré-gation. On peut donc envisager en cas d’absence de proposition de phrase complexe à l’issue du processus de RI, de développer une méthode de repli qui puisse agréger des phrases élémentaires.

10.3.1 Aggrégation des causes multiples

De telles méthodes existent dans la plupart des logiciels de GAT à minima sous forme d’assemblage de clauses multiples composées chacune deSujet,Verbe,Objet. La règle d’agrégation revient dans ce cas à faire précéder la dernière phrase assemblée par un connecteur logiqueET(eten français,anden anglais, ouyen espagnol). SimpleNLG, nous le verrons, intègre cette possibilité triviale dans sonréalisateur de surface. Illustrons par un exemple avec les trois phrases :

– Jean lit un livre.

– Marie regarde la télévision.

– Henri joue sur sa Game Boy. Qui peuvent être agrégées ainsi :

– Jean lit un livre, Marie regarde la télévision et Henri joue sur sa Game Boy.

Mais si l’agrégation de causes différentes permet de produire une phrase dont la fluidité est acceptable, il n’en va pas de même lorsque les phrases à assembler compor-tent des redondances. Avec la même méthode d’agrégation triviale, notre exemple plus haut donnerait :

– Jean-Baptiste de Monet est un naturaliste, Jean-Baptiste de Monet est né le 1er Août 1744 et Jean-Baptiste de Monet est né dans le village de Bazentin-le-Petit.

Dans ce exemple, la répétition nuit de manière importante à la fluidité et au style (même si la phrase demeure syntaxiquement et sémantiquement valide). On va donc utiliser dans ces situations des procédés d’agrégation plus sophistiqués, inspirés des méthodes rhétoriques, et dont la finalité est principalement de supprimer les répéti-tions.