• Aucun résultat trouvé

EasyText : : un système opérationnel de génération de textes

N/A
N/A
Protected

Academic year: 2021

Partager "EasyText : : un système opérationnel de génération de textes"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: inria-00607708

https://hal.inria.fr/inria-00607708

Submitted on 12 Jul 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

EasyText : : un système opérationnel de génération de

textes

Frédéric Meunier, Laurence Danlos, Vanessa Combet

To cite this version:

Frédéric Meunier, Laurence Danlos, Vanessa Combet. EasyText : : un système opérationnel de

généra-tion de textes. TALN 2011 - Traitement Automatique des Langues Naturelles 2011, Jun 2011,

Mont-pellier, France. �inria-00607708�

(2)

TALN 2011, Montpellier, 27 juin – 1erjuillet 2011

EASYTEXT : un système opérationnel de génération de textes

Frédéric Meunier

1

Laurence Danlos

2

Vanessa Combet

1

(1) Watch System Assistance

(2) Université Paris Diderot, ALPAGE

frederic.meunier@watchsystance.com, laurence.danlos@linguist.jussieu.fr,

vanessa.combet@watchsystance.com

EASYTEXT est un système de génération de textes opérationnel auprès de Kantar Media, une filiale de TNS-Sofres. Cette société compile pour ses clients des données chiffrées sur leurs investissements publicitaires et envoie à chaque client sept tableaux tous les mois, comme celui de la Figure 1. Avant EASYTEXT, ces tableaux étaient accompagnés d’un commentaire général rédigé par un chargé d’étude. Le besoin s’est fait sentir d’assortir ce commentaire général de commentaires spécifiques à chaque tableau. La charge de rédaction étant alors trop lourde pour les chargés d’étude, l’idée a surgi de faire générer ces commentaires spécifiques par un système automatique.

EASYTEXT repose sur le formalisme G-TAG, un formalisme lexicalisé reposant sur les grammaires d’arbres adjoins (TAG) (Danlos, 1998). Ce formalisme a été étendu en amont pour les tâches de détermination du contenu et de structuration du texte, en suivant l’architecture décrite dans (Danlos & Ghali, 2002). La détermination du contenu revient à surligner certaines cellules du tableau. Cette tâche a été guidée par les règles métier indiquées par les chargés d’étude de TNS-Sofres. La structuration du texte consiste à introduire des relations rhétoriques (e.g. Contraste ou P arall`ele) entre le contenu sémantique des cellules surlignées, voir (Danlos et al., 2001)). TAG avait été implémenté dans les années 90’ en ADA par F. Meunier (1997). Celui-ci a re-implémenté G-TAG (avec les extensions en amont décrites ci-dessus) en .NET, ce qui permet à EASYTEXT d’être intégré au système d’information de TNS-Sofres. La génération d’un commentaire comme celui de la Figure 1 demande en moyenne 400ms de CPU-Times. Cette implémentation intègre des outils ergonomiques pour renseigner les bases lexicales TAG et pour visualiser les différentes structures arborescentes dynamiquement construites ou en cours de construction.

Les bases lexicales ont été renseignées par une linguiste, V. Combet, qui a travaillé en étroite collaboration avec les chargés d’étude de TNS-Sofres. Une attention particulière a été portée sur la variation linguistique afin de ne pas produire des textes monotones qui auraient lassé les clients de TNS-Sofres. Cette variation concerne princi-palement les choix lexicaux (e.g. augmenter, être en (forte/moyenne/faible) augmentation/hausse, (presque/plus que) doubler/tripler) et l’ordre des syntagmes à position plus ou moins libre.

TNS-Sofres a été satisfait des résultats de EASYTEXT (même au delà de ses espérances), et donc commercialise ce service à ses clients depuis Avril 2010. EASYTEXT est donc un des tous premiers systèmes de génération de textes opérationnel en France, et il en existe peu en dehors de l’hexagone.

Figure 1 : Exemple de tableau et de commentaire généré automatiquement

Références

DANLOSL. (1998). G-TAG : un formalisme lexicalisé pour la génération de textes inspiré de TAG. Revue TAL,

39(2).

DANLOSL., GAIFFEB. & ROUSSARIEL. (2001). Document structuring à la SDRT. In International workshop

on text generation - ACL, p. 94–102, Toulouse.

DANLOS L. & GHALIA. E. (2002). A completed and integrated NLG system using NLU and AI tools. In

Proceedings of COLING’02, Tapei, Taiwan.

MEUNIER F. (1997). Implémentation du formalisme G-TAG. Thèse de doctorat en informatique, Université

Références

Documents relatifs

Une entrée en vigueur au 1er juillet 2021 pour les boues et mi-2022 pour les autres matières fertilisantes mentionnées/concernées comme indiqué, est absolument irréaliste pour que les

Ces deux faits prou- vent que la partie la plus heureuse de notre existence est celle où nous la sentons le moins ; d’où il suit qu’il vaudrait mieux pour nous ne la pas

(a) Les droites dont les équations sont dans le système sont-elles sécantes.. (b) Le représenter graphiquement et lire les coordonnées du

• Le contenu est stocké le plus souvent dans une base de données, structurée en tables et en champs.. C'est le contenu des champs de la base qui est créé/modifié

En considérant cet apprentissage de l’histoire comme reposant sur deux piliers complémentaires, et en inte- raction permanente, celui des contenus factuels et celui de

Mais toute sa vie elle aspire à un ailleurs mythique et quand, enfin, le docteur, à l’indépendance, propose de lui donner sa maison, elle refuse le cadeau malgré

A noter que n'importe que autre type de fonction génératrice aurait tout aussi bien fait l'aaire, tout comme l'utilisation des crochets de Poisson.. (I) Le potentiel est dans ce

graphique. Ecrire le titre suivant: angle d'incidence en fonction de l'angle de réfraction puis changer éventuellement la police de caractère ainsi que sa taille. 5) ajouter