Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCIT

(1)

HAL Id: hal-02784750

https://hal.archives-ouvertes.fr/hal-02784750v2

Submitted on 22 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement

Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition. Volume 2 : Traitement

Automatique des Langues Naturelles

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider

To cite this version:

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, et al.. Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition. Volume 2 : Traitement Automatique des Langues Naturelles. Benzitoun, Christophe; Braud, Chloé; Huber, Laurine; Langlois, David;

Ouni, Slim; Pogodalla, Sylvain; Schneider, Stéphane. JEP-TALN-RECITAL 2020, Jun 2020, Nancy, France. 2, ATALA; AFCP, 2020, Volume 2 : Traitement Automatique des Langues Naturelles. �hal- 02784750v2�

(2)

6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le

Traitement Automatique des Langues (RÉCITAL, 22e édition) (JEP-TALN-RÉCITAL)

¹

Actes de la 6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition),

Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition).

Volume 2 : Traitement Automatique des Langues Naturelles

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider (Éds.)

Nancy, France, 08-19 juin 2020

(3)

Crédits : L’image utilisée en bannière est une photographie du vitrail « Roses et Mouettes », visible dans la maison Bergeret à Nancy. La photographie a été prise par Alexandre Prevot, diffusée sur flickr sous la licence CC-BY-SA 2.0.

Le logo de la conférence a été créé par Annabelle Arena.

2020 ATALA et AFCPc

(4)

Avec le soutien de

(5)

Message des présidents de l’AFCP et de l’ATALA

En ce printemps 2020, et les circonstances exceptionnelles qui l’accompagnent, c’est avec une émotion toute particulière que nous vous convions à la 6e édition conjointe des Journées d’Études sur la Parole (JEP), de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) et des Rencontres des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL). Après une première édition commune en 2002 (à Nancy, déjà !), et une expérience renouvelée avec succès en 2004, c’est désormais tous les quatre ans (Avignon 2008, Grenoble 2012) que se répète cet événement commun, attendu de pied ferme par les membres des deux communautés scientifiques voisines.

Cette édition 2020 est exceptionnelle, puisque dans le cadre des mesures sanitaires liées à la pandémie mondiale de COVID-19 (confinement strict, puis déconfinement progressif), la conférence ne peut avoir lieu à Nancy comme initialement prévu, mais se déroule à distance, sous forme virtuelle, soutenue par les technologies de l’information et de la communication. Nous remercions ici chaleureusement les organisateurs, Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni et Sylvain Pogodalla, qui ont dû faire preuve de souplesse, d’inventivité, de détermination, de puissance de travail, et de tant d’autres qualités encore, afin de maintenir la conférence dans ces circonstances, en proposant un format inédit. Grâce aux différentes solutions mises en œuvre dans un délai court, la publication des communications scientifiques est assurée, structurée, et les échanges scientifiques sont favorisés, même à distance.

Bien entendu, nous regrettons tous que cette réunion JEP-TALN-RECITAL ne permette pas, comme ses prédécesseurs, de nouer ou renforcer les liens sociaux entre les différents membres de nos communautés respectives – chercheurs, jeunes et moins jeunes, académiques et industriels, professionnels et étudiants – autour d’une passionnante discussion scientifique ou d’un mémorable événement social. . . Notre conviction est qu’il est indispensable de maintenir à l’avenir de tels lieux d’échanges dans le domaine francophone, afin bien sûr de permettre aux jeunes diplômés de venir présenter leurs travaux et poser leurs questions sans la barrière de la langue, mais aussi de dynamiser nos communautés, de renforcer les échanges et les collaborations, et d’ouvrir la discussion autour des enjeux d’avenir, qui questionnent plus que jamais la place de la science et des scientifiques dans notre société.

Lors de la précédente édition, nous nous interrogions sur les phénomènes et tendances liés à l’apprentissage profond et sur leurs impacts sur les domaines de la Parole et du TAL. Force est de constater que l’engouement pour ces approches dans nos domaines a permis un retour sur le devant de la scène des domaines liés à l’Intelligence Artificielle, animant parfois un débat tant philosophique que technique sur la place de la machine dans la société, notamment à travers le questionnement sur la vie privée de l’utilisateur. Ces questionnements impactent tant la Parole que le TAL, d’une part sur la place de la gestion des données, d’autre part sur les modèles eux-mêmes. Malgré ces questionnements, nous constatons que les acquis et les expertises perdurent, et les nouvelles approches liées à l’apprentissage profond ont permis un rapprochement des domaines de la Parole et du TAL, sans les dénaturer, à la manière des conférences JEP-TALN-RECITAL qui créent un espace plus grand d’échange et d’enrichissement réciproques.

Nous terminons ces quelques mots d’ouverture en remerciant l’ensemble des personnes qui ont rendu pos- sible cet événement qui restera, nous l’espérons, riche et passionnant, malgré les circonstances. L’ATALA et l’AFCP tiennent tout d’abord à réitérer leurs remerciements aux organisateurs des JEP, de TALN et de RECITAL, qui sont parvenus à maintenir le cap à travers vents et marées. Nos remerciements vont également à l’ensemble des membres des comités de programme, dont le travail et l’implication ont permis de garantir la qualité et la cohérence du programme finalement retenu. Un grand merci aux relecteurs pour le temps et le soin qu’ils ont dédiés à ce travail anonyme et indispensable. Ils se reflètent dans la qualité des soumissions que chacun pourra découvrir sur le site de la conférence.

En conclusion, cette 6e édition conjointe JEP-TALN-RECITAL est exceptionnelle parce qu’elle se tient dans un contexte de crise généralisée — crise sanitaire, économique, voire sociale et politique. Mais nous

(6)

formons le vœu qu’elle reste également dans les annales pour la qualité des échanges scientifiques qu’elle aura suscités, et pour le message envoyé à nos communautés scientifiques et à la société dans son ensemble, un message de détermination et de confiance en l’avenir, où la science et les nouvelles technologies restent au service de l’humain.

Véronique Delvaux, présidente de l’Association Francophone de la Communication Parlée Christophe Servan, président de l’Association pour le Traitement Automatique des LAngues

(7)

Préface

En 2002, l’AFCP(Association Francophone pour la Communication Parlée) et l’ATALA(Association pour le Traitement Automatique des Langues) organisèrent conjointement leurs principales conférences afin de réunir en un seul lieu, à Nancy, les communautés du traitement automatique et de la description des langues écrites, parlées et signées.

En 2020, la sixième conférence commune revient à Nancy, après Fès (2004), Avignon (2008), Grenoble (2012) et Paris (2016). Elle est organisée par le LORIA(Laboratoire lorrain de recherche en informatique et ses applications, UMR 7503), l’ATILF(Analyse et traitement informatique de la langue française, UMR 7118) et l’INIST (Institut de l’information scientifique et technique) et regroupe :

— les 33^es Journées d’Études sur la Parole (JEP),

— la 27^econférence sur le Traitement Automatique des Langues Naturelles (TALN),

— la 22^e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL).

Les circonstances particulières liées à l’épidémie de Covid-19 en France et dans le monde ont conduit à une virtualisation de la conférence. Ainsi, malgré un rassemblement physique qui n’a pu avoir lieu, diffusions, présentations (au gré des auteurs) et discussions des articles acceptés ont lieu sur le site internet de la conférence. Les tutoriels, certains ateliers, et le salon de l’innovation qui accompagnent la conférence ont cependant dû être annulés, mais les ateliers suivants sont maintenus :

— Défi Fouille de Textes (DEFT 2020),

— Éthique et TRaitemeNt Automatique des Langues (ÉTeRNAL).

La conférence accueille également des conférencières et conférenciers invités dont les exposés sont diffusés sur le site : Dirk Hovy (université de Bocconi, Milan, Italie, invité ÉTeRNAL) ainsi que Marie-Jean Meurs (Université du Québec à Montréal, UQAM, Canada) et Hugo Cyr (Faculté de science politique et droit à l’Université du Québec à Montréaln UQAM, Canada). En raison des circonstance particulières, un exposé conjoint de Christine Meunier (Laboratoire Parole et Langage LPL, CNRS, Aix-en-Provence, France) et Christophe Stécoli (police technique et scientifique française) a dû être annulé et reporté à une journée spéciale en septembre 2020.

Ces actes regroupent les articles des conférences JEP (volume 1), TALN (volume 2), RÉCITAL (volume 3), les articles décrivant les démonstrations (volume 4), et les articles des ateliers DEFT (volume 5) et ÉTeRNAL (volume 6). Pour la première fois, un appel spécifique à résumés en français d’articles parus dans une sélection de conférences internationales en 2019 était également proposé (volume 4). Un appel spécifique apprenti·e·s chercheur·euse·s destiné aux étudiants de licence, de master, ou en première année de thèse a également été proposé, pour leur proposer des présentations courtes ou sous forme de poster de leurs projets.

Pour les JEP, 87 articles ont été soumis, parmi lesquels 74 ont été sélectionnés, soit un taux de sélection de 85%.

Pour TALN, 58 articles ont été soumis, parmi lesquels 37 ont été sélectionnés, soit un taux de sélection de 63%, dont 10 comme article longs (17% des soumissions) et 27 comme article courts dont 20 en présentation orale (34% des soumissions) et 7 en présentation poster (12% des soumissions).

Pour RÉCITAL, 22 articles ont été soumis, parmi lesquels 16 ont été sélectionnés, soit un taux de sélection de 73%.

Nous souhaitons vivement remercier toutes les personnes qui ont participé à ce travail de relecture et de sélection :

— l’ensemble des relecteurs (voir pagexi),

— le comité de programme des JEP (voir page viii),

— le comité de programme de TALN (voir page ix),

— le comité de programme de RÉCITAL (voir pagex).

Nous souhaitons également remercier nos sociétés savantes : l’AFCP, assurant la continuité des éditions successives des JEP, et l’ATALA, dont le CPerm (comité permanent) assure la continuité des éditions

(8)

successives de TALN.

Nous remercions le comité d’organisation et les nombreuses personnes qui ont assuré le soutien administratif et technique pour que cette conférence se déroule dans les meilleures conditions, et en particulier Yannick Parmentier pour son travail pour la diffusion de ces actes sur HAL et les différents sites d’archives ouvertes (anthologie ACL ettalnarchives.atala.org/).

Nous remercions enfin tous les partenaires institutionnels et industriels qui nous ont fait confiance, en particulier l’université de Lorraine, le CNRS, l’Inria, le LORIA, l’ATILF, l’INIST, le master TAL de l’Institut des Sciences du Digital Management & Cognition (IDMC), le projet OLKI de l’initiative Lorraine Université d’Excellence (LUE), la Région Grand Est,The Evaluations and Language resources Distribution Agency(ELDA), le projet ANR PARSEME-FR, la délégation générale à la langue française et aux langues de France (DGLFLF), l’Association des Professionnels des Industries de la Langue (APIL) et les entreprises Synapse, Yseop et Orange.

Bonne conférence à toutes et à tous !

Les présidentes et présidents JEP : David Langlois et Slim Ouni TALN : Chloé Braud et Sylvain Pogodalla RÉCITAL : Christophe Benzitoun et Laurine Huber

(9)

Comités

Comité de programme des JEP

Martine Adda-Decker (Laboratoire de Phonétique et Phonologie, CNRS) Jean-Francois Bonastre (LIA, Université d’Avignon)

Fethi Bougares (LIUM, Le Mans Université) Philippe Boula De Mareüil (LIMSI, CNRS) Hervé Bredin (LIMSI, CNRS)

Olivier Crouzet (LLING, Université de Nantes)

Elisabeth Delais-Roussarie (LLING, Université de Nantes)

Véronique Delvaux ( Laboratoire de Phonétique, IRSTL, Université de Mons) Camille Fauth (LiLPa, Université de Strasbourg)

Emmanuel Ferragne (CLILLAC-ARP, Université de Paris)

Cecile Fougeron (Laboratoire de Phonétique et Phonologie, CNRS) Corinne Fredouille (LIA, Université d’Avignon)

Alain Ghio (LPL, CNRS)

Camille Guinaudeau (LIMSI, Université Paris Sud)

Anne Guyot Talbot (CLILLAC-ARP, Université de Paris 7)

Bernard Harmegnies (Laboratoire de Phonétique, IRSTL, Université de Mons) Nathalie Henrich Bernardoni (Gipsa-lab, CNRS)

Bassam Jabaian (LIA, Université d’Avignon) David Langlois (LORIA, Université de Lorraine) Yves Laprie (LORIA, CNRS)

Anthony Larcher (LIUM, Université du Maine) Gwénolé Lecorvé (IRISA, Université de Rennes)

Benjamin Lecouteux (LIG, Université Grenoble Alpes) Georges Linarès (LIA, Université d’Avignon)

Damien Lolive (IRISA, Université Rennes) Julie Mauclair (IRIT)

Yohann Meynadier (LPL, Aix-Marseille Université) Slim Ouni (LORIA, Université de Lorraine)

Thomas Pellegrini (IRIT, Université de Toulouse) François Portet (LIG, Grenoble INP)

Fabian Santiago (Structures Formelles du Langage, Université de Paris 8) Christophe Savariaux (Gipsa-lab, CNRS)

Nathalie Vallee (Gipsa-lab, Université Grenoble Alpes) Ioana Vasilescu (LIMSI, CNRS)

(10)

Comités de programme TALN

Maxime Amblard (LORIA, Université de Lorraine) Chloé Braud (IRIT, CNRS)

Caroline Brun (Naver Labs Europe)

Nathalie Camelin (LIUM, Université du Maine) Marie Candito (Universtité Paris 7)

Vincent Claveau (IRISA, CNRS) Chloé Clavel (Telecom-ParisTech)

Mathieu Constant (ATILF, CNRS, Université de Lorraine) Pascal Denis (Inria)

Cécile Fabre (Université Toulouse 2)

Thomas François (Université catholique de Louvain) Núria Gala (LPL, CNRS, Aix-Marseille Université) Natalia Grabar (STL, CNRS, Université Lille 3)

Anne-Laure Ligozat (LIMSI, CNRS, ENSIIE, Université Paris-Saclay) Emmanuel Morin (LINA, Université de Nantes)

Sylvain Pogodalla (LORIA, Inria)

Solen Quiniou (LINA, Université de Nantes) Corentin Ribeyre (Etermind)

Tim van de Cruys (IRIT, CNRS)

Pierre Zweigenbaum (LIMSI, CNRS, Université Paris-Saclay)

(11)

Comité de programme RÉCITAL

Jean-Yves Antoine (Université François Rabelais de Tours) Sonia Badene (Linagora, IRIT)

Frédéric Béchet (LIF, Aix Marseille Université)

Christophe Benzitoun (ATILF, Université de Lorraine) Maria Boritchev (LORIA, Inria)

Léo Bouscarrat (EURA NOVA, Aix-Marseille Université) Manon Cassier (INALCO, Paris)

Kevin Deturck (Viseo Technologies)

Emmanuelle Esperança-Rodier (GETALP, Université Grenoble Alpes) Kim Gerdes (sorbonne nouvelle)

Nicolas Hernandez (LINA, UMR 6241, CNRS, Université de Nantes) Lydia-Mai Ho-Dac (CLLE-ERSS, Université Toulouse Jean Jaurès) Laurine Huber (LORIA, Université de Lorraine)

Sylvain Kahane (Modyco, Université Paris Ouest Nanterre) Gwénolé Lecorvé (IRISA, Université de Rennes, CNRS) Joël Legrand (LORIA, Inria, CNRS)

Anne-Laure Ligozat (LIMSI, CNRS, ENSIIE, Université Paris-Saclay) Pierre Ludmann (LORIA, Université de Lorraine)

Yann Mathet (Université de Caen) Anne-Lyse Minard (IRISA, CNRS)

Sandrine Ollinger (ATILF, UMR 7118, CNRS)

Yannick Parmentier (LORIA, Université de Lorraine) Justine Reynaud (LORIA, Université de Lorraine) Stella Zevio (LIPN, Université de Paris 13)

(12)

Relectrices et relecteurs

Gilles Adda (LIMSI, CNRS) Salah Ait-Mokhtar (Naver Labs Europe)

Charlotte Alazard (Université Toulouse 2 Jean Jaurès)

Alexandre Allauzen (LIMSI-CNRS, Université Paris-Sud)

Pascal Amsili (Université Paris Diderot)

Pierre André Hallé (Laboratoire de Phonétique et Phonologie, CNRS–Université Paris 3)

Régine André-Obrecht (Université Paul Sabatier Toulouse III)

Jean-Yves Antoine (Université François Rabelais de Tours)

Nicolas Audibert (Laboratoire de Phonétique et Phonologie, CNRS–Université Paris 3)

Nelly Barbot (IRISA, Université de Rennes 1) Claude Barras (LIMSI, CNRS)

Loïc Barrault (University of Sheffield)

Katarina Bartkova (ATILF, Université de Lor- raine)

Frédéric Béchet (LIF, Aix Marseille Université) Nathalie Bedoin (DDL, Université Lyon 2)

Patrice Bellot (LSIS, CNRS, Aix-Marseille Univer- sité)

Asma Ben Abacha (National Library of Medicine, National Institutes of Health)

Delphine Bernhard (LiLPa, Université de Stras- bourg)

Roxane Bertrand (LPL, CNRS, Aix-Marseille Uni- versité)

Laurent Besacier (Laboratoire d’Informatique de Grenoble)

Yves Bestgen (F.R.S-FNRS et Université Catho- lique de Louvain)

Frédéric Bimbot (IRISA, CNRS)

Caroline Bogliotti (MODYCO, UMR 7114, CNRS, Université Paris Nanterre)

Anne Bonneau (LORIA, CNRS) Stéphanie Borel (Université de Tours) Féthi Bougarès (LIUM, Le Mans Université) Leila Boutora (Laboratoire Parole et Langage, Aix

Marseille Université)

Paul Caillon (LORIA, Université de Lorraine) Mélanie Canault (DDL, Université Lyon 2)

Thierry Charnois (LIPN, CNRS, Université de Pa- ris 13)

Chloé Clavel (Telecom-ParisTech)

Maximin Coavoux (Université Grenoble Alpes, CNRS)

Vincent Colotte (LORIA, Université de Lorraine) Juan Manuel Coria (LIMSI, Université Paris-

Saclay Paris 13)

Benoît Crabbé (Université Paris 7)

Lise Crevier Buchman (Laboratoire de Phonétique et Phonologie, CNRS, Hôpital Foch)

Béatrice Daille (LINA, Université de Nantes) Géraldine Damnati (Orange Labs)

Dan Dediu (Dynamique du Langage, UMR5596, Université Lumière Lyon 2 )

Joseph Di Martino (LORIA, Université de Lor- raine)

Gaël Dias (Université Caen Normandie)

Amazouz Djegdjiga (LPP, Université Sorbonne Nouvelle – Paris 3)

Benjamin Elie (IMSIA, ENSTA ParisTech) Iris Eshkol-Taravella (Université d’Orléans) Emmanuelle Esperança-Rodier (GETALP, Univer-

sité Grenoble Alpes)

Yannick Estève (LIA, Université d’Avignon) Dominique Estival (Western Sydney University) Olivier Ferret (CEA LIST)

Lionel Fontan (Archean Labs) Karën Fort (Sorbonne Université) Claire Gardent (LORIA, CNRS)

Eric Gaussier (LIG, Université Grenoble Alpes) Cédric Gendrot (LPP, Université Sorbonne Nou-

velle – Paris 3)

James German (Laboratoire Parole et Langage, Aix Marseille Université)

Cyril Goutte (National Research Council Canada) Cyril Grouin (LIMSI, CNRS, Université Paris-

Saclay)

Pierre André Hallé (LPP, Université Sorbonne Nouvelle – Paris 3)

Olivier Hamon (Syllabs)

Thierry Hamon (LIMSI, Université Paris-Saclay, CNRS, Université Sorbonne Paris Nord) Bernard Harmegnies (Institut de Recherche en

Sciences et Technologies du Langage, Univer- sité de Mons)

Nabil Hathout (CLLE, CNRS)

Amir Hazem (LS2N, Université de Nantes) Nicolas Hernandez (LS2N, Université de Nantes) Fabrice Hirsch (Praxiling, Université Paul Valéry

Montpellier 3)

Thomas Hueber (GIPSA-lab, CNRS)

Kathy Huet (Institut de Recherche en Sciences et Technologies du Langage, Université de Mons)

(13)

Stéphane Huet (LIA, Université d’Avignon) Mathilde Hutin (LIMSI, Université Paris-Saclay,

CNRS, Université Sorbonne Paris Nord) Irina Illina (LORIA, Université de Lorraine) Christine Jacquin (LS2N Université de Nantes) Adèle Jatteau (STL, UMR 8163, Université de

Lille, CNRS)

Denis Jouvet (LORIA, Inria)

Sylvain Kahane (Modyco, Université Paris Ouest Nanterre)

Takeki Kamiyama (LPP, Université Paris 8 Vincennes-Saint-Denis)

Hannah King (CLILLAC-ARP, Université Paris Diderot)

Olivier Kraif (Université Grenoble Alpes) Matthieu Labeau (Telecom Paris)

Mathieu Lafourcade (LIRMM, Université de Montpellier)

Mohamed Lahrouchi (SFL, UMR 7023, CNRS Université Paris 8)

Muriel Lalain (LPL, CNRS, Aix-Marseille Univer- sité)

Joseph Lark (Dictanova)

Thomas Lavergne (LIMSI, CNRS, Univ. Paris Sud, Université Paris Saclay)

Guillaume Le Berre (LORIA, Université de Lor- raine)

Gwénolé Lecorvé (IRISA, Université de Rennes, CNRS)

Benjamin Lecouteux (Laboratoire Informatique de Grenoble)

Claire Lemaire (Université Grenoble Alpes) Yves Lepage (Waseda University)

Joseph Le Roux (LIPN, Université de Paris 13) Veronika Lux (ATILF, CNRS)

Paolo Mairano (STL, UMR 8163, Université de Lille)

Anna Marczyk (LPL, CNRS, Aix-Marseille Uni- versité)

Denis Maurel (Université François Rabelais de Tours)

Christine Meunier (LPL, CNRS, Aix-Marseille Université)

Alexis Michaud (LACITO, CNRS) Richard Moot (LIRMM, CNRS) Véronique Moriceau (LIMSI, CNRS)

Philippe Muller (IRIT, Université de Toulouse) Alexis Nasr (LIF, Université de la Méditerranée) Sylvain Navarro (CLLE-ERSS, CNRS)

Luka Nerima (Université de Genève)

Jian-Yun Nie (Université de Montreal) Damien Nouvel (INaLCO)

Nicolas Obin (IRCAM)

Yannick Parmentier (LORIA, Université de Lor- raine)

Sebastian Peña Saldarriaga (Dictanova) Marie Philippart de Foy (Université de Mons) Myriam Piccaluga (Institut de Recherche en

Sciences et Technologies du Langage, Univer- sité de Mons)

Claire Pillot-Loiseau (LPP, UMR 7018, CNRS, Université Sorbonne Nouvelle – Paris 3) Serge Pinto (LPL, CNRS, Aix-Marseille Univer-

sité)

Agnès Piquard (LORIA, CNRS, Université de Lor- raine)

Thierry Poibeau (LaTTiCe, CNRS)

Alain Polguère (ATILF Université de Lorraine) Laurent Prévot (LPL, CNRS, Aix-Marseille Uni-

versité)

Jean-Philippe Prost (LIRMM, Université de Mont- pellier)

Christian Raymond (IRISA, INSA de Rennes) Christian Retoré (LIRMM, Université de Montpel-

lier)

Albert Rilliard (LIMSI, CNRS, Université Paris- Saclay)

Virginie Roland (Institut de Recherche en Sciences et Technologies du Langage, Université de Mons)

Sophie Rosset (LIMSI, CNRS, Université Paris- Saclay)

Véronique Sabadell (LPC, Aix Marseille Univer- sité)

Stéphane Schneider (INIST, CNRS)

Didier Schwab (Université Grenoble Alpes) Pascale Sébillot (IRISA, INSA de Rennes)

Djamé Seddah (Almanach, Université Paris la Sor- bonne)

Gilles Serasset (LIG, Université Grenoble Alpes) Romain Serizel (LORIA, Université de Lorraine) Kamel Smaïli (LORIA, Université de Lorraine) Rudolph Sock (LiLPa, Université de Strasbourg) Ludovic Tanguy (CLLE, CNRS)

Xavier Tannier (LIMICS, Sorbonne Université, IN- SERM)

Andon Tchechmedjiev (IMR, Mines Alès)

Juan-Manuel Torres-Moreno (LIA, Université d’Avignon)

Nicolas Turenne (LISIS, INRA)

(14)

Anne Vilain (GIPSA-lab, Université de Grenoble Alpes)

Coriandre Vilain (GIPSA-lab, Université de Gre- noble Alpes)

Guillaume Wisniewski (LLF, Université de Paris) Jane Wottawa (LIUM, Le Mans Université)

Yaru Wu (LPP, MoDyCo, Université Paris Nan- terre)

Kossi Seto Yibokou (LiLPa, Université de Stras- bourg)

François Yvon (LIMSI, CNRS, Université Paris- Sud)

(15)

Table des matières

I Articles longs 1

Approche de génération de réponse à base de transformers 2 Imen Akermi, Johannes Heinecke, Frédéric Herledan

Investigation par méthodes d’apprentissage des spécificités langagières propres aux per-

sonnes avec schizophrénie 12

Maxime Amblard, Chloé Braud, Chuyuan Li, Caroline Demily, Nicolas Franck, Michel Musiol

Classification de relations pour l’intelligence économique et concurrentielle 27 Hadjer Khaldi, Amine Abdaoui, Farah Benamara, Grégoire Sigel, Nathalie Aussenac-Gilles

Représentation dynamique et spécifique du contexte textuel pour l’extraction d’événe-

ments 40

Dorian Kodelja, Romaric Besançon, Olivier Ferret

Les modèles de langue contextuels Camembert pour le français : impact de la taille et de

l’hétérogénéité des données d’entrainement 54

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Ville- monte de la Clergerie, Benoît Sagot, Djamé Seddah

Génération automatique de définitions pour le français 66

Timothee Mickus, Mathieu Constant, Denis Paperno

Du bon usage d’ingrédients linguistiques spéciaux pour classer des recettes exception-

nelles 81

Elham Mohammadi, Louis Marceau, Eric Charton, Leila Kosseim, Luka Nerima, Marie-Jean Meurs

Étude sur le résumé comparatif grâce aux plongements de mots 95 Valentin Nyzam, Aurélien Bossard

Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automa-

tique par l’exemple 108

Valentin Taillandier, Liyan Wang, Yves Lepage

Impact de la structure logique des documents sur les modèles distributionnels : expéri-

mentations sur le corpus TALN 122

Ludovic Tanguy, Cécile Fabre, Yoann Bard

II Articles courts 136

Prédire automatiquement les intentions du locuteur dans des questions issues du discours

oral spontané 137

Angèle Barbedette, Iris Eshkol-Taravella

Réduire l’effort humain d’amélioration des ressources lexicales grâce aux inférences 146 Nadia Bebeshina, Mathieu Lafourcade

Extraction de thèmes d’un corpus de demandes de support pour un logiciel de relation

citoyen 155

(16)

Mokhtar Boumedyen Billami, Christophe Bortolaso, Mustapha Derras

Recommandation d’âge pour des textes 164

Alexis Blandin, Gwénolé Lecorvé, Delphine Battistelli, Aline Étienne

Traduire des corpus pour construire des modèles de traduction neuronaux : une solution

pour toutes les langues peu dotées ? 172

Raoul Blin

Construction de plongements de concepts médicaux sans textes 181 Vincent Claveau

Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais 189 Maximin Coavoux

Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée

sur les graphes 197

Caio Corro

L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté205 Aline Étienne, Delphine Battistelli, Gwénolé Lecorvé

Traduction automatique pour la normalisation du français du XVIIe siècle 213 Simon Gabay, Loïc Barrault

Prédire le niveau de langue d’apprenants d’anglais 223

Natalia Grabar, Thierry Hamon, Bert Cappelle, Cyril Grandin, Benoît Leclercq, Ilse Depraetere

TArC. Un corpus d’arabish tunisien 232

Elisa Gugliotta, Marco Dinarelli

Segmentation automatique en périodes pour le français parlé 241 Natalia Kalashnikova, Iris Eshkol-Taravella, Loïc Grobol, François Delafontaine

Les avis sur les restaurants à l’épreuve de l’apprentissage automatique 249 Hyun Jung Kang, Iris Eshkol-Taravella

Recherche de similarité thématique en temps réel au sein d’un débat en ligne 258 Mathieu Lafourcade, Noémie-Fleur Sandillon-Rezer

FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français 268 Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab

Relation, es-tu là ? Détection de relations par LSTM pour améliorer l’extraction de rela-

tions 279

Cyrielle Mallart, Michel Le Nouy, Guillaume Gravier, Pascale Sébillot

Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compré-

hension de texte 288

Gabriel Marzinotto, Delphine Charlet, Géraldine Damnati, Frédéric Béchet

Analyse de sentiments des vidéos en dialecte algérien 296

(17)

Mohamed Amine Menacer, Karima Abidi, Nouha Othman, Kamel Smaïli

VerNom : une base de paires morphologiques acquise sur très gros corpus 305 Alice Missud, Pascal Amsili, Florence Villoing

Étude des variations sémantiques à travers plusieurs dimensions 314 Syrielle Montariol, Alexandre Allauzen

Identification des problèmes d’annotation pour l’extraction de relations 323 Tsanta Randriatsitohaina, Thierry Hamon

Simplification automatique de texte dans un contexte de faibles ressources 332 Sadaf Abdul Rauf, Anne-Laure Ligozat, Francois Yvon, Gabriel Illouz, Thierry Hamon

Représentation sémantique des familles dérivationnelles au moyen de frames morphosé-

mantiques 342

Daniele Sanacore, Nabil Hathout, Fiammetta Namer

Modèle neuronal pour la résolution de la coréférence dans les dossiers médicaux électro-

niques 351

Julien Tourille, Olivier Ferret, Aurélie Névéol, Xavier Tannier

Un corpus d’évaluation pour un système de simplification discursive 361 Rodrigo Wilkens, Amalia Todirascu

La réécriture monolingue ou bilingue facilite-t-elle la compréhension ? 370 Yuming Zhai, Gabriel Illouz, Anne Vilnat

(18)

Première partie

Articles longs

(19)

Approche de génération de réponse à base de transformers

Imen Akermi Johannes Heinecke Frédéric Herledan

Orange / DATA-AI, Lannion, France

{imen.elakermi,johannes.heinecke,frederic.herledan}@orange.com

R

ÉSUMÉ

Cet article présente une approche non-supervisée basée sur les modèles Transformer pour la génération du langage naturel dans le cadre des systèmes de question-réponse. Cette approche permettrait de remédier à la problématique de génération de réponse trop courte ou trop longue sans avoir recours à des données annotées. Cette approche montre des résultats prometteurs pour l’anglais et le français.

A

BSTRACT

Transformer based approach for answer generation

This paper presents an unsupervised approach for Natural Language Generation within the framework of question-answering task. This approach aims at solving the too-short or too-long answer generation problem without requiring annotated data. The proposed approach shows promising results for both English and French.

M

OTS

-

CLÉS

:

systèmes de question-réponse, génération du langage naturel, analyse de dépendance.

K

EYWORDS

:

question answering systems, natural language generation, dependency analysis.

1 Introduction

La popularité récente des assistants intelligents a accru l’intérêt pour les systèmes de question-réponse (SQR) qui sont devenus un élément central des échanges « Humain-Machine » puisqu’ils permettent aux utilisateurs d’avoir directement des réponses à leurs questions en langage naturel en utilisant leur propre terminologie sans avoir à parcourir une longue liste de documents pour trouver les réponses appropriées.

La plupart des travaux de recherche existants focalisent sur la complexité majeure de ces systèmes résidant dans le traitement et l’interprétation de la question qui exprime le besoin en information de l’utilisateur, sans pour autant donner de l’importance à la représentation de la réponse donnée en sortie. Généralement, la réponse est soit représentée par un ensemble de termes court répondant exactement à la question (cas des SQR qui extraient les réponses à partir de données structurées), soit par un passage d’un document qui indique la réponse exacte et qui peut intégrer d’autres informations inutiles ne relevant pas du contexte de la question posée.

La figure1présente un exemple de réponses données par deux systèmes différents.

Compte-tenu de la particularité des SQR qui extraient les réponses à partir de données struc- turées, les utilisateurs ne reçoivent, généralement, qu’une réponse courte et limitée à leurs questions comme c’est illustré par l’exemple de la figure 1. De plus, dans le cas où la question est posée oralement, ce type de représentation de réponse peut ne pas convenir aux attentes de l’utilisateur.

Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition),

Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition) Nancy, France, 08-19 juin 2020

(20)

Albert Einstein est un physicien théoricien, connu pour sa théorie de la relativité restreinte, publiée en 1905 et sa théorie de la gravitation dite relativité générale, publiée en 1915. …. Il reçut le prix Nobel de physique en 1921.

F^IGURE1 – Réponses affichées par deux assistants intelligents, G^OOGLE A^SSISTANT et A^LEXA pour la question «Qui est le directeur de thèse d’Albert Einstein ?»

En effet, le type de réponse donné par le premier système peut être perçu comme trop bref ne rappelant pas le contexte de la question et pour le deuxième type de réponse, on a tendance à renvoyer un passage qui contient la réponse mais qui inclut également des informations qui peuvent être hors du contexte de la question et jugées par l’utilisateur comme inutile.

C’est dans ce contexte que nous présentons dans cet article une approche qui permet de générer une réponse concise en langage naturel pour le français et l’anglais. Cette approche fait partie d’un SQR que nous avons proposé dansRojas Barahonaet al.(2019) et que nous présenterons brièvement dans cet article.

2 État de l’art

Malgré l’abondance des travaux dans le domaine des SQR, la problématique de formulation des réponses a reçu très peu d’attention. Une première approche traitant indirectement cette tâche a été proposée dansBrillet al.(2001,2002). En effet, les auteurs avaient pour but de diversifier les motifs possibles de réponses en permutant les termes de la question en vue de maximiser le nombre de documents extraits qui peuvent contenir la réponse. Une autre approche de représentation de réponse basée sur des règles de reformulation a été également proposée dansAgichtein & Gravano(2000) et Lawrence & Giles(1998) dans le contexte d’expansion de requêtes pour la recherche de documents et non pour l’extraction de la réponse exacte.

Le peu de travaux qui se sont intéressés à cette tâche dans le cadre des SQR l’ont adressée sous l’angle de la génération de résumé de texte (Ishidaet al.,2018;Iidaet al.,2019;Rushet al.,2015;Chopra et al.,2016;Nallapatiet al.,2016;Miao & Blunsom,2016;Seeet al.,2017;Ohet al.,2016;Sharp et al.,2016;Tan et al.,2016;dos Santoset al.,2016). La majorité de ces travaux n’ont considéré que les questions de causalité de type «pourquoi» où les réponses sont des paragraphes. Pour rendre ces réponses plus concises, ils procèdent à un compactage des paragraphes extraits.

D’autres approches (Kruengkraiet al.,2017;Girju,2003;Verberneet al.,2011;Ohet al.,2013) ont exploré cette tâche comme un problème de classification où il s’agit de prédire si un passage de texte pourra constituer une réponse à une question donnée.

Il faut noter que ces approches ont pour seul but de diversifier au maximum les formules de réponses possibles à des questions pour augmenter la probabilité d’extraire la bonne réponse et non pour générer une réponse qui soit conviviale pour l’utilisateur. Il faut également souligner que ces approches ne sont valables que pour les SQR qui génèrent les réponses sous forme d’extrait de texte et ne pourront pas être appliquées aux réponses courtes.

(21)

Notre approche de génération de réponse diffère de ces travaux dans le sens qu’elle est non supervisée, peut s’adapter à n’importe quel type de questions factuelles (à l’exception des questions de type PourquoietComment) et qu’elle s’appuie que sur des données facilement accessibles et non annotées.

En effet, nous partons de l’hypothèse intuitive qu’une réponse concise et facilement prononçable par un assistant intelligent n’est en fait qu’une reformulation de la question posée. Cette approche est intégrée à un système (Rojas Barahonaet al.,2019) qui permet d’extraire la réponse à une question à partir de données structurées.

Dans ce qui suit, nous détaillerons dans la section 3 l’approche que nous avons proposé pour la génération de réponse en Langage Naturel et nous évoquerons brièvement le SQR développé. Nous présenterons dans la section 4 les expérimentations que nous avons conduit pour évaluer cette approche. Nous conclurons dans la section 5 avec les limites relevées et les perspectives envisagées.

3 Approche de génération de réponse en langage naturel

L’approche de génération de réponse que nous décrivons dans cet article est un composant d’un SQR qui a été développé dans Rojas Barahona et al.(2019) et qui consiste à traduire une question en langue naturelle (français ou anglais) dans une représentation formelle pour ensuite transformer cette représentation formelle en une requête Sparql¹. Grâce à la requête Sparql nous cherchons la réponse dans une base de connaissance RDF, dans notre cas Wikidata². La réponse est toujours une liste d’URI ou de valeurs.

Bien que nous arrivons à trouver la réponse exacte à une question, sa représentation n’est pas conviviale pour l’utilisateur. De ce fait, nous proposons une approche non-supervisée qui intègre l’utilisation des modèles Transformers tels que B^ERT(Devlinet al.,2019) et GPT (Radfordet al.,2018). Le choix d’une approche non supervisée émane du fait qu’il n’existe pas un corpus d’apprentissage associant une question à une réponse compacte, exhaustive et qui permettrait d’appliquer en mode supervisé une architecture neuronale End-to-End apprenant à générer une phrase répondant à une question.

Cette approche part du fait que nous avons déjà extrait la réponse exacte à une question posée. Nous supposons qu’une réponse bien formulée n’est que la reformulation de la question même associée à la réponse exacte. Cette approche est constituée de deux étapes fondamentales. La première étape consiste à effectuer une analyse de dépendance de la question en entrée et nous procédons dans une deuxième étape à la génération de la réponse.

3.1 Analyse en dépendance

Pour l’analyse en dépendance, nous utilisons une version améliorée de UdpipeFuture (Straka,2018) qui était le système gagnant (3e avec les métriquesLabelled Attachment Score(LAS) etContent Word LAS(CLAS) et 1er en utilisant la métriqueMorphology-Aware LAS(MLAS)) de la tâche de l’analyse en dépendance (Zemanet al.,2018). UdpipeFuture est un analyseur, qui fait l’étiquetage en partie de discours et la lemmatisation avec un LSTM. L’analyse en dépendance est faite avec un parser à base de graphes, inspiré deDozatet al.(2017).

Notre modification consiste à intégrer les plongements contextuels à UdpipeFuture lors de l’apprentissage. Pour cela, nous nous sommes orientés vers BERTmultilingue (Devlinet al.,2019), XLM-R

1. https://www.w3.org/TR/sparql11-overview/

2. https://www.wikidata.org/

(22)

(Conneau et al., 2019) (pour l’anglais et français), RoBERTA (Liu et al., 2019) (pour l’anglais) FlauB^ERT(Leet al.,2020) et CamemB^ERT(Martinet al.,2019) (pour le français) lors de l’apprentissage des treebanks French-GSD et English-EWT³, issues du projet Universal Dependencies (UD) (Nivreet al.,2016)⁴. L’ajout des plongements contextuels a significativement augmenté les résultats pour les trois métriques, LAS, CLAS et MLAS (cf. table1).

français (Fr-GSD)

embeddings MLAS CLAS LAS

Straka(2018) 77,29 82,49 85,74 FlauBERT 79,53 84,16 87,98

BERT 81,64 86,21 89,68

CamemB^ERT 82,17 86,45 89,67

XLM-R 82,62 86,94 89,82

anglais (En-EWT)

Straka(2018) 74,71 79,14 82,51

BERT 81,16 85,89 88,63

RoBERTA 82,38 86,89 89,40

XLM-R 82,91 87,24 89,54

TABLE1 – Analyse en dépendance du français et l’anglais (UD v2.2), les meilleurs résultats en gras Néanmoins, pour l’analyse en dépendances des questions simples de type quiz, les deux treebanks UD (En-EWT et Fr-GSD) ne sont pas adaptés, car leurs corpus d’apprentissage ne contiennent pas ou très peu de questions⁵. Les résultats de l’analyse des questions avec des modèles appris sur les données standard de UD sont montrés en table2.

français (Fr-GSD)

BERT 60,52 73,04 79,27

CamemBERT 61,32 75,26 80,49 FlauB^ERT 58,09 70,96 78,40

Word2Vec 59,83 74,43 80,14

XLM-R 59,23 73,52 79,27

anglais (En-EWT)

B^ERT 80,45 88,02 90,58 RoB^ERTa 80,68 89,17 91,49

XLM-R 80,68 89,42 91,88

T^ABLE2 – Analyse des questions avec des modèles appris sur UD sans modifications

Afin d’améliorer l’analyse, nous avons enrichi les treebanks d’apprentissage Fr-GSD et En-EWT en annotant 309 questions anglaises des challenges QALD7 (Usbecket al.,2017) et QALD8⁶ (ainsi 91 questions pour le test) en supprimant les doublons. Pour le français, nous avons traduit des questions issues de QALD7, et formulé des questions nous-mêmes (66 test, 267 apprentissage). Les annotations ont été effectuées par deux linguistes avec le guide d’annotation du project Universal Dependencies⁷ et la documentation des treebanks Fr-GSD (pour les questions françaises) et En-EWT (pour l’anglais).

Comme la table 3le montre, la qualité de l’analyse augmente considérablement, les embeddings CamemBERT(pour le français) et BERT(anglais) ont de nouveau le meilleurs impact.

Nous nous appuyons sur la version UdpipeFuture que nous avons améliorée avec BERT/CamemBERT

et qui donne les meilleurs résultats en terme d’analyse en dépendance pour procéder au découpage de la question en fragments textuels (appelés égalementchunks) :Q={c1,c2, . . . ,cn}.

3. Comme la campagne d’évaluation Conll2018, nous utilisons la version 2.2 des treebanks UD pour la comparaison 4. https://universaldependencies.org/

5. Il existe également un treebank de questions, French-FQB (Seddah & Candito,2016), mais la plupart des questions de ce treebank sont plutôt des questions longues, et peu similaires aux questions « typiques » du quiz.

6. https://github.com/ag-sc/QALD

7. https://universaldependencies.org/guidelines.html

(23)

français (Fr-GSD)

BERT 91,20 96,10 97,55

CamemBERT 92,12 97,37 98,26 FlauB^ERT 90,53 94,74 96,86

Word2Vec 90,88 95,79 97,21

XLM-R 91,23 96,14 97,56

anglais (En-EWT)

B^ERT 84,85 91,92 94,24 RoBERTa 83,08 91,67 93,85

XLM-R 83,08 90,66 93,59

T^ABLE3 – Analyse des questions avec des corpus d’apprentissage UD de base enrichis de questions Si on prend l’exemple de la questionQuel est le parti politique du maire de Paris ?, l’ensemble des fragments textuels serait Q = {Quel, est, le parti politique du maire de Paris}.

3.2 Génération de la réponse

Lors de cette phase, nous procédons d’abord à un premier test de l’ensemble Qpour vérifier si le fragment textuel qui contient un marqueur de question (exp :quel,quand,quietc.) représente le sujet nsubjdans la question analysée. Si c’est le cas, nous remplaçons tout simplement ce fragment textuel par la réponse que nous avons identifié précédemment. Reprenons l’exemple de la questionQuel est le parti politique du maire de Paris ?, le système détecte automatiquement que le fragment textuel contenant le marqueur de questionQuelreprésente bien le sujet et sera donc remplacé directement par la réponse exacteLe Parti Socialiste. Par suite, la réponse compacte générée seraLe Parti Socialiste est le parti politique du maire de Paris.

Dans le cas contraire, nous procédons à la suppression du fragment textuel contenant le marqueur de question que nous avons détecté et nous ajoutons la réponse R à l’ensemble Q : Q={c₁,c₂, . . . ,c_n−1,R}

À partir de l’ensemble de fragments textuelsQ, nous générons par permutation toutes les structures de réponses possibles qui peuvent former la phrase répondant à la question traitée :

S={s₁(R,c₁,c₂, . . . ,c_n−1),s₂(c₁,R,c₂, . . . ,c_n−1), . . . ,s_m(c₁,c₂, . . . ,c_n−1,R)}

Ces structures seront évaluées par un Modèle de Langue (LM) basé sur des modèles Transformers qui permettra d’extraire la séquence de fragments textuels la plus probable qui servira de réponse :

structure^∗=s∈S;p(s) =argmax

s_i∈S p(si)

Une fois la structure, qui représentera la réponse à la question traitée, est identifiée, l’étape de génération du terme manquant est initiée. En effet, nous supposons qu’il pourrait y avoir un terme qui ne figure pas nécessairement dans la question ou dans la réponse mais qui est par contre nécessaire à la génération d’une bonne structure grammaticale de la réponse.

Par suite, pour prédire ce terme manquant nous faisons appel à BERT en tant que modèle de langue « masqué». Dans le cas ou B^ERT renvoie une séquence de caractère non alphabétique, nous concluons que la structure optimale, telle qu’elle était prédite par le LM, ne nécessite pas d’être complétée par un terme supplémentaire.

(24)

L’exemple suivant illustre les différentes étapes de l’approche proposée : Question :Dans quel pays se trouve le Lac de Garde ?

1. Découpage de la question en fragments textuels (à partir de l’analyse en dépendance obtenu avec UDPipe)→{Dans quel pays,se trouve,le Lac De Garde}

2. Suppression des marqueurs de question (Dans quel pays)→{se trouve,le Lac De Garde} 3. Ajout de la réponse brute→{se trouve,le Lac de Garde,Italie}

4. Génération des structures de réponses possibles

→ — se trouve, le Lac de Garde, Italie

— Italie, se trouve, le Lac de Garde

— . . .

5. Évaluation des structures par un modèle de langage→ structure^∗ = {le Lac de Garde,se trouve,Italie}

6. Génération des termes manquants àstructure^∗(avec B^ERTpour l’anglais ou CamemB^ERT pour le français)

→le Lac de Garde se trouve [terme manquant] Italie: « en » Réponse :le Lac de Garde se trouve en Italie.

4 Évaluation

Les corpus de tests existants pour l’évaluation des SQR, sont plus adaptés aux systèmes qui génèrent la réponse exacte à la question et donc une réponse courte ou sont plus axés vers la tâche de Machine Reading Comprehensionoù la réponse consiste en un passage de texte contenant la réponse exacte.

Nous avons créé un jeu de données qui consiste à associer des questions extraites du corpus QALD-7 challenge (Usbecket al.,2017) avec des réponses en langage naturel qui ont été définies manuellement par un linguiste et que nous avons revues individuellement. Ce corpus appelé QueReo consiste en 150 questions avec les réponses exactes extraites par le SQR que nous avons décrit précédemment.

On note en moyenne trois réponses possibles en langage naturel pour chaque question. Ce corpus existe en versions française et anglaise.

{structures possibles de réponse} LM structure* Génération du

terme manquant réponse {structures possibles de réponse} Génération du {structures} LM

terme manquant réponse

A1

A2

LM Génération

BERT CamemBERT XLNet GPT/GPT2 XLM FlauBERT

BERT CamemBERT Architectures

A1 A2

Métriques

BLEU METEOR ROUGE BERTScore

FIGURE 2 – Cadre d’expérimentation

Comme illustré dans la figure2, deux architectures possibles de l’approche que nous proposons pour la génération de réponse ont été évaluées. La première architectureA1consiste à générer toutes les structures possibles de réponses pour les faire évaluer après par un LM qui permettrait la sélection de

(25)

la réponse optimale puis de générer le terme manquant à cette structure. L’architecture A2commence à générer le terme manquant pour chaque structure dansQqui seront ensuite évaluer par le LM. Pour le moment, nous supposons qu’il y a seulement 1 terme manquant par structure.

Pour évaluer l’approche proposée, nous avons opté pour trois métriques N-gram (B^LEU, M^ETEOR et ROUGE) utilisées dans la littérature pour évaluer ce type de tâche et la métrique BERTScore qui exploite les plongements lexicaux pré-entraînés de BERTpour calculer la similarité entre la réponse générée et la réponse de référence. Pour pouvoir comparer les différentes variantes de l’approche, nous nous sommes référés au test de Friedman (Milton,1939) qui permet de détecter les écarts de performances entre plusieurs modèles évalués par plusieurs métriques en se basant sur les rangs moyens.

La table4(corpus français) et la table5(corpus anglais) ne présentent que les résultats obtenus pour les cinq meilleurs modèles selon le classement du test de Friedman. Les modèles de langue utilisés sont adaptés selon la langue du corpus mis en test. Vanté par ses mérites en tant que modèle génératif très puissant entraîné sur un très large corpus de données, le modèle GPT a été également testé avec le corpus français pour voir s’il arrive à détecter la meilleure structure à choisir pour une question.

Les valeurs mises entre parenthèses représentent le rang d’un modèle selon la métrique utilisée.

rang arch. LM modèle %BleuS %MeteorS %RougeS %BertS

moyen de génération score rang score rang score rang score rang

8,5 A1 BERT CamemBERT 68,21 14 95,90 2 84,48 11 94,45 7

12 A1 GPT CamemB^ERT 68,63 13 96,04 1 84,04 15 93,85 19

13,5 A1 GPT BERT 70,39 6 94,90 38 85,70 4 94,61 6

13,5 A1 BERT BERT 69,68 9 95,03 35 85,26 6 94,79 4

13,75 A2 B^ERT B^ERT 75,08 1 94,78 48 85,91 3 94,98 3

16 A2 GPT CamemB^ERT 69,37 10 95,73 13 83,59 21 93,82 20

18,5 A1 XLM BERT 67,02 19 95,04 34 84,89 7 94,12 14

21,75 A2 XLM BERT 68,67 12 94,44 59 84,67 8 94,42 8

25,25 A2 B^ERT CamemB^ERT 63,82 52 95,82 7 83,13 26 93,98 16

26 A2 XLN^ET B^ERT 70,87 4 94,05 74 84,65 9 93,98 17

T^ABLE 4 – Classement des modèles selon le test de Friedman - Corpus français

Selon la table4, c’est CamemB^ERTen tant que modèle de génération du terme manquant à la réponse, associé à B^ERT et GPT en tant que modèles de langue, qui se classe en premières places selon la moyenne des rangs des quatre métriques d’évaluation, pour traiter les questions du corpus français.

Comme attendu, le modèle GPT, malgré le fait qu’il est principalement entraîné sur un corpus de texte écrit en anglais, arrive quand même à prédire la meilleure structure de réponse pour du texte écrit en français. Ce modèle, dans sa deuxième version améliorée GPT2, arrive également à se hisser aux premiers rangs pour le corpus de questions anglais, associé à BERTcomme modèle génératif du terme manquant.

La différence de performance selon l’architecture adoptée varie aussi selon la langue dans laquelle la question est écrite. En effet, nous remarquons que par rapport aux cinq premiers rangs, c’est l’architecture A1 faisant évaluer les structures par le modèle de langue avant de générer le terme manquant, qui donne les meilleurs résultats pour le corpus français, alors que c’est la deuxième architectureA2qui est la plus pertinente pour les questions en anglais.

(26)

rang arch. LM modèle %BleuS %MeteorS %RougeS %BertS

moyen de génér. score rang score rang score rang score rang

1,25 A2 GPT2 BERT 77,82 1 94,41 1 93,48 1 97.30 2

2 A1 GPT BERT 77,56 2 94,02 3 93,22 2 97,51 1

5 A2 XLM B^ERT 76,90 5 94,14 2 92,17 7 97,16 6

8 A2 GPT B^ERT 75,26 14 93,72 10 92,68 3 97,19 5

9,5 A1 XLM BERT 76,71 7 93,92 4 91,63 12 96,79 15

12,75 A1 XLN^ET B^ERT 74,96 15 93,77 7 91,3 17 96,8 12

16,5 A1 GPT2 B^ERT 75,75 10 93,49 21 91,11 24 96,87 11

17 A2 XLNET BERT 74,19 17 93,57 15 91,2 19 96,78 17

20,5 A2 BERT BERT 74,56 16 93,75 8 90,51 35 96,67 23

22 A1 B^ERT B^ERT 75,37 12 93,41 25 91,12 22 96,59 29

TABLE 5 – Classement des modèles selon le test de Friedman - Corpus anglais

Il faut noter que dû à la spécificité de l’approche que nous proposons et qui fait usage des termes de la question pour générer une réponse en langage naturel, nous avons obtenu des scores relativement élevés. Nous pensons que la mesure de corrélation avec une évaluation humaine permettrait de déterminer la métrique d’évaluation la plus appropriée.

5 Conclusion

Nous avons présenté dans cet article une approche non-supervisée qui se base sur des modèles Transformer pour la génération de réponse en langage naturel dans le cadre des systèmes de question- réponse. L’évaluation que nous avons effectuée prouve que cette approche est prometteuse. Nous envisageons d’utiliser cette approche pour construire des corpus d’apprentissage de type question- réponse en langage naturel, qui permettraient d’entraîner des approches neuronales de type end-to-end.

Références

A^GICHTEIN E. & G^RAVANO L. (2000). Snowball : Extracting relations from large plain-text collections. InProceedings of the fifth ACM conference on Digital libraries, p. 85–94.

B^RILLE., D^UMAISS. & B^ANKO M. (2002). An analysis of the askmsr question-answering system.

In Proceedings of the ACL conference on Empirical methods in natural language processing, p.

257–264 : Association for Computational Linguistics.

BRILL E., LIN J., BANKO M., DUMAISS. & NGA. (2001). Data-intensive question answering.

InIn Proceedings of the Tenth Text REtrieval Conference (TREC), p. 393–400.

C^HOPRA S., A^ULI M. & R^USH A. M. (2016). Abstractive sentence summarization with attentive recurrent neural networks. InProceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, p. 93–98.

CONNEAU A., KHANDELWAL K., GOYAL N., CHAUDHARY V., WENZEK G., GUZMÁN F., G^RACE E., O^TT M., Z^ETTLEMOYER L. & S^TOYANOV V. (2019). Unsupervised Cross-lingual Representation Learning at Scale. arXiv preprint :1911.02116.

(27)

DEVLIN J., CHANG M.-W. C., LEEK. & TOUTANOVAK. (2019). BERT : Pre-training of deep bidirectional transformers for language under-standing. InNAACL, p. 4171–4186, Minneapolis : Association for Computational Linguistics.

DOS SANTOS C., TAN M., XIANG B. & ZHOU B. (2016). Attentive pooling networks. arXiv preprint :1602.03609.

DOZAT T., QIP. & MANNINGC. D. (2017). Stanford’s Graph-based Neural Dependency Parser at the CoNLL 2017 Shared Task. InProceedings of the CoNLL 2017 Shared Task. Multilingual Parsing from Raw Text to Universal Dependencies, p. 20–30, Vancouver, Canada : Association for Computational Linguistics.

GIRJU R. (2003). Automatic detection of causal relations for question answering. InProceedings of the ACL 2003 workshop on Multilingual summarization and question answering-Volume 12, p.

76–83 : Association for Computational Linguistics.

IIDA R., KRUENGKRAI C., ISHIDAR., TORISAWAK., OHJ.-H. & KLOETZER J. (2019). Exploi- ting background knowledge in compact answer generation for why-questions. InProceedings of the AAAI Conference on Artificial Intelligence, volume 33, p. 142–151.

ISHIDA R., TORISAWAK., OHJ.-H., IIDAR., KRUENGKRAIC. & KLOETZER J. (2018). Semi- distantly supervised neural model for generating compact answers to open-domain why questions.

InThirty-Second AAAI Conference on Artificial Intelligence.

KRUENGKRAIC., TORISAWAK., HASHIMOTOC., KLOETZERJ., OHJ.-H. & TANAKAM. (2017).

Improving event causality recognition with multiple background knowledge sources using multi- column convolutional neural networks. InThirty-First AAAI Conference on Artificial Intelligence.

LAWRENCES. & GILESC. L. (1998). Context and page analysis for improved web search. IEEE Internet computing,2(4), 38–46.

LEH., VIALL., FREJJ., SEGONNEV., COAVOUXM., LECOUTEUX B., ALLAUZENA., CRABBÉ

B., BESACIER L. & SCHWABD. (2020). FlauBERT : Unsupervised Language Model Pre-training for French. InLREC 2020. arXiv preprint :1912.05372.

LIUY., OTT M., GOYAL N., DU, JINGFEI ADN JOSHI M., CHEN D., LEWIS M., ZETTLEMOYER

L. & S^TOYANOV V. (2019). RoBERTa : A Robustly Optimized BERT Pretraining Approach. arXiv preprint :1907.11692.

MARTIN L., MULLER B., SUÁREZ P. J. O., DUPONT Y., ROMARY L., VILLEMONTE DE LA

C^LERGERIEÉ., S^EDDAHD. & S^AGOTB. (2019). CamemBERT : a Tasty French Language Model.

arXiv preprint1911.03894.

MIAO Y. & BLUNSOM P. (2016). Language as a latent variable : Discrete generative models for sentence compression. EMNLP 2016.

MILTON F. (1939). A correction : The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association. American Statistical Association,34(205), 109.

NALLAPATI R., ZHOU B.,DOS SANTOS C., G˙ULÇEHREÇ., XIANG B. et al.(2016). Abstractive text summarization using sequence-to-sequence RNNs and beyond. InCoNLL 2016, p. 280–290.

NÎVRE J., MÂRNEFFE M.-C. ^D., GÎNTER F., GÔLDBERG Y., GÔLDBERG Y., H^{AJI ˇC} J., D.

M. C., MCDONALD R., PETROVS., PYYSALO S., SILVEIRA N., TSARFATY R. & ZEMAN D.

(2016). Universal Dependencies v1 : A Multilingual Treebank Collection. Inthe tenth international conference on Language Resources and Evaluation, p. 23–38, Portorož, Slovenia : European Language Resources Association.

(28)

OH J.-H., TORISAWA K., HASHIMOTO C., IIDA R., TANAKA M. & KLOETZER J. (2016). A semi-supervised learning approach to why-question answering. InThirtieth AAAI Conference on Artificial Intelligence.

OH J.-H., TORISAWA K., HASHIMOTO C., SANO M., DE SAEGER S. & OHTAKE K. (2013).

Why-question answering using intra-and inter-sentential causal relations. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers), p.

1733–1743.

RÂDFORD A., NÂRASIMHAN K., SÂLIMANS T. & SÛTSKEVER I. (2018). Improving language understanding by generative pre-training. https://cdn.openai.com/research-covers/

language-unsupervised/language_understanding_paper.pdf.

RÔJASBÂRAHONAL. M., BÊLLECP., BÊSSETB., DÔSSÂNTOSM., HÊINECKEJ., A^SADULLAH M., LÊBLOUCH O., LÂNCIEN J.-Y., DÂMNATIG., MÔRY E. & HÊRLÉDAN F. (2019). Spoken Conversational Search for General Knowledge. InSIGdial Meeting on Discourse and Dialogue, p.

110–113, Stockholm : Association for Computational Linguistics.

R^USHA. M., C^HOPRA S. & W^ESTON J. (2015). A neural attention model for abstractive sentence summarization. arXic preprint :1509.00685.

S^EDDAHD. & C^ANDITO M. (2016). Hard Time Parsing Questions : Building a QuestionBank for French. Inthe tenth international conference on Language Resources and Evaluation, Portorož, Slovenia : European Language Resources Association.

SÊE A., LÎU P. J. & MÂNNING C. D. (2017). Get to the point : Summarization with pointer- generator networks. arXiv preprint :1704.04368.

S^HARP R., SÛRDEANU M., JÂNSEN P., C^LARK P. & HÂMMOND M. (2016). Creating causal embeddings for question answering with minimal supervision. EMNLP 2016.

STRAKA M. (2018). UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task. InProceedings of the CoNLL 2018 Shared Task : Multilingual Parsing from Raw Text to Universal Dependencies, p.

197–207, Brussels : Association for Computational Linguistics.

TAN M., DOS SANTOS C., XIANG B. & ZHOU B. (2016). Improved representation learning for question answer matching. InProceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers), p. 464–473.

USBECKR., NGOMOA.-C. N., HAARMANN B., KRITHARA A., RÖDER M. & NAPOLITANOG.

(2017). 7th Open Challenge on Question Answering over Linked Data (QALD-7). In M. D^RAGONI, M. S^OLANKI & E. B^LOMQVIST, Éds., Semantic Web Challenges, p. 59–69, Cham : Springer International Publishing.

VÊRBERNE S., ^VAN HÂLTEREN H., T^HEIJSSEN D., RÂAIJMAKERS S. & BÔVES L. (2011).

Learning to rank for why-question answering. Information Retrieval,14(2), 107–132.

ZEMAND., HAJI ˇCJ., POPELM., POTTHASTM., STRAKAM., GINTERF., NIVREJ. & PETROVS.

(2018). CoNLL 2018 Shared Task : Multilingual Parsing from Raw Text to Universal Dependencies.

In D. Z^EMAN & J. H^{AJI ˇC}, Éds.,Proceedings of the CoNLL 2018 Shared Task : Multilingual Parsing from Raw Text to Universal Dependencies, p. 1–21, Brussels : Association for Computational Linguistics.