• Aucun résultat trouvé

ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables

N/A
N/A
Protected

Academic year: 2021

Partager "ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables"

Copied!
882
0
0

Texte intégral

(1)

JADT’ 18

PROCEEDINGS OF THE

14

TH

INTERNATIONAL CONFERENCE

(2)
(3)

JADT’ 18

PROCEEDINGS OF THE

14

TH

INTERNATIONAL CONFERENCE

ON STATISTICAL ANALYSIS OF TEXTUAL DATA

(Rome, 12-15 June 2018)

Vol. I

UniversItalia

2018

(4)

PROPRIETÀ LETTERARIA RISERVATA Copyright 2018 - UniversItalia - Roma ISBN 978-88-3293-137-2

A norma della legge sul diritto d’autore e del codice civile è vietata la riproduzione di questo libro o di parte di esso con qualsiasi mezzo, elettronico, meccanico, per mezzo di fotocopie, microfilm, registra-tori o altro. Le fotocopie per uso personale del lettore possono tuttavia essere effettuate, ma solo nei limiti del 15% del volume e dietro pagamento alla SIAE del compenso previsto dall’art. 68, commi 4 e 5 della legge 22 aprile 1941 n. 633. Ogni riproduzione per finalità diverse da quelle per uso personale deve essere autorizzata specificatamente dagli autori o dall’editore.

(5)

Program Committee

Ramón Álvarez Esteban: Univ. of León, E Valérie Beaudouin: Telecom ParisTech, F Mónica Bécue: Poly. Univ. of Catalunya, E Sergio Bolasco: Sapienza Univ. of Rome, I Isabella Chiari: Sapienza Univ. of Rome, I François Daoust, UQÀM, Montreal, CDN Anne Dister, FUSL, Bruxelles / UCL, Louvain, B Jules Duchastel: UQÀM, Montreal, CDN Serge Fleury: Univ. Paris 3, F

Cédrick Fairon: UCL, Louvain, B Luca Giuliano: Sapienza Univ. of Rome, I Serge Heiden, ENS, Lyon, F

Domenica Fioredistella Iezzi, Univ. of Tor Vergata, I Margareta Kastberg, Univ. of Franche Comté, F Ludovic Lebart: CNRS / ENST, Paris, F Jean-Marc Leblanc: Univ. of Créteil, F

Alain Lelu: Univ. of Franche Comté, F Dominique Longrée, Univ. of Liège, B

Véronique Magri: Univ. of Nice Sophia-Antipolis, F Pascal Marchand: Univ. of Toulouse, F

William Martinez: Univ. of Lisboa, P Damon Mayaffre: CNRS, Nice, F Sylvie Mellet: CNRS, Nice, F

Michelangelo Misuraca: Univ. of Calabria, I Denis Monière: Univ. of Montréal, CDN Bénédicte Pincemin: CNRS, Lyon, F

Céline Poudat: Univ. of Nice Sophia-Antipolis, F Pierre Retinaud: Univ. of Tolouse, F

André Salem: Univ. Paris 3, F Monique Slodzian: Inalco, F Arjuna Tuzzi: Univ. of Padua, I Mathieu Valette: Inalco, F

Organising Committee

Domenica Fioredistella Iezzi: Univ. of Tor Vergata, I Sergio Bolasco: Sapienza Univ. of Rome, I

Livia Celardo: Sapienza Univ. of Rome, I Isabella Chiari: Sapienza Univ. of Rome, I Francesca della Ratta: ISTAT, I

Fiorenza Deriu: Sapienza Univ. of Rome, I Francesca Dolcetti: Sapienza Univ. of Rome, I

Andrea Fronzetti Colladon: Univ. of Tor Vergata, I Francesca Greco: Sapienza Univ. of Rome, I Isabella Mingo: Sapienza Univ. of Rome, I Michelangelo Misuraca: Univ. of Calabria, I Arjuna Tuzzi: Univ. of Padua, I

Maurizio Vichi: Sapienza Univ. of Rome, I Francesco Zarelli: ISTAT, I

Local Organisation

Francesco Alò, Giulia Giacco, Paolo Meoli, Vittorio Palermo, Viola Talucci

(6)
(7)

Introduction ... XVII Acknowledgements ... XIX

Invited Speakers

GERMAN KRUSZEWSKI

Memorize or generalize? Searching for a compositional RNN in a haystack Adam Liška ... XXIII BING LIU

Scaling-up Sentiment Analysis through Continuous Learning ... XXIV PASCAL MARCHAND

La textométrie comme outil d’expertise :

application à la négociation de crise. ... XXV GEORGE K.MIKROS

Author Identification Combining Various Author Profiles. Towards a Blended Authorship Attribution Methodology ... XXVI ROBERTO NAVIGLI

From text to concepts and back: going multilingual

with BabelNet in a step or two ... XXVII

Contributors

MOTASEM ALRAHABI1,CHIARA MAINARDI1

Identification automatique de l’ironie et des formes apparentées dans un corpus de controverses théâtrales ... 1 MOHAMMAD ALSADHAN,SASCHA DIWERSY,

AGATA JACKIEWICZ,GIANCARLO LUXARDO

Migrants et réfugiés : dynamique de la nomination de l'étranger ... 10 R.ALVAREZ-ESTEBAN,M.BÉCUE-BERTAUT,B.KOSTOV, F.HUSSON,J-A SÁNCHEZ-ESPIGARES

Xplortext, a R package. Multidimensional statistics for textual data science . 19 ELENA,AMBROSETTI,ELEONORA MUSSINO,VALENTINA TALUCCI

L'evoluzione delle norme: analisi testuale delle politiche sull'immigrazione in Italia ... 26

(8)

MASSIMO ARIA,CORRADO CUCCURULLO

A bibliometric meta-review of performance measurement, appraisal,

management research ... 35 LAURA ASCONE

Textual Analysis of Extremist Propaganda and Counter-Narrative: a quanti-quali investigation ... 44 LAURA ASCONE,LUCIE GIANOLA

Analyse de données textuelles appliquée à des problématiques de sécurité et d'enquête judiciaire ... 52 SIMONA BALBI,MICHELANGELO MISURACA,MARIA SPANO

A two-step strategy for improving categorisation of short texts ... 60 CHRISTINE BARATS,ANNE DISTER,PHILIPPE GAMBETTE, JEAN-MARC

LEBLANC,MARIE PERES

Appeler à signer une pétition en ligne : caractéristiques linguistiques des appels ... 68 MANUEL BARBERA,CARLA MARELLO

Newsgroup e lessicografia: dai NUNC al VoDIM ... 76 IGNAZIA BARTHOLINI

Techniques for detecting the normalized violence in the perception of refugee / asylum seekers between lexical analysis and factorial analysis ... 83 PATRIZIA BERTINI MALGARINI,MARCO BIFFI,UGO VIGNUZZI

Dal corpus al dizionario: prime riflessioni lessicografiche sul Vocabolario storico della cucina italiana postunitaria (VoSCIP) ... 90 MARCO BIFFI

Strumenti informatico-linguistici per la realizzazione di un dizionario

dell’italiano postunitario ... 99 ANNICK FARINA,RICCARDO BILLERO

Comparaison de corpus de langue « naturelle » et de langue « de traduction » : les bases de données textuelles LBC, un outil essentiel pour la création de fiches lexicographiques bilingues... 108 FELICE BISOGNI,STEFANO PIRROTTA

Il rapporto tra famiglie di anziani non autosufficienti e servizi territoriali: un'analisi dei dati esploratoria con l'Analisi Emozionale del Testo (AET) .... 117 ANTONELLA BITETTO,LUIGI BOLLANI

Esperienza di analisi testuale di documentazione clinica e di flussi informativi sanitari, di utilità nella ricerca epidemiologica e per indagare la qualità dell'assistenza. ... 126 GUIDO BONINO,DAVIDE PULIZZOTTO,PAOLO TRIPODI

Exploring the history of American philosophy in a computer-assisted

(9)

MARC-ANDRE BOUCHARD,SYLVIA KASPARIAN

La classification hiérarchique descendante pour l’analyse des représentations sociales dans une pétition antibilinguisme au Nouveau-Brunswick,

Canada ... 142 LIVIA CELARDO,RITA VALLEROTONDA,DANIELE DE SANTIS,CLAUDIO

SCARICI,ANTONIO LEVA

Analysing occupational safety culture through mass media monitoring ... 150 BARBARA CORDELLA,FRANCESCA GRECO,PAOLO MEOLI,VITTORIO

PALERMO,MASSIMO GRASSO

Is the educational culture in Italian Universities effective? A case study ... 157 MICHELE A.CORTELAZZO,GEORGE K.MIKROS,ARJUNA TUZZI

Profiling Elena Ferrante: a Look Beyond Novels ... 165 FABRIZIO DE FAUSTI,MASSIMO DE CUBELLIS,DIEGO ZARDETTO1

Word Embeddings: a Powerful Tool for Innovative Statistics at Istat ... 174 Gibbons A. (1985). Algorithmic Graph Theory. Cambridge University Press. . 182 VIVIANA DE GIORGI,CHIARA GNESI

Analisi di dati d’impresa disponibili online: un esempio di data science tratto dalla realtà economica dei siti di e-commerce ... 183 ALESSANDRO CAPEZZUOLI,FRANCESCA DELLA RATTA,

STEFANIA MACCHIA,MANUELA MURGIA,MONICA SCANNAPIECO, DIEGO ZARDETTO

The use of textual sources in Istat: an overview ... 192 FRANCESCA DELLA RATTA,GABRIELLA FAZZI,MARIA ELENA

PONTECORVO, CARLO VACCARI,ANTONINO VIRGILLITO

Twitter e la statistica ufficiale: il dibattito sul mercato del lavoro ... 200 SAMI DIAF

Gauging An Author’s Mood Using Hidden Markov Chains ... 209 MARC DOUGUET

Les hémistiches répétés ... 215 FRANCESCA DRAGOTTO,SONIA MELCHIORRE

«Mangiata dall’orco e tradita dalle donne». Vecchi e nuovi media raccontano la vicenda di Asia Argento, tra storytelling e Speech Hate ... 223 CRISTIANO FELACO,ANNA PAROLA

Il cosa e il come del processo narrativo. L’uso combinato della Text Analysis e Network Text Analysis al servizio della precarietà lavorativa ... 233 ANA NORA FELDMAN

Hablando de crisis: las comunicaciones del Fondo Monetario Internacional 242 VALERIA FIASCO

Brexit in the Italian and the British press:

a bilingual corpus-driven analysis ... 250 VIVIANA FINI,GIUSEPPE LUCIO GAETA,SERGIO SALVATORE

(10)

ALESSIA FORCINITI,SIMONA BALBI

A proposal for Cross-Language Analysis:

violence against women and the Web ... 268 BEATRICE FRACCHIOLLA,OLINKA SOLENE DE ROGER

La verbalisation des émotions ... 276 LUISA FRANCHINA,FRANCESCA GRECO,ANDREA LUCARIELLO,

ANGELO SOCAL,LAURA TEODONNO

Improving Collection Process for Social Media Intelligence: A Case Study . 285 ANDREA FRONZETTI COLLADON,JOHANNE SAINT-CHARLES,PIERRE

MONGEAU

The impact of language homophily and similarity of social position on employees’ digital communication ... 293 MATTEO GERLI

Looking Through the Lens of Social Sciences: The European Union in the EU-Funded Research Projects Reporting ... 300 LUCIE GIANOLA,MATHIEU VALETTE

Spécialisation générique et discursive d’une unité lexical L’exemple de

joggeuse dans la presse quotidienne régionale ... 312

PETER A.GLOOR,JOAO MARCOS DE OLIVEIRA,DETLEF SCHODER

The Transparency Engine – A Better Way to Deal with Fake News ... 319 FRANCESCA GRECO,LEONARDO ALAIMO,LIVIA CELARDO

Brexit and Twitter: The voice of people... 327 FRANCESCA GRECO,GIULIO DE FELICE,OMAR GELO

A text mining on clinical transcripts of good and poor outcome

psychotherapies ... 335 FRANCESCA GRECO,DARIO MASCHIETTI,ALESSANDRO POLLI

DOMINIO: A Modular and Scalable Tool for the Open Source Intelligence 343 LEONIE GRÖN,ANN BERTELS,KRIS HEYLEN

Is training worth the trouble? A PoS tagging experiment with Dutch clinical records ... 351 FRANCE GUERIN-PACE,ELODIE BARIL

Les outils de la statistique textuelle pour analyser

les corpus de données d’enquêtes de la statistique publique ... 359 SERGE HEIDEN

Annotation-based Digital Text Corpora Analysis within the TXM Platform 367 DANIEL HENKEL

Quantifying Translation : an analysis of the conditional perfect in English-French comparable-parallel corpus ... 375 DANIEL DEVATMAN HROMADA

Extraction of lexical repetitive expressions from complete works of William Shakespeare ... 384

(11)

OLIVIER KRAIF,JULIE SORBA

Spécificités des expressions spatiales et temporelles dans quatre sous-genres romanesques (policier, science-fiction, historique et littérature générale) .... 392 CYRIL LABBE,DOMINIQUE LABBE

Les phrases de Marcel Proust ... 400 LUDOVICA LANINI,MARÍA CARLOTA NICOLÁS MARTÍNEZ

Verso un dizionario corpus-based del lessico dei beni culturali: procedure di estrazione del lemmario ... 411 DANIELA LARICCHIUTA,FRANCESCA GRECO,FABRIZIO PIRAS,BARBARA

CORDELLA,DEBORA CUTULI,ELEONORA PICERNI,FRANCESCA

ASSOGNA, CARLO LAI,GIANFRANCO SPALLETTA,LAURA PETROSINI

“The grief that doesn’t speak”: Text Mining and Brain Structure 419 GEVISA LA ROCCA,CIRUS RINALDI

Icone gay: tra processi di normalizzazione e di resistenza. Ricostruire la semantica degli hashtag ... 428 LUDOVIC LEBART

Looking for topics: a brief review ... 436 GAËL LEJEUNE,LICHAO ZHU

Analyse Diachronique de Corpus : le cas du poker ... 444 JULIEN LONGHI,ANDRE SALEM

Approche textométrique des variations du sens ... 452 LAURENT VANNI1,DAMON MAYAFFRE,DOMINIQUE LONGREE

ADT et deep learning, regards croisés. Phrases-clefs, motifs et nouveaux observables ... 459 LUCIE LOUBERE

Déconstruction et reconstruction de corpus... À la recherche de la pertinence et du contexte ... 467 HEBA METWALLY

L’apport du corpus-maquette à la mise en évidence des niveaux descriptifs de la chronologie du sens. Essai sur une Série Textuelle Chronologique du Monde

diplomatique (1990-2008). ... 474

JUN MIAO,ANDRE SALEM

Séries textuelles homogènes ... 491 SILVIO MIGLIORI,ANDREA QUINTILIANI,DANIELA ALDERUCCIO, FIORENZO AMBROSINO,ANTONIO COLAVINCENZO,MARIALUISA

MONGELLI, SAMUELE PIERATTINI,GIOVANNI PONTI SERGIO BOLASCO,

FRANCESCO BAIOCCHI,GIOVANNI DE GASPERIS

TaLTaC in ENEAGRID Infrastructure ... 501 ISABELLA MINGO,MARIELLA NOCENZI

The dimensions of Gender in the International Review of Sociology. A lexicometric approach to the analysis of the publications in the last twenty years ... 509

(12)

ADIEL MITTMANN,ALCKMAR LUIZ DOS SANTOS

The Rhythm of Epic Verse in Portuguese From the 16th to the 21st Century514 DENIS MONIERE,DOMINIQUE LABBE

Le vocabulaire des campagnes électorales ... 522 CYRIELLE MONTRICHARD

Faire émerger les traces d’une pratique imitative dans la presse de tranchées à l’aide des outils textométriques ... 532 ALBERT MORALES MORENO

Evolución diacrónica de la terminología y la fraseología

jurídico-administrativa en los Estatutos de autonomía de Catalunya de 1932, 1979 y 2006 ... 541 CEDRIC MOREAU

Comment penser la recherche d’un signe pour une plateforme multilingue et multimodale français écrit / langue des signes française ? ... 556 JEAN MOSCAROLA,BORIS MOSCAROLA

Conclusion ADT et visualisation, pour une nouvelle lecture des corpus Les débats de 2ème tour des Présidentielles (1974-2017) ... 563 MAURIZIO NALDI

A conversation analysis of interactions in personal finance forums ... 571 STEFANO NOBILE

Analisi testuale, rumore semantico e peculiarità morfosintattiche:

problemi e strategie di pretrattamento di corpora speciali. ... 578 DANIEL PELISSIER

L’individu dans le(s) groupe(s) : focus group et partitionnement

du corpus ... 586 BENEDICTE PINCEMIN,CELINE GUILLOT-BARBANCE,ALEXEI

LAVRENTIEV

Using the First Axis of a Correspondence Analysis as an Analytical Tool. Application to Establish and Define an Orality Gradient for Genres of Medieval French Texts ... 594 CELINE POUDAT

Explorer les désaccords dans les fils de discussion du Wikipédia francophone ... 602 MATTHIEU QUIGNARD,SERGE HEIDEN,FREDERIC LANDRAGIN,

MATTHIEU DECORDE

Textometric Exploitation of Coreference-annotated Corpora with TXM: Methodological Choices and First Outcomes ... 610 PIERRE RATINAUD

Amélioration de la précision et de la vitesse de l’algorithme de classification de la méthode Reinert dans IRaMuTeQ ... 616

(13)

LUISA REVELLI

Il parametro della frequenza tra paradossi e antinomie:

il caso dell’italiano scolastico ... 626 PIERGIORGIO RICCI

How Twitter emotional sentiments mirror on the Bitcoin

transaction network ... 635 CHANTAL RICHARD,SYLVIA KASPARIAN

Analyse de contenu versus méthode Reinert : l’analyse comparée d’un corpus bilingue de discours acadiens et loyalistes du N.-B., Canada ... 643 VALENTINA RIZZOLI,ARJUNA TUZZI

Bridge over the ocean: Histories of social psychology in Europe and North America. An analysis of chronological corpora ... 651 LOUIS ROMPRE,ISMAÏL BISKRI

Les « itemsets fréquents » comme descripteurs de documents textuels ... 659 CORINNE ROSSARI,LJILJANA DOLAMIC,ANNALENA HÜTSCH, CLAUDIA

RICCI,DENNIS WANDEL

Discursive Functions of French Epistemic Adverbs: What can Correspondence Analysis tell us about Genre and Diachronic Variation? ... 668 VANESSA RUSSO,MARA MARETTI, LARA FONTANELLA,ALICE

TONTODIMAMMA

Misleading information in online propaganda networks ... 676 ELIANA SANANDRES,CAMILO MADARIAGA,RAIMUNDO ABELLO

Topic modeling of Twitter conversations ... 684 FRANCESCO SANTELLI,GIANCARLO RAGOZINI,MARCO MUSELLA

What volunteers do? A textual analysis of voluntary activities in the Italian context ... 692 S.SANTILLI,S.SBALCHIERO,L.NOTA,S.SORESI

A longitudinal textual analysis of abstract presented at Italian Association for Vocational guidance and Career Counseling’

Conferences from 2002 to 2017 ... 700 JACQUES SAVOY

A la poursuite d’Elena Ferrante ... 707 JACQUES SAVOY

Regroupement d’auteurs dans la littérature du XIXe siècle ... 716 STEFANO SBALCHIERO,ARJUNA TUZZI

What’s Old and New? Discovering Topics in the American Journal of

Sociology ... 724 NILS SCHAETTI,JACQUES SAVOY

Comparison of Neural Models for Gender Profiling ... 733 LIONEL SHEN

(14)

SANDRO STANCAMPIANO

Misurare, Monitorare e Governare le città con i Big Data ... 748 FADILA TALEB,MARYVONNE HOLZEM

Exploration textométrique d’un corpus de motifs juridiques dans le droit international des transports ... 755 JAMES M.TEASDALE

The Framing of the Migrant: Re-imagining a Fractured Methodology in the Context of the British Media. ... 763 MARJORIE TENDERO1,CECILE BAZART

Results from two complementary textual analysis software (Iramuteq and Tropes) to analyze social representation of contaminated brownfields ... 771 MATTEO TESTI,ANDREA MERCURI,FRANCESCO PUGLIESE

Multilingual Sentiment Analysis ... 780 JUAN MARTÍNEZ TORVISCO

A linguistic analysis of the image of immigrants’ gender in Spanish

newspapers ... 788 FRANCESCO URZÌ

Lo strano caso delle frequenze zero nei testi legislativi euroistituzionali... 796 SYLVIE VANDAELE

Les traductions françaises de The Origin of Species : pistes lexicométriques . 805 PIERRE WAVRESKY,MATTHIEU DUBOYS DE LABARRE, JEAN-LOUP

LECOEUR

Circuits courts en agriculture : utilisation de la textométrie dans le traitement d’une enquête sur 2 marchés ... 814 MARIA ZIMINA,NICOLAS BALLIER

On the phraseology of spoken French: initial salience, prominence and lexicogrammatical recurrence in a prosodic-syntactic treebank Rhapsodie .... 822

Abstracts

FILIPPO CHIARELLO,GUALTIERO FANTONI, ANDREA BONACCORSI, SILVIA FARERI

What kind of contributions does research provides? Mapping issue based statements in research abstracts ... 833 FILIPPO CHIARELLO,GIACOMO OSSOLA,GUALTIERO FANTONI,ANDREA

BONACCORSI,ANDREA CIMINO,FELICE DELL’ORLETTA

Technical sentiment analysis: predicting the success of new products using social media ... 835

(15)

FIORENZA DERIU,DOMENICA FIOREDISTELLA IEZZI

Citizens and neighbourhood life: mapping population sentiment in Italian cities ... 837 FRANCESCA DI CARLO,ROSY INNARELLA,BRIZIO LEONARDO TOMMASI

Vax network: profiling influential nodes with social network analysis on twitter ... 838 DAVIDE DONNA

Alteryx ... 840 VALERIO FICCADENTI,ROY CERQUETI,MARCEL AUSLOOS

Complexity of US President Speeches ... 841 PETER A.GLOOR

Measuring the Dynamics of Social Networks with Condor ... 842 IOLANDA MAGGIO,DOMENICA FIOREDISTELLA IEZZI,MATTEO

FATIGHENTI

“BIG DATA” Words Trend Analysis using the multidimensional analysis of texts ... 844 MARIO MASTRANGELO

Itinerari turistici, network analysis e text mining ... 845 MARIA FRANCESCA ROMANO,GUIDO REY,ANTONELLA BALDASSARINI

PASQUALE PAVONE

Text Mining per l’analisi qualitativa e quantitativa dei dati amministrativi utilizzati dalla Pubblica Amministrazione ... 847 ALESSANDRO CESARE ROSA

Taglio cesareo e Vbac in Italia al tempo dei Big Data: una proposta di ulteriore contributo informativo. ... 849

(16)
(17)

The International Conference on the Statistical Analysis of Textual Data (JADT, Journées d’Analyse Statistique des Données Textuelles) has been at its 14th edition. It was held for the third time in Rome, from 12 to 15 June 2018, organized by the DII - Department of Enterprise Engineering “Mario Lucertini” at Tor Vergata University of Rome and the DSS - Department of Statistical Sciences at Sapienza University of Rome. This biennial conference has continuously gained importance since its first occurrence in Barcelone (1992), and with the editions of Montpellier (1994), Rome (1996), Nice (1998), Lausanne (2000), Saint-Malo (2002), Louvain-la Neuve (2004), Besançon (2006), Lyon (2008), Rome (2010), Liège (2012), Paris (2014), Nice (2016). Every two years, the JADT conference presented the state of the art concerning theories, problems, methods, algorithms, software and applications in several domains, sharing a quantitative approach to the study of lexical, textual, pragmatic or discursive features of information expressed in natural language.

The proceedings of the 2018 Conference collect 113 contributions by 243 scholars from 15 countries spread all over the world. These papers include contributions open to all scholars and researchers working in the field of textual data analysis, ranging from lexicography to the analysis of political discourse, from information retrieval to marketing research, from computational linguistics to sociolinguistics, from text mining to content analysis. The invited speakers focused on the central topics of the conference, discussing open and new themes, e.g. machine learning algorithms to profiling users of social media, new multilingual approaches, textometry, and authorship. The proceedings follow an alphabetical order by the surname of the first author of the contributions.

In this edition, several innovations have been introduced with respect to the past. In a roundtable, we discussed the past, present and future of Statistical Analysis of Textual Data and Text Mining methods, by examining the point of view of Universities and enterprises. The papers, which followed a review process carried out with two and sometimes three reviewers, are maximum of 6 pages. The idea is that the papers were not yet in their final version, and the exchange with other scholars during the conference led to an improvement. For the first time, a selection of extended papers presented at

(18)

the JADT conference will be published, after another reviewing process, in a book published by Springer and in several special issues of acknowledged Journals (Advances in Data Analysis and Classification, International Review of Sociology, Italian Journal of Applied Statistics, Social Indicators Research, RPC Rivista di Psicologia Clinica). The perspective of enhancing the papers discussed during JADT conference will allow the scholar community to keep the network of active contacts and lively exchanges.

(19)

We express our gratitude to the 56 reviewers who offered their assistance in selecting and anonymously reviewing the papers of this volume: Massimo Aria, Barbara Baldazzi, Nadia Battisti, Valérie Beaudouin, Sergio Bolasco, Etienne Brunet, Mónica Bécue, Isabella Chiari, Livia Celardo, Michele Cortelazzo, Pasquale Del Vecchio, Francesca Della Ratta, Fiorenza Deriu, Anne Dister, Francesca Dolcetti, Annick Farina, Serge Fleury, Andrea Fronzetti, Luca Giuliano, Peter Gloor, Francesca Greco, Francesca Grippa, Serge Heiden, D. Fioredistella Iezzi, Antonio Iovanella, Sylvia Kasparian, Margareta Kastberg, Dominique Labbé, Ludovica Lanini, Alexei Lavrentev, Ludovic Lebart, Jean-Marc Leblanc, Alain Lelu, Dominique Longrée, Véronique Magri, Pascal Marchand, Damon Mayaffre, Sylvie Mellet, Silvia Micheli, Michelangelo Misuraca, Denis Monière, Gianluca Murgia, Pa-squale Pavone, Bénédicte Pincemin, Céline Poudat, Pierre Ratinaud, Piergiorgio Ricci, Maria Francesca Romano, Johanne Saint-Charles, André Salem, Massimiliano Schiraldi, Max Silberztein, Maria Spano, Arjuna Tuzzi, Mathieu Valette, Ramón Álvarez Esteban.

JADT2018 was held under the patronage of ISTAT (Istituto Nazionale di Statistica - National Institute of Statistics). We are also very grateful to the following sponsors: ISTAT, Le Sphinx, The Information Lab, Master in Data Science at Tor Vergata University, Prisma.

As regards the organisation of the conference, we would like to thank all the members of the local organising team: Francesco Alò, Silvia Castellan, Giulia Giacco, Paolo Meoli, Vittorio Palermo, Viola Talucci.

Special thanks go to Livia Celardo, Isabella Chiari, Andrea Fronzetti Colladon, Francesca Della Ratta, Fiorenza Deriu, Francesca Dolcetti, Francesca Greco, for the organisation of special tracks concerning Official Statistics, Linguistics, Applications on social and psychological domains, Social Network and Semantic Analysis.

(20)
(21)
(22)
(23)

Memorize or generalize? Searching for a

compositional RNN in a haystack Adam Liška

German Kruszewski Facebook- germank@fb.com

Abstract

Machine learning systems have made rapid progress in the past few years, as evidenced by the remarkable feats they have accomplished on fields as diverse as computer vision or reinforcement learning. Yet, as impressive as these achievements are, they rely on learning algorithms that require orders of magnitude more data than a human learner would. This disparity could be rooted in many different factors. In this talk, we will draw on the hypothesis that compositional learning — that is, the ability to recombine previously acquired skills and knowledge to solve new problems– could be one important element of fast and efficient learning (Lake et al, 2017). In this direction, we will discuss our ongoing efforts towards building systems that can learn in compositional ways. Concretely, we will present a simple benchmark based on function composition to measure the compositionality of learning systems and use it to draw insights for whether current learning systems learn or can learn in a compositional manner.

(24)

Scaling-up Sentiment

Analysis through Continuous Learning

Bing Liu

University of Illinois at Chicago - liub@uic.edu

Abstract

Sentiment analysis (SA) or opinion mining is the computational study of people’s opinions, sentiments, emotions, and evaluations. Due to numerous research challenges and almost unlimited applications, SA has been a very active research area in natural language processing and text mining. In this talk, I will first give a brief introduction to SA, and then move on to discuss some major difficulties with the current technologies when one wants to perform sentiment analysis in a large number of domains, e.g., all products sold in a large retail store. To tackle the scaling-up problem, I will describe our recent work on lifelong machine learning (LML) (or lifelong learning) that tries to enable the machine learn like humans, i.e., learning continuously, retaining or accumulating the knowledge learned in the past, and using the knowledge to help future learning and problem solving. This paradigm is quite suitable for SA and can help scale up SA to a large number of domains with little manual involvement.

(25)

La textométrie comme outil d’expertise :

application à la négociation de crise.

Pascal Marchand

Université de Toulouse – pascal.marchand@iut-tlse3.fr

Résumé

Pour aborder la pertinence de la pratique textométrique dans des problématiques de terrains et comme outil d’expertise, on étudiera les échanges réels impliquant les négociateurs des Forces d’intervention de Police, dans des contextes de barricades, prises d’otages, terrorisme ou intention suicidaire à haut niveau de dangerosité.

Nous envisagerons donc la négociation au travers des dynamiques de choix lexical et nous chercherons à cartographier le lexique, classer des segments de textes et comparer des profils de locuteurs et de situations.

On se propose ainsi de répondre aux questions suivantes :  Y a-t-il des thèmes récurrents dans les crises ?  Y a-t-il une chronologie lexicale de la crise ?  Comment se gèrent les émotions ?

 Quelles sont les spécificités des situations « radicalisées » ?

L’objectivation des échanges et la mise en évidence des séquences formelles peut alors fournir une aide au diagnostic, dans le but de tirer des éléments concrets pour des objectifs de retour d'expérience et de formalisation des pratiques des professionnels de la négociation.

(26)

Author Identification Combining Various Author

Profiles. Towards a Blended Authorship Attribution

Methodology

George K. Mikros

National and Kapodistrian University of Athens – gmikros@gmail.com

Abstract

The aim of this presentation is to describe a new method of attributing texts to their real authors using combined author profiles, modern computational stylistic methods based on shallow text features (n-grams) and machine learning algorithms. Until recently, authorship attribution and author profiling were considered similar methods (nearly identical feature sets and classification algorithms), but with different aims, i.e. in the former to identify the author’s identity and in the latter to detect author’s characteristics such as gender, age, psychological profile etc. Both of these methods have been used independently aiming at different research aims and in different real-life tasks. However, in this talk we will present a unified methodological framework where standard authorship attribution methodology and author profiling are combined so that we can approach more effectively open or semi-open authorship attribution problems, a category known as authorship verification which is particularly difficult to tackle with present computational stylistic methods. More specifically, we will present preliminary research results from the application of this blended methodology to a real semi-open authorship problem, the Ferrante’s authorship case. Using a corpus of 40 modern Italian literary authors compiled by Arjuna Tuzzi and Michele Cortelazzo from the University of Padua (Tuzzi & Cortelazzo, under review), we will explore the dynamics of author profiling in gender, age and region and various methods we can combine the extracted profiles so that we can entail the identity of the real author behind Ferrante’s books. Moreover, we will extend this methodology and validate its usefulness in social media texts using the English Blog Corpus (Argamon, Koppel, Pennebaker, & Schler, 2007). Using, simulated scenarios of authorship attribution cases (the real author to be included in the training data and the real author to be missing from the training corpus) we will further evaluate the usefulness of the proposed blended methodology which can lead to some exciting new possibilities for investigating author identities in both closed and open authorship attribution tasks.

(27)

From text to concepts and back: going multilingual

with BabelNet in a step or two

Roberto Navigli

Sapienza University of Rome – roberto.navigli@uniroma1.it

Abstract

Multilinguality is a key feature of today’s Web, and it is this feature that we leverage and exploit in our research work at the Sapienza University of Rome’s Linguistic Computing Laboratory, which I am going to overview and showcase in this talk. I will describe the most recent developments of the BabelNet technology. I will introduce BabelNet live – the largest, continuously-updated multilingual encyclopedic dictionary – and then discuss a range of cutting-edge industrial use cases implemented by Babelscape, our Sapienza startup company, including: multilingual interpretation of terms; multilingual concept and entity extraction from text; cross-lingual text similarity.

(28)
(29)
(30)
(31)

Identification automatique de l’ironie et des formes

apparentées dans un corpus de controverses

théâtrales

Motasem Alrahabi1, Chiara Mainardi2

1 Université Paris-Sorbonne Abu Dhabi – motasem.alrahabi@gmail.com 2 Université Sorbonne Nouvelle – chiara.mainardi@univ-paris3.fr

Abstract

This paper presents the results of an automatic analysis on a corpus of French texts about theatre debates (16th –19th centuries). The purpose of this study is to highlight the important role of different forms of irony in the theatre controversy and to reveal the stand point of authors and established authorities towards theatre performances. Despite the difficulty of this task, our research shows encouraging results. This unprecedent comparison of these kind of texts, in which authors condemn the theatre or approve it, enables to a broader understanding of the authors’ positions, arguments and rhetorical strategies relating to theatre controversies.

Résumé

Cet article présente les résultats de notre analyse automatique d’un corpus de débats sur le théâtre (16ème – 19ème siècle). L’objectif de cette étude est d’illustrer le rôle important que jouent les différentes formes de l’ironie dans la polémique autour du théâtre et de mettre en évidence la position des auteurs ou des autorités antiques citées vis-à-vis des spectacles. Les résultats obtenus sont encourageants malgré la difficulté de la tâche et ils nous permettent de comparer d’une façon inédite les textes des auteurs défenseurs avec ceux des auteurs pourfendeurs du théâtre et d’avoir une meilleure compréhension de certains arguments et stratégies d’auteurs dans le champ de la controverse.

Keywords: Ironie, théâtre, marqueurs linguistiques, annotation sémantique, système à base de règles.

1. Introduction

Nous proposons une analyse automatique d’un corpus en français qui rassemble des débats sur le théâtre depuis le milieu du 16e siècle jusque dans les années 1840. Notre objectif est d’illustrer le rôle important que jouent les expressions de l’ironie dans la polémique autour du théâtre et de mettre en évidence la position des auteurs ou des autorités antiques citées vis-à-vis des

(32)

spectacles. Nous présentons d’abord les ressources linguistiques développées, l’outil d’annotation utilisé et le corpus ; ensuite, nous commentons les résultats d’analyse automatique et, avant de conclure, nous explorons les perspectives de ce projet en cours.

2. Prémisses sur l’ironie

L’ironie est un fait de langue utilisé afin de transmettre un message directement ou indirectement opposé à ce qui est dit littéralement. Largement étudiée en philosophie, en rhétorique ou en linguistique (Berrendonner, Sperber et Wilson, Kerbrat-Orecchioni, Ducrot, Grice…), l’ironie représente un concept hétérogène extrêmement difficile à définir du fait de ses nombreuses formes et de la complexité des phénomènes qui sont en jeu. L’ironie fonctionne à l’aide d’indices laissés par le locuteur à l’interlocuteur pour lui faire comprendre ses intentions par des jeux de parallélismes, de contradictions, d’exagérations et d’hyperboles plus ou moins marqués. Ces indices – souvent pragmatiques ou extralinguistiques – sont plus ou moins évidents, d’où l’importance de la prise en compte du contexte (référentiel, locuteur, interlocuteur…), des connaissances partagées et des normes sociales et culturelles. La présente étude constitue la première étape pour une détection automatique du champ de l’ironie au sein de notre corpus. Conscients de la difficulté de la tâche et de l’absence de ressources linguistiques adaptées à notre corpus et à nos objectifs, nous nous sommes tournés vers une approche symbolique en nous basant sur un travail précédent autour de l’annotation automatique des modalités énonciatives (Riguet et Alrahabi, 2017). Employés dans les stratégies argumentatives, ces marqueurs observables aident à exprimer ou à rapporter l’ironie ou d’autres cas qui s’y apparentent (sarcasme, raillerie, satire, moquerie…). Exemple :

De sorte qu'on ne peut mieux définir la Comédie, qu'une « assemblée de railleurs où personne ne se connait, et où chacun rit des défauts qui les rendent tous également coupables et ridicules ». [Lelevel, 1694]

Les marqueurs utilisés sont principalement des verbes comme se moquer, ironiser, parodier… Ensuite, par l’observation d’une partie du corpus, nous avons enrichi ces ressources par des substantifs, des adjectifs et des adverbes. Nous avons ensuite classé ces marqueurs dans des sous-catégories selon différentes nuances sémantiques : 1) ironie, dérision, se moquer, sarcastique, parodier… ; 2) chicaner, taquiner, narguer… ; 3) faire rire, comique, pitre, grotesque, idiot… ; 4) mordant, piquant, pinçant, aigre… ; 5) mépriser, dénigrer, sous-estimer, vilipender… ; 6) calomnier, hypocrisie, ruse, malice… ; etc. En tout, nous avons collecté autour de 70 marqueurs

(33)

linguistiques.

3. Méthodologie et choix techniques

La détection automatique de l’ironie est une tâche difficile, notamment à cause de la multitude des moyens linguistiques qui expriment, souvent de manières subtiles, l’ironie ou les autres formes apparentées. Différents travaux computationnels s’intéressent à la détection automatique de ces phénomènes linguistiques (Joshi et al., 2016): approches à base de règles, approches statistiques et approches d’apprentissage profond. Dans le présent projet, nous avons utilisé Excom2 (Alrahabi, 2010), un outil d’annotation à base de règles qui nous a permis d’avoir le contrôle sur le processus d’annotation et d’améliorer progressivement la pertinence des ressources linguistiques exploitées. Pour le système, la présence dans une phrase d’un marqueur de l’ironie déclenche les règles associées qui explorent le contexte et vérifient la présence ou l’absence de marqueurs complémentaires.

Dans la phrase qui suit, la présence de l’adverbe moqueusement dans le contexte d’un marqueur de parole permet à Excom2 d’attribuer à ce passage textuel l’étiquette « Ironie » :

« Il lui faut, dit-on moqueusement, cinq épithètes ! » [Corpus OBVIL] Les règles dans Excom2 peuvent être organisées selon un ordre de priorité et utiliser en entrée les résultats d’autres règles. Avant l’étape de l’annotation, l’outil procède à la segmentation des textes afin de les découper en sections, paragraphes et phrases. Pour l’Ironie, nous avons créé 8 règles que nous avons associées aux différents marqueurs linguistiques.

4. Corpus

Cette présente étude s’appuie sur des textes à argumentation théâtrophile ou théâtrophobe, et sur des textes adoptant une stratégie « mesurée ». Cette dernière consiste à dénoncer des abus de la scène pour, ensuite, convaincre le lecteur à préserver l’utilité intrinsèque du théâtre. Ces trois types de textes possèdent une logique souvent détournée et déconcertante pour le lecteur : sous le déroulement des chapitres, on découvre parfois des connexions implicites, un usage de l’ironie très répandu et des phrases à la forme négative qui infléchissent notablement la détection des contenus. Avec ses reprises pour réitérer ou au contraire pour retourner l’argument contre l’adversaire, ce corpus de controverses théâtrales se prête bien à des analyses numériques. Le corpus rassemble 59 textes (environ un million de mots) écrits en langue française depuis le milieu du 16e siècle jusque dans les années

(34)

18401. Ceux-ci ont été préalablement numérisés et édités dans le cadre du Labex OBVIL de Paris IV-Sorbonne et sont librement accessibles en ligne2. 5. Evaluation

Une première phase de tests sur un échantillon du corpus a été nécessaire pour stabiliser les règles d’identification et de désambiguïsation. Afin d’évaluer la qualité des annotations obtenues, nous nous sommes focalisés dans un premier temps sur le calcul de la précision. Nous avons alors annoté avec Excom2 une autre partie du corpus (7 articles, 215675 mots) et nous avons obtenu 416 annotations. Ensuite, nous avons demandé à une personne qui connait les œuvres de cette période de juger les sorties du système selon un guide d’annotation. Pour chaque annotation, l’évaluatrice devait choisir entre : « Correct », « Incorrect » ou « Je ne sais pas ». Le critère d’évaluation était le suivant : est-ce que l'auteur du texte fait allusion à l'ironie dans la phrase en question? Nous avons obtenu 93.9 % de précision.

6. Difficultés rencontrées

Nous nous sommes heurtés à plusieurs difficultés. Au niveau du lexique, peu de changements ont été effectués sur nos marqueurs, comme par exemple le mot satire qui se trouve avec les deux orthographes satire (88 occurrences) et

satyre (68 occurrences). En français, le dernier désigne le demi-dieu

compagnon de Dionysos ou Bacchus. Cependant, dans certains textes qui n’ont pas encore été modernisés, et sont en langue française du 16e ou 17e siècle, ce mot indique plus largement la « satire ». D’un autre côté, certains marqueurs sont polysémiques et génèrent du bruit, comme ridicule (437 occurrences, le marqueur le plus fréquent), plaisanter (176 occurrences) et comique (131 occurrences). Exemple [Rousseau, 1758] :

Le ridicule est l'arme favorite du vice. C'est par elle qu'en attaquant dans le fond des cœurs le respect qu'on doit à la vertu, il éteint enfin l'amour qu'on lui porte.

Concernant la syntaxe du 17e et 18e siècle, nous avons observé une certaine complexité au niveau des phrases qui sont parfois très longues (cinq lignes ou

1 Nous renvoyons à la liste de la bibliographie française qui constitue le corpus

total de la Haine du Théâtre: http://obvil.paris-sorbonne.fr/corpus/haine-theatre/bibliographie_querelle-france/

2 Il s’agit d’une partie du corpus de « La Haine du théâtre », projet dirigé, au sein

du Labex OBVIL, par François Lecercle et Clotilde Thouret (Lecercle et al., 2016), http://obvil.paris-sorbonne.fr/projets/la-haine-du-theatre.

(35)

plus), et au niveau des signes de ponctuation qui ne sont pas stables. Plusieurs virgules, points virgules, etc. peuvent en effet se succéder dans une seule phrase. De plus, les auteurs de notre corpus utilisent des tournures complexes. Très souvent, ces phrases sibyllines sont ironiques, et cela se passe d’autant plus si elles se trouvent à la forme interrogative.

7. Interprétation des résultats

Dans l’étude des débats sur le théâtre, les expressions de l’ironie sont une voie d’entrée féconde dans le corpus. On constate d’abord que, tout au long des siècles couverts par le projet Haine du Théâtre (16e – 19e siècles), l’usage de l’ironie se situe entre les valeurs de 0,20 à 0,30 % (1265 annotations en total). Nous avons ensuite analysé les marqueurs de l’ironie en étudiant leur présence relative selon les siècles et nous avons pris en compte uniquement ceux ayant un pourcentage supérieur à 5% à l’intérieur d’un même siècle.

Figure 1 : Les marqueurs d’ironie dans le corpus HdT pondérés par siècle

Une baisse considérable a lieu au 17e siècle. S’il est prématuré d’en tirer des conclusions hâtives, nous pouvons cependant tout de suite constater que cela est probablement dû à l’affirmation de la religion, de l’ordre du classicisme ainsi qu’à l’autoritarisme étatique qui s’insinuait dans les esprits des écrivains de cette époque. En revanche, au fur et à mesure du 17e au 19e siècle, les valeurs de ces marqueurs augmentent de manière assez stable. De manière générale, l’ironie est utilisée dans le corpus comme procédé éthique et stylistique, ce qui rend les auteurs bien efficaces dans l’élaboration de leur vision de la querelle. Qu’ils soient théâtrophobes ou théâtrophiles, ils peuvent jouer avec les nuances des marqueurs d’ironie, dissimuler un double-sens dans leurs phrases, s’exprimer figurément de manière contraire

(36)

à ce qu’ils communiquent littéralement. Par exemple, nous retrouvons une présence considérable du lemme « mépris » au 17e et 18e siècles. Il s’agit principalement d’un usage de l’ironie en tant que mécanisme de régulation de la vie sociale. Notamment, Conti et Voisin utilisent un humour inoffensif contre les excès de l’art et mettent en avant la bienséance :

Ceux qui vont aux Spectacles, non par hasard, mais de propos délibéré, et avec tant d'ardeur, qu'ils abandonnent l'Eglise par un mépris insupportable pour y aller, où ils passent tout le jour à regarder ces femmes infâmes, auront-ils l'impudence de dire qu'ils ne les voient pas pour les désirer [Conti 1667, Voisin 1671]

L’ « hypocrisie » commence à être utilisée au 17e et son utilisation se réduit avec le temps (jusqu’à 1% au 19e). Le lemme en question est essentiellement appliqué à des phrases où l’ironie n’est qu’un « autre nom du malheur » (Martin 2009), une manière de renforcer le point de vue de l’auteur.

L’hypocrisie est un vice privilégié, qui ferme la bouche à tout le monde, et qui jouit en repos d'une impunité souveraine. [Coustel 1694]

Très répandu dans le corpus est l’usage de l’ironie comme écho satirique. Le lemme « calomnier », présent dans les textes du 17e au 19e siècle, en est l’exemple :

[…] cessez de calomnier vos contemporains selon l'usage immémorial de ceux qui profèrent de vaines paroles. [Senancour 1825]

(37)

Les premiers résultats nous ont ainsi permis d’effectuer des comparaisons très intéressantes entre les textes des auteurs défenseurs et les textes des auteurs pourfendeurs du théâtre. A partir du nombre d’expressions ironiques correctement identifiées comme telles, nous avons recensé leur nombre et dressé des statistiques pour chaque auteur du corpus annoté. On constate qu’en données relatives, les auteurs qui utilisent le plus les marqueurs d’ironie appartiennent à la « querelle Rousseau » (moitié du 18e s.). Cela est à analyser en perspective mais, en l’espèce, dans cet article nous pouvons le mettre en lien avec l’usage de l’ironie au 18e siècle, comme plusieurs écrits sur Voltaire le témoignent (Loriot, 2015). Les mots de D’Alembert sont très parlants sur ce sujet et éclairent le rôle de l’ironie [Alembert, 1759] :

Si la satire et l’injure n’étaient pas aujourd’hui le ton favori de la critique, elle serait plus honorable à ceux qui l’exercent, et plus utile à ceux qui en sont l’objet.

Les marqueurs linguistiques qui ont été détectés pour cette période appartiennent à la sphère sémantique du ridicule, de la satire, de la farce et du comique3. D’autres marqueurs verbaux, tels que se moquer et plaisanter sont présents dans cette querelle et sont communs aux écrits de la précédente controverse datant du milieu du 17e siècle. Les valeurs ironiques de cette dernière, dont les représentants théâtrophobes sont Conti et Nicole, parmi d’autres, sont cependant moins importantes (0,06 vs. 0,17). Outre ces marqueurs verbaux, nous pouvons citer les catégories de substantifs tels que le ridicule et le faire rire. A la même période, Aubignac, auteur de la stratégie offensive-défensive, part d’une critique du théâtre pour arriver à sa défense. Il s’inspire des marqueurs habituels pour la période du 17e siècle et reprend dans ses phrases les propos de ses collègues, pour ensuite les réfuter. De plus, il recourt plus spécifiquement à des marqueurs ironiques tel que railler et idiot. Contemporaine à d’Aubignac, la querelle entre Caffaro et Bossuet nous donne des résultats surprenants : si Caffaro emploie peu de marqueurs relevant de l’ironie (0,05), Bossuet est lui chef de file parmi ses contemporains (valeur de 0,27). Comme les autres auteurs, Bossuet puise dans les marqueurs du comique et du ridicule, tout comme la forme verbale plaisanter. Néanmoins, nous retrouvons dans ses résultats des mots appartenant à la catégorie de marqueurs piquants [Bossuet, 1694]:

3 Signalons que le marqueur « ironie » et toutes ses variantes n’ont que 11

(38)

Il ne faut pas s’étonner que l’église ait improuvé en général tout ce genre de plaisirs [les spectacles…] à cause que communément, ainsi que nous l’avons remarqué, par sa bonté et par sa prudence, elle épargne la multitude dans les censures publiques : néanmoins parmi ces défenses, elle jette toujours des traits piquants contre ces sortes de spectacles, pour en détourner tous les fidèles.

Nous comprenons ainsi que pour juger le théâtre incompatible avec la morale chrétienne, Bossuet privilégie un style vif et mordant, il appuie l’église tout en dénigrant les défenseurs du théâtre.

La recherche sur les stratégies de la querelle du théâtre, tout en se questionnant sur les modalités argumentatives et les objectifs circonstanciels de chaque auteur, nous dévoile également certaines idées récurrentes autour de la considération du théâtre. Les différents textes partagent un certain nombre de lieux communs, comme par exemple l’idée de perversion, l’inflation temporelle, ou les arguments économiques et politiques.

8. Discussion et perspectives

Dans cet article, nous avons présenté une approche à base de règles pour la détection automatique de l’ironie et des formes apparentées dans un corpus de débats sur le théâtre (16e – 19e siècle). La méthode que nous avons adoptée nous a fourni une matière abondante et des données quantitatives pour mieux cerner l’objet d’étude. Vu la particularité du phénomène langagier étudié et la simplicité de notre approche par analyse de surface, nous considérons que ces premiers résultats sont très encourageants (93.9 % de précision). A ce titre, ils méritent d’être approfondis afin d’en tirer le plus grand bénéfice en terme d’exploitation et de précision. Nous envisageons de calculer le taux de rappel dans l’annotation et d’identifier les sources des segments annotés (les locuteurs). L’un de nos objectifs consiste également à annoter les phrases négatives et à analyser leur association avec l’ironie (Mainardi et al., 2015), ce qui nous permettrait de dégager des pistes de recherche inédites dans le domaine des humanités numériques.

Références

Alrahabi, M. (2010). EXCOM-2: plateforme d'annotation automatique de catégories sémantiques. Applications à la catégorisation des citations en français et en arabe. Thèse de doctorat, Université Paris-Sorbonne.

Joshi A., Bhattacharyya P., Carman M. J., (2016). Automatic Sarcasm Detection: A Survey ACM Comput. Surv. V, N, Article A (January 2016). Lecercle F., Mainardi C., Thouret C. (2016). Pour une exploration numérique

des polémiques sur le théâtre, RHLF, n°116 / 4 dir. Didier Alexandre, Littérature et humanités numériques, PUF.

(39)

Loriot C. (2015), Rire et sourire dans l'opéra-comique en France aux 18ème et 19ème siècles, Lyon, Symétrie.

Mainardi C., Sellami Z., Jolivet V., (2015). “A Semantic Exploration Method Based on an Ontology of 17th Century Texts on Theatre: la Haine du Théâtre", First International Workshop on Semantic Web for Cultural Heritage (SW4CH 2015), New Trends in Databases and Information Systems, 539, pp. 468-476, Communications in Computer and Information Science.

Martin L. (2009), “Le rire est une arme. L'humour et la satire dans la stratégie argumentative du Canard enchaîné”, A contrario 2009/2 (n° 12), 26-45. Riguet M., Alrahabi M. (2017), "Pour une analyse automatique du Jugement

Critique: les citations modalisées dans le discours littéraire du XIXe siècle", in DHQ: Digital Humanities Quarterly 2017

(40)

Migrants et réfugiés : dynamique

de la nomination de l'étranger

Mohammad Alsadhan, Sascha Diwersy, Agata Jackiewicz, Giancarlo Luxardo Praxiling UMR 5267 (Univ Paul Valéry Montpellier 3, CNRS) muhammad.alsadhan@univ-montp3.fr, sascha.diwersy@univ-montp3.fr,

agata.jackiewicz@univ-montp3.fr, giancarlo.luxardo@univ-montp3.fr

Abstract

Intense debates arose from the migrant crisis experienced by Europe in recent years, both in the media and in the politics. We address here the issue of nomination used for the newcomers, that we propose to study based on the comparison of the two substantivations in French: migrant and réfugié. Using their combinatory profiles, we seek to highlight the contrast between the two terms and the changes in their semantics and their axiological charge. In order to do so, we rely on a large corpus of texts, established over a three-year period: the French parliamentary debates of the Assemblée Nationale. The comparative study of the combinatory profiles related to the two terms shows that both shared and unshared collocatives are encountered, and that their profiles overall tend to converge.

Résumé

Au cours des dernières années, la crise migratoire en Europe a suscité de vifs débats politico-médiatiques. Nous nous intéressons ici à la question de la nomination des nouveaux arrivants, que nous proposons d’étudier par la comparaison des deux substantivations migrant et réfugié. A partir de leurs profils combinatoires, nous cherchons à mettre en évidence le contraste entre ces deux termes, les changements dans leur sémantique et leur charge axiologique. Pour cela, nous nous appuyons sur un corpus, établi sur une période d’environ trois ans : les débats à l'Assemblée Nationale. L’étude comparative des profils combinatoires associés aux deux termes montre que l’on rencontre à la fois des collocatifs partagés et d’autres non partagés et que leurs profils tendent globalement à converger.

Keywords: political discourse, cooccurrences, diachronic data and hierarchical clustering, curve clustering.

(41)

1. Introduction

L'Union Européenne a connu en 2015 une arrivée massive d’étrangers extra-européens, qui a donné lieu à des formules telles que « crise migratoire » ou « crise des réfugiés ». Dans un contexte de net clivage de l’opinion publique, cette crise a entraîné des positions politiques contrastées dans chaque pays concerné et des compromis difficiles à trouver.

Les débats politico-médiatiques ont porté d'abord sur la prise en charge des victimes, le droit « d'asile » à accorder aux nouveaux venus, de même que sur la lutte contre les filières illégales, avec des positions « pro-immigration » ou « anti-immigration ». Mais ce phénomène s'expliquant en partie par les conflits en cours au Sud et à l'Est de l'Europe, la question de la désignation des intéressés a été posée. Alors que jusque-là les « migrants » étaient principalement motivés par des perspectives économiques, il a été remarqué qu'une partie de ces personnes devraient être nommés « réfugiés » ou « demandeurs d'asile ». D'autres termes, comme « clandestins », ont pu aussi être évoqués.

Nous cherchons ici à questionner la dynamique de la nomination utilisée dans les débats politiques. A partir d’un corpus de débats parlementaires nous mettons en œuvre divers procédés de classification basés sur la nature diachronique des données.

2. Les corpus de débats parlementaires

Nous faisons l’hypothèse que les discours autour de la crise migratoire font usage des deux termes migrant et réfugié en partie de façon interchangeable, en partie dans des contextes où seulement l’un des deux est possible. Cette distinction entre plusieurs emplois en discours, nous proposons de la mettre en évidence par le voisinage des deux termes et d’évaluer sa variation d’abord sur le discours politique et en fonction du temps.

Le corpus traité dans la suite est constitué à partir des transcriptions des débats en séance publique à l’Assemblée Nationale pour la période qui va de janvier 2014 à février 2017 (ce qui correspond à la fin de la XIVe législature). Les données textuelles, publiées en format XML et disponibles en accès libre sur le site data.assemblee-nationale.fr, représentent environ 28,6 millions de mots occurrences. Elles ont été transformées et enrichies par des annotations linguistiques suivant une méthodologie décrite par Diwersy et al. (2018). De nombreuses métadonnées sont définies sur ce corpus, mais dans la suite nous nous concentrons sur la date (mois-année) associée à une unité structurelle de base correspondant au tour de parole (intervention d’un député).

(42)

3. Analyse chronologique

L’évolution du sémantisme des termes migrant et réfugié peut être étudiée par l’association de méthodes mettant en jeu : (i) les fréquences d’apparition de ces deux lemmes dans les corpus, (ii) leurs profils collocationnels, qui peuvent faire émerger des champs sémantiques spécifiques, (iii) la variation de la similarité de ces profils collocationnels dans le temps et la caractérisation de la contribution de chaque collocatif à l’évolution des scores de similarité obtenus.

Figure 1

L’évolution des fréquences relatives des deux lemmes par trimestre dans le corpus est illustrée par le graphique en figure 1. Il met en évidence une évolution fréquentielle en parallèle avec un pic d’utilisation des deux termes autour de septembre 2015. La corrélation de rang entre les deux séries fréquentielles, mesurée par le taux de Kendall, est ici significative (environ 0,74, pour une p-valeur de 0,0005). Dans la suite, l’unité de temps choisie est le trimestre ; il en résulte des analyses sur 13 trimestres pour la période couverte. Afin de produire une périodisation plus précise, nous avons mis en œuvre une approche combinant annotations en relations de dépendance syntaxique, création de lexicogrammes représentant les profils collocationnels par trimestre des deux termes (ordonnés suivant le score d’application du test exact de Fisher) et application de Classifications Ascendantes Hiérarchiques par Contiguïtés (CAHC), cf. (Diwersy et Luxardo, 2016 ; Gries et Hilpert, 2008).

La construction d’une CAHC peut être entreprise suivant deux méthodes :  pour chaque lemme, en calculant la similarité entre deux trimestres

(43)

successifs d’après le coefficient de Pearson (Pearson product-moment correlation coefficient),

 en calculant la variation de la similarité entre les vecteurs représentant les profils collocationnels des deux lemmes, d’après l’écart type cumulé sur deux trimestres successifs.

La première méthode révèle les variations plus importantes sur les trimestres initiaux jusqu’au pic de la crise. La deuxième méthode qui permet d’illustrer la comparaison entre les deux termes par un graphique unique est représentée par la figure 2.

Figure 2

L’étude de cette classification hiérarchique permet de révéler sept étapes (représentées par sept zones grises). L’évolution du score de similarité est illustrée par un graphique qui se superpose au dendrogramme et qui confirme une croissance globale de 0 à 0,2 (mais avec un pic à 0,6). Le passage d’une période à l’autre est marqué par une progression jusqu’à P03 (correspondant au 3e trimestre 2015, suivant le pic de la crise) mais avec un déclin des périodes P03 à P05 et de P06 à P07.

(44)

Figure 3

4. Évolution des profils combinatoires et orientations discursives

Cette section vise à expliciter les facteurs linguistiques à l’origine des tendances statistiques établies dans la partie précédente. Il s’agit, d’une part, de mettre en évidence les différences sémantiques entre migrant et réfugié telles qu’elles se manifestent à travers leurs profils différentiels et, d’autre part, de relever les points essentiels concernant leur similarité distributionnelle. Les profils différentiels sont constitués par les collocatifs exclusifs à chacun des substantifs étudiés et, de ce fait, ne contribuent à aucun moment à la similarité de leurs profils combinatoires. Le tableau 1 en donne un aperçu restreint aux collocatifs les plus saillants, situés dans le premier décile des inventaires collocationnels en termes de score d’association.

Tableau 1 - Profils différentiels constitués par le premier décile des collocatifs exclusifs à migrant et à réfugié

migrant réfugié Dépendances en aval (régime) Dépendances en amont (termes recteurs) Coordin ation Dépendances en aval Dépendances en amont Coord inatio n Epithètes Compl. du nom Compl. objet Compl. circ. Sujet Compl. du nom Epithètes CDN CO CC Sujet CDN irrégulier illégal clandestin âgé Calais Calaisis situation dissuader entasser refouler secourir retour langue déferleme nt réadmissi on - politique palestinien afghan vietnamien irakien cambodgien persécuté réinstallé

guerre affluer statut protection (Haut-) Commissar iat qualité relocalisati on distinction concubin défi apatri de bénéfic iaire déplac é migra nt

(45)

Parmi les collocatifs saillants du nom réfugié, on notera d’abord la forte présence d’une série de termes (statut, qualité ; (Haut-)Commissariat ; protection ; apatride)1 qui renvoient au cadre des dispositions relevant du droit international qui imposent aux autorités un devoir d’assistance envers des personnes dont le départ de leur lieu de résidence habituelle est considéré comme étant contraint par une menace existentielle. Catégoriser une personne au moyen du terme réfugié revêt donc un enjeu juridique, administratif et politique, dont l’ampleur peut se voir régulée d’une part, par des mises en paradigme explicites avec d’autres termes dans le cadre d’une coordination (cf. les collocatifs apatride, bénéficiaire, déplacé et migrant) et, d’autre part, par des catégorisations secondaires exprimées par des expansions nominales (épithètes ou compléments du nom) caractérisant les causes du départ forcé. A travers les modifieurs du nom réfugié impliquant une relation causale (politique, persécuté ; (de) guerre) se construit un paradigme, et finalement une hiérarchie de causes potentiellement légitimes ou non-légitimes (et de réponses à apporter aux conséquences liées à ces causes).2 A côté de ces modifieurs, qui dénotent directement la cause du départ forcé, on trouve toute une série d’adjectifs ethnonymiques (palestinien, afghan, vietnamien, irakien, cambodgien) qui la dénotent indirectement en s’appuyant sur le savoir partagé concernant l’histoire troublée de ces pays. Cet environnement discursif montre que le mot réfugié se présente comme la nomination d’un statut juridique et qu’il est intégré à une argumentation orientée positivement.

Les collocatifs de migrant révèlent un profil sémantique bien différent, en ce sens que ce terme place au centre de l’intérêt la question de la (non-)conformité à des dispositions légales imposées à des personnes dont le séjour sur un territoire différent de celui de leur lieu résidentiel d’origine est considéré comme étant le résultat d’un déplacement conditionné par des considérations utilitaires (et en premier lieu économiques). C’est bien à cette dimension sémantique que se rapporte, dans le profil différentiel de migrant, de façon saillante la série des collocatifs irrégulier, illégal, clandestin et situation (qui, quant à lui, s’oppose, de ce point de vue, à statut et qualité, collocatifs exclusifs à réfugié). Ayant hérité les traits aspectuels du participe en –ant dont

1 On trouve dans les déciles inférieurs – non documentés ici – d’autres collocatifs

comme statutaire ou conventionnel qui rentrent dans cette même série.

2 On peut observer que cette sous-catégorisation va souvent de pair avec une

modalisation d’appartenance catégorielle, exprimée par l’adjectif épithète véritable qui constitue avec vrai et authentique une série de collocatifs (appartenant à la catégorie de l'enclosure) exclusifs à réfugié qui sont néanmoins représentés à des rangs inférieurs de l’inventaire cooccurrentiel.

(46)

il est issu par conversion, le nom migrant présente le séjour momentané de la personne qualifiée en tant que telle à un endroit donné comme étant l’épisode d’une série inaccomplie de déplacements3 – séjour et déplacements qui, à travers des collocatifs tels dissuader, refouler et retour, se voient caractérisés comme relevant aussi bien de la volonté des personnes en mouvement, que de la bienveillance ou du refus des autorités qui en ont le contrôle potentiel. Faut-il voir en cela la motivation inférentielle de l’évaluation négative que véhicule un terme comme déferlement contrairement à ses variantes axiologiquement plus neutres afflux, flux ou encore arrivée, qui, eux, font tous partie des collocatifs partagés des noms migrant et réfugié ? Pour mieux cerner les collocatifs partagés qui contribuent le plus à l’évolution de la similarité distributionnelle des deux noms en question, nous avons mis en œuvre la méthode de classification proposée par Trevisani & Tuzzi (2016), en l’appliquant aux séries chronologiques des produits de scores d’association normés propres à chaque collocatif, qui entrent dans la composition des sommes donnant les produits scalaires lesquels représentent les indices de similarité retenus.

Figure 4

L’application de la méthode4 fait ressortir, sur l’ensemble des 72 collocatifs communs à migrant et réfugié, 6 classes de profils évolutifs, dont 5 sont

3 Contrairement à cela, réfugié, qui résulte de la nominalisation d’un participe

passé, est associé à la représentation d’un seul épisode de déplacement accompli et envisagé en termes de son origine.

4 Nous remercions Arjuna Tuzzi d’avoir mis à notre disposition le script R

(47)

constituées par un seul terme, à savoir millier, afflux, accueillir, crise et accueil (cf. figure 3). D’un point de vue sémantique, ces 5 collocatifs, qui, à différents moments de la série chronologique analysée, occupent les premiers rangs en termes de contribution aux scores de similarités respectifs, forment tout un condensé de la trame discursive impliquant les noms migrant et réfugié au cours de la période étudiée, avec :

 millier et afflux, qui renvoient à une affluence perçue comme massive ;  crise, qui caractérise ce processus comme ayant atteint un point

culminant à fort potentiel de déstabilisation ;

 ainsi que accueillir et accueil qui se rapportent à la prise en charge des conséquences immédiates du processus concerné.

Facteurs distributionnels de premier ordre, ces collocatifs placent migrant et réfugié dans un rapport paradigmatique associé à plusieurs dimensions sémantiques, qui, en vue des orientations argumentatives fortement divergentes instaurées par les deux noms (cf. supra), fait de leur choix un véritable enjeu discursif.

5. Conclusion et perspectives

Les prolongements de cette étude exploratoire sont nombreux. En partant de Wihtol De Wenden (2016), il nous semble possible de construire un modèle d’analyse comportant cinq catégories qui sont autant de facettes du phénomène migratoire actuel : (i) origines et causes des migrations, (ii) profils des migrants, (iii) situation des migrants, (iv) gouvernance des migrations, (v) mobilité et restrictions migratoires. L’application de cette grille de lecture aux collocations impliquant les termes réfugié et migrant (ou encore leurs équivalents), peut s’avérer une piste de recherche prometteuse qui permet de donner aux résultats de l’analyse linguistique que nous venons d’effectuer une dimension transdisciplinaire, comme c’est par exemple le cas pour la différence entre facteurs « push » (poussant les individus à partir de leur pays) et « pull » (incitant les individus à venir dans un pays spécifique) établie par Wihtol de Wenden, différence qui se reflète dans la divergence fondamentale de l’orientation argumentative des programmes de sens propres aux noms étudiés, en ce que réfugié implique la notion de départ forcé alors que migrant évoque l’idée d’un déplacement volontaire.

Si la figure du réfugié ou du migrant est essentiellement une construction politique (Wihtol De Wenden, 2016, p. 50) – ce que confirme d’ailleurs le profil collocationnel du terme correspondant tel qu’il se manifeste dans le corpus de discours parlementaire analysé - les différents (et nombreux) profils des personnes en déplacement peuvent être étudiés à partir des témoignages qu’elles livrent à propos de leur expérience migratoire. C’est l’objet d’une enquête menée auprès de Syriens arrivés en France depuis 2012,

Figure

Figure 1 : Les marqueurs d’ironie dans le corpus HdT pondérés par siècle
Figure 2 : Valeurs pondérées de l’annotation de l’ironie dans le corpus
Tableau 1 - Profils différentiels constitués par le premier décile  des collocatifs exclusifs à migrant et à réfugié  migrant réfugié Dépendances en aval  (régime)  Dépendances en amont (termes recteurs)  Coordination  Dépendances en aval  Dépendances en a
Figure 1: Most frequent words and repeated segments
+7

Références

Documents relatifs

Interestingly, the calf trial data suggested that an improvement in immune status provided from the GAC- supplemented colostrum on the first day following birth could exert an

Même si SQL peut être considéré comme un candidat évident pour gérer des collections de motifs, ce langage a été en fait conçu pour accéder à des données stockées dans des

Dans tous les cas, on peut affirmer qu’une nouvelle dynamique se met en place depuis quelques années, qui redonne une impulsion certaine quant à la prise en compte de la

Grize affirme que « l’un des drames [...] de la philosophie, c’est sa subjectivité » ; ou encore lorsqu’il explique que, pour répondre à des questions comme celle de savoir

Dans le nouvel espace d’exemples ainsi construit, il est possible d’utiliser n’im- porte quelle méthode d’apprentissage supervisé. Dans les expériences rapportées ici, nous

Alors que l’AM semble connue de tous, grand public et praticiens, seuls 25 % des sujets atteints d’une forme partielle et 50 % des sujets souffrant d’AM sont soignés pour ce

C'est le premier ministre Václav Klaus et son parti l'ODS qui ont largement contribué à façonner un discours tchèque de l'Europe à la fois hostile à la coopération

Nightscapes and the social role of public space Night studies measuring nocturnal activity in cities, by introducing different dynamic data sources (big data and satellite