• Aucun résultat trouvé

Plusieurs contributions originales sont faites: xxvi

CONTRIBUTIONS ET PUBLICATIONS

1. Une taxonomie des intentions de discours dérivée de la linguistique—à partir des types d’actes de langage de Searle [184] et des verbes d’actes de langage de Vanderveken [212], pour modéliser la communication asynchrone. Comparée à toutes les taxonomies des travaux connexes, celle proposée est indépendante du corpus, à la fois plus détaillée et exhaustive dans le contexte donné, et son application par des non-experts est prouvée au travers d’expériences approfondies.

Dans une première version, une taxonomie composée de 6 intentions de discours est proposée pour couvrir la communication publique sur Twitter—des classes d’une granularité plus fine appartenant aux types d’acte langage assertif et directif sont définies. Comparée aux travaux connexes sur la modélisation de tweets publics avec des actes de langage, cette représentation est à la fois indépendante du corpus et plus détaillée [51] (Chapitre 3). Ensuite, en collaboration avec un linguiste [41], la taxonomie précédente est étendue à 18 classes d’intentions de discours afin de pouvoir être appliquée à tout type de communication. De plus, des critères d’opposition des intentions de discours sont ajoutées à la taxonomie pour structurer les classes et permettre une annotation manuelle plus facile (Chapitre 4). Les expériences d’annotation manuelle avec des experts et des non-experts montrent une cohérence dans la perception de la plupart des intentions de discours dans les deux itérations de création de la solution. De plus, l’utilisation rare de la classe "other" par les annotateurs confirme de manière empirique que la taxonomie est exhaustive pour modéliser la communication dans deux types de corpus: les tweets [51] et les conversations de forum [41].

2. Une méthode automatique, indépendante du corpus, pour annoter les énoncées de com-munication asynchrone avec la taxonomie des intentions de discours proposée, conçue sur la base d’un apprentissage automatique supervisé [50, 51, 57]. Pour cela, deux corpus "ground-truth" validés sont créés (un avec des tweets4 et un avec des conversations de forum5) et trois groupes de caractéristiques (discours, contenu et conversation) sont conçus pour être utilisés par les classificateurs. En particulier, certaines des caractéristiques du discours sont nouvelles et définies en considérant des moyens linguistiques pour exprimer des intentions de discours, sans s’appuyer sur le contenu explicite du corpus, le domaine ou les spécificités des types de communication asynchrones.

Les expériences sur le corpus Twitter [51] (Chapitre 3) montrent que les intentions de discours peuvent être découvertes de manière satisfaisante en utilisant les classificateurs SVM Linéaire ou Régression Logistique avec uniquement des caractéristiques de discours (F1-mesure compris entre 0,73 et 0,80). Par rapport aux autres travaux connexes, la méthode proposée annote chaque tweet avec des intentions de discours multiples et plus

4http://tinyurl.com/hk9t83y

TRADUCTION FRANÇAISE DE L’INTRODUCTION

détaillées, en ne s’appuyant que sur des caractéristiques de discours indépendantes du domaine ou du corpus.

Les expériences sur le corpus Reddit [50] (Chapitre 5) montrent que les mêmes classifica-teurs, SVM Linéaire et Régression Logistique, conduisent à de meilleurs résultats, dans une configuration "one versus all", avec à la fois des caractéristiques de contenu et de discours (F1-mesure entre 0,53 et 1). En outre, afin d’améliorer l’identification des intentions de discours avec des F1-mesures faibles, deux stratégies sont proposées et évaluées: utiliser une classification multi-label pour les paires d’intentions de discours qui co-occurrent fréquemment, ou compléter le corpus d’apprentissage par des exemples d’intentions de discours les moins représentées, même à partir de corpus externes hétérogènes. Bien que les caractéristiques du contenu soient nécessaires pour l’annotation précise des phrases, l’analyse détaillée réalisée montre que ce sont des n-grammes génériques, indépendants du corpus ou du domaine et liés aux intentions de discours, qui sont les plus importants pour la prédiction. De plus, cette approche montre une robustesse satisfaisante pour découvrir les intentions de discours d’autres corpus, y compris la communication synchrone. Com-parée aux autres solutions existantes d’annotation des conversations de forum utilisant un apprentissage automatique supervisé, cette approche est générale et la plus exhaustive et détaillée. Cette solution utilise des classes détaillées pour multi-labeler les phrases. De plus, des expériences approfondies ont été menées pour sélectionner la meilleure configura-tion pour la classificaconfigura-tion multi-label, explorer des stratégies permettant d’améliorer les performances de cette classification et évaluer la validité externe de l’approche.

La pertinence et l’impact des résultats obtenus des deux séries d’expériences sur la médecine sont également abordés, en montrant diverses directions pour intégrer cette approche dans des technologies et des études concernant la recherche et la diffusion d’informations de santé, ainsi que la médecine narrative.

3. Une méthode automatique basée sur la fouille de processus [1] conçue pour générer des modèles de processus d’intentions de discours interdépendantes à partir de tours de parole, annotés avec plusieurs labels par phrase [50, 58] (Chapitre 6). Comme la fouille de processus repose sur des logs d’événements structurés et bien définis, un algorithme est proposé pour produire de tels logs d’événements à partir de conversations. Par ailleurs, d’autres solutions pour transformer les conversations annotées avec plusieurs labels par phrase en logs d’événements, ainsi que l’impact des différentes décisions sur les modèles comportementaux en sortie sont analysées afin d’alimenter de futures recherches. De plus, la technique Fuzzy Miner [85], implémentée dans l’outil Disco, est utilisée pour exploiter les logs produits. En effet, elle convient bien aux processus non structurés et est hautement interactive et visuelle.

Comparés aux travaux existants modélisant les relations entre les intentions de discours à xxviii

CONTRIBUTIONS ET PUBLICATIONS

partir de conversations annotées sous forme de diagrammes de transition, les modèles de processus découverts à l’aide de la fouille de processus sont plus générals et plus complets, capturant également d’autres types de relations—boucles significatives de longueur 2, séquences indirectes et concourentes. Ces processus peuvent être explorés de manière interactive à différents niveaux de détail avec les outils de fouille de processus. Parmis les rares travaux existants sur la modélisation automatique des relations entre les intentions de discours, seulement un utilisait la fouille de processus [214]. Ce dernier repose sur un scénario plus simplifié et dépendant du domaine: chaque tour de parole est annoté avec un seul acte de langage associé à des discussions de cours en ligne. La solution développée dans cette thèse va au-delà et propose un scénario complémentaire et général. Contrairement à la précédente méthode existante, celle développée est applicable aux conversations annotées avec plusieurs libellés par phrases provenant de tout type de domaine.

L’évaluation qualitative de l’approche proposée débute par une analyse de la pertinence des modèles de processus obtenus pour la médecine. Puis dans un second temps, les résultats d’une étude observationnelle préliminaire menée avec un chercheur en linguistique sont présentés afin d’évaluer la pertinence pour l’analyse conversationnelle.

Les résultats montrent que l’approche proposée conduit à la découverte de modèles in-téressants de construction de tours de parole dans une conversation et à la formulation de nouvelles hypothèses concernant les actes de langage et les conversations.

4. L’étude menée en Chapitre 2 est la seule revue systématique à ce jour sur la modélisation automatique des conversations asynchrones avec des actes de langage.

Pour cela, un cadre d’analyse et de comparaison de la littérature existante sur le sujet est développé. Il comprend plusieurs aspects : taxonomies d’intention de discours, relations entre les intentions de discours, domaines d’application et bénéficiaires potentiels, création et validation manuelle de corpus. Ce cadre intègre aussi des approches automatiques pour modéliser des conversations avec des intentions de discours et avec des relations entre les intentions de discours, incluant divers groupes de caractéristiques utiles à la classification des labels.

Cette thèse contient les publications et les manuscrits suivants :

• Epure, E.V., Compagno, D., Salinesi, C., Deneckere, R., Bajec., M., Zitnik, S. (2018). Pro-cess Models of Interrelated Speech Intentions from Online Health-related Conversations. Artificial Intelligence in Medicine. doi = https://doi.org/10.1016/j.artmed.2018.06.00 • Compagno, D., Epure, E.V., Deneckere-Lebas, R., Salinesi, C. (2018). Exploring digital

conversation corpora with process mining. Corpus Pragmatics, 2(2) 193-215.

• Epure E.V., Deneckere R., Salinesi C. (2017). Analyzing Perceived Intentions of Public Health-Related Communication on Twitter. In ten Teije A., Popow C., Holmes J., Sacchi L.

TRADUCTION FRANÇAISE DE L’INTRODUCTION

(Eds), Proceedings of 16th Conference on Artificial Intelligence in Medicine (pp. 182-192). Vienna, Austria. Springer.

• Epure, E.V., Zitnik, S., Compagno, D., Deneckere, R., Salinesi, C. (2017). Automatic analysis of online conversations as processes, presented at Journées Analyse de Données Textuelles en Conjonction avec EDA 2017, Lyon, France.

• Epure, E.V., Deneckere, R., Salinesi, C. (2018): Automatically modeling asynchronous conversations with speech intentions: A systematic study. Manuscript in preparation. • Epure, E.V., Salinesi, C., Deneckere, R., Bajec., M., Zitnik, S. (2018). A linguistic approach

to reveal tacit requirements engineering knowledge from online discussions. Manuscript in preparation.

Pour des raisons de cohérence thématique, cette thèse ne comprend pas les articles publiés suivants—travaux réalisés en parallèle du sujet traité dans cette thèse :

• Epure E.V., Kille B., Ingvaldsen J.E., Deneckere R., Salinesi C., Albayrak S. (2017) Recom-mending Personalised News in Short User Sessions. In Proceedings of the Eleventh ACM Conference on Recommender Systems (RecSys ’17)(pp. 121-129). Como, Italy. ACM. • Epure E.V., Kille B., Ingvaldsen J.E., Deneckere R., Salinesi C., Albayrak S. (2017) Modeling

the Dynamics of Online News Reading Interests. In Proceedings of the 25th Conference on User Modeling, Adaptation and Personalization (UMAP ’17)(pp. 363-364). Bratislava, Slovakia. ACM.

• Epure E.V., Ingvaldsen J.E., Deneckere R., Salinesi C. (2016). Process mining for recom-mender strategies support in news media. In 2016 IEEE Tenth International Conference on Research Challenges in Information Science (RCIS)(pp. 1-12). Grenoble, France. IEEE. • Epure, E. V., Deneckere, R., Salinesi, C., Kille, B., Ingvaldsen, J.E. (2017). Devising News

Recommendation Strategies with Process Mining Support. Presented at Interdisciplinary Workshop on Recommender Systems. Paris, France.

• Epure E.V., Martin-Rodilla P., Hug C., Deneckere R., Salinesi C. (2015). Automatic process model discovery from textual methodologies. In 2014 IEEE Ninth International Conference on Research Challenges in Information Science (RCIS)(pp. 19-30). Athens, Greece. IEEE. • Gonzalez, C., Martin-Rodilla, P., Epure, E.V. (2016). Formalization and Reuse of

Method-ological Knowledge on Archaeology across European Organizations. Presented at the 44th Computer Applications and Quantitative Methods in Archaeology Conference. Oslo, Norway. Le lecteur le souhaitant, peut consulter une sélection représentative de ces publications dans les Annexes G et H. Ces articles se concentrent sur la découverte automatique du comportement en

Documents relatifs