• Aucun résultat trouvé

Chapitre 5 : Développement et évaluation d’un système de question-réponse pour la

2. Conception et implémentation de NArQAS

2.1 Architecture de NArQAS

2.3 Composants de NArQAS : entrées-sorties ... 153 2.4 Détails de lřimplémentation ... 157

3. Evaluation et résultats obtenus ... 162

3.1 Ensemble de données pour lřévaluation ... 163 3.2 Mesures dřévaluation utilisées ... 163 3.3 Résultats obtenus par NArQAS ... 164

4. Analyse des résultats expérimentaux ... 166

4.1 Cas dřerreurs et traitements dřamélioration ... 166 4.2 Performance de NArQAS en comparaison avec Qwant et Ask.com ... 171 Conclusion……….. ... 175

Introduction

Nous présentons dans ce chapitre la structure générale de notre système de génération de réponses précises à des questions en arabe nommé NArQAS (New Arabic Question Answering System). Nous présentons lřévaluation des sorties de chacun de ces composants en se basant sur une collection de questions et de textes récupérés à partir du Web. Ce système a pour but de développer et dřévaluer lřapport de lřutilisation des procédures de raisonnement sémantique-logique, des techniques de traitement de langues naturelles ainsi que la technologie RTE afin dřélaborer des réponses précises à des questions factuelles. Nous détaillons également les principaux objectifs de NArQAS ainsi que son architecture de fonctionnement. Notamment, notre système est vu comme comme un apport, plutôt quřun rival, aux systèmes classiques focalisés sur des approches extensivement basées sur des techniques de recherche dřinformations et des techniques de TALN. Nous concluons ce chapitre en comparant notre système à dřautres travaux similaires.

1. Description générale

Lřintérêt de notre approche a été illustré à travers le système «NArQAS». Ce système a fait lřobjet dřune évaluation montrant que la prise en compte de nouveaux types dřapproches notamment, à base de la sémantique et la logique permet dřaméliorer la question-réponse arabe ainsi dřaméliorer les résultats des différents modules du processus de traitement. En effet, NArQAS est un système complet allant de lřanalyse de la question en langue naturelle à la génération de réponses en langue naturelle. Cřest un système hybride combinant un analyseur sémantique avec des raisonnements logique; il comporte principalement cinq étapes, telles que lřanalyse de la question, la récupération de passages, la représentation logique des énoncés, la détection des implications textuelles entre une question et un passage de texte et lřextraction de la réponse. En générale, chaque étape possède un besoin particulier dřinformations en entrée et exécute des actions sur les informations extraites pour produire des résultats.

Notre système est basé sur un raisonnement logique sémantique efficace pour lřanalyse des questions et des passages et des métriques dřimplication textuelle pour lřextraction et la sélection de la réponse exacte. Ainsi, NArQAS, est un système modulaire, dont leurs chacune de ces phases jouent un rôle crucial dans la performance totale des systèmes de question-réponse. Il peut être évalué de deux manières : intrinsèque (modulaire) et extrinsèque (globale). Lřévaluation de NArQAS a été réalisée sur un corpus composé de

Thèse de doctorat en Informatique Chapitre 5

Wided BAKARI 145

questions et textes collectés et extraits à partir Web. Les performances sur lřextraction de la réponse précise montrent un rappel de 68% et une précision de 73%.

1.1 Présentation de NArQAS

NArQAS permet de chercher des réponses à partir du Web à des questions factuelles. Nous avons combiné des techniques dřintelligence artificielle, de recherche dřinformations, de TALN et de raisonnement automatique pour améliorer les performances de notre système en prenant en compte lřaspect de plusieurs aspects dans les systèmes précédents, notamment en arabe, comme la compréhension automatique des textes, lřintégration de la sémantique et de la logique à la langue arabe, lřutilisation de la technique RTE pour trouver la réponse exacte parmi plusieurs réponses candidates. En effet, lřutilisation de ces deux derniers aspects dans les systèmes de question-réponse a largement été démontrée notamment par des applications en anglais.

Bien que, les outils et les techniques existants aient été essentiellement conçus pour optimiser la performance des technologies traditionnelles de recherche dřinformations, nous constatons que leurs performances sont affectées par celles des techniques de traitement automatique de la langue naturelle adoptées. Dans nos travaux, le processus de génération de la réponse précise sřappuie essentiellement sur une étape de représentation logique. Par conséquent, le but de notre système est de répondre aux préoccupations suivantes :

(a) Analyser des questions collectées.

(b) Interroger un moteur de recherche pour chercher le document pertinent (c) Récupérer des passages de textes contenant les réponses à ces questions.

(d) Effectuer des analyses linguistiques pour la question et leurs passages réponses (analyse morphologique, syntaxique et reconnaissance).

(e) Construire des représentations sémantiques de la question et des passages avec le formalisme du graphe conceptuel.

(f) Déduire des représentations logiques des représentations des graphes conceptuels des questions et des passages de texte.

(g) Appliquer une technique RTE pour trouver la bonne réponse. (h) Extraire la réponse.

Les tâches (b) et (c) dépendent sur des techniques de recherche dřinformations, les tâches (a), (d), (e) et (h) sont des tâches de traitement automatique de la langue naturelle, la

tâche (g) est assurée en appliquant les techniques de RTE. Finalement, la tâche (f) est résolue à travers des techniques dřintelligence artificielle, en particulier de raisonnement automatique. Notons que le processus qui sřoccupe de la représentation logique et de la reconnaissance dřimplication textuelle, reste un défi pour la mise en œuvre de tels systèmes en arabe.

1.2 Outils, ressources et techniques utilisés

Chaque langue possède ses propres caractéristiques et dispositifs. Ainsi, il semble difficile dřappliquer les mêmes techniques pour toutes les langues. Généralement, la recherche dřune réponse précise à une question en langue naturelle sřappuie principalement sur des techniques de traitement automatique de la langue et de recherche dřinformations. Evidemment, les outils de recherche dřinformations sont employés plus particulièrement à la recherche de documents et de passages les plus pertinents, tandis que les techniques de traitement de la langue permettent dřaméliorer les procédures dřextraction dřinformations en offrant la possibilité dřeffectuer une analyse approfondie des documents (e.x. la question, des passages, etc). Le choix des outils et ressources utilisés dépend de la fiabilité (le temps de réponse raisonnable), de la couverture (une base de données riche, qui regroupe la totalité des mots arabes) et de lřefficacité (les résultats parvenus sont satisfaisants et répondent aux besoins de lřapplication). La possibilité de choisir la technique appropriée à chaque type de question atteint des performances proches de la réponse souhaitée tel que lřobtention de la réponse en temps réel.

En effet, lřarabe est une langue très riche. Toutefois, cette richesse nécessite une manipulation particulière, ce qui rend les techniques régulières de traitement de langue naturelle, de recherche dřinformations, dřextraction dřinformations ou autres, conçues pour dřautres langues, incapables de la manipuler. A ce titre, et malgré les divers efforts, la maturité et lřefficacité de ce type dřoutils pour le cas de la langue arabe, est proportionnellement faible par rapport à dřautres langues. Dans notre système, la plupart des modules peuvent bien entendu impliquer sur des techniques et outils externes. Les deux modules centraux (recherche de documents et sélection de passages) reposent sur des outils de recherche dřinformations. Les deux autres modules (analyse de la question et extraction de la réponse) reposent sur des modules impliquant de manière plus fondamentale des techniques de traitement de la langue. Le module de représentation logique et de reconnaissance des implications textuelles repose sur des techniques de raisonnement automatique et

Thèse de doctorat en Informatique Chapitre 5

Wided BAKARI 147

dřintelligence artificielle. La suite de cette section, décrit en détails les outils et les techniques intégrés dans le développement de NArQAS.

Outils du traitement automatiques de la langue

Il y a divers outils qui sont utilisés pour le traitement automatique de la langue. Ceux-ci incluent des outils dřanalyse morphologique, dřanalyse syntaxique, de reconnaissance des entités nommées, etc. Dans nos travaux, les composants de NArQAS sřappuient sur certains de ces outils afin dřeffectuer des analyses linguistiques de la question et des passages réponses.

a. Analyseur morphologique : Khoja Stemmer

Dans nos travaux, une analyse morphologique des mots de la question dřentrée et des phrases des passages réponses est effectuée en utilisant Khoja Stemmer [Larkey & Connell, 2001]. Ce dernier a été utilisé dans le cadre dřun système de recherche dřinformations développé à lřUniversité du Massachusetts, aux États-Unis, pour la piste multilingue de TREC-10 en 2001. Cet outil fonctionne en éliminant le suffixe le plus long et le préfixe le plus long, puis associe le mot restant aux motifs verbaux et nominaux pour extraire la racine. Dans leur travail, les auteurs gèrent les lettres faibles (e.g. alif, waw ou yah) et les mots arabes qui nřont pas de racines. Une implémentation Java de lřalgorithme de Shereen Khoja est accessible sur le Web19.

 https://sourceforge.net/projects/arabicstemmer/ b. Analyseur syntaxique : Stanford parser

Pour chaque question et leurs passages réponse correspondants, nous utilisons lřanalyseur syntaxique Stanford [Manning & Jurafsky, 2012]. Ceci est un projet implémenté en Java et développé à lřUniversité de Stanford. Ce dernier est un outil open source, il prend en charge lřanglais, le chinois, lřallemand et lřarabe. Il est utilisé aussi pour dřautres langues, comme lřitalien, le bulgare et le portugais. Dans nos travaux, nous utilisons Stanford parser afin dřidentifier les constituants de la question et de leurs passages de texte avec des rôles thématiques et produire les dépendances et les tags des mots.

 https://nlp.stanford.edu/software/lex-parser.shtml

c. Reconnaissance des entités nommées : ArNER

Il est également très important de souligner quřune reconnaissance dřentités nommées REN est requise pour presque tous les systèmes de question-réponse qui traitent les questions factuelles. Dans nos travaux, nous utilisons un outil de reconnaissance des entités nommées ArNER [Zribi et al., 2010] qui a été défini dans lřéquipe de travail de traitement du langage naturel du Laboratoire MIR@CL. Nous avons choisi ce système car cřest le standard le plus connu parmi quelques systèmes dřanalyse réalisés dans notre laboratoire. Plus précisément, pour la question et les passages réponses, ArNER reçoit le texte de la question et des passages pour fournit un fichier XML qui contient toutes les entités nommées de ces deux documents.

Outils d’extraction d’informations

Le processus de la recherche des réponses exige des analyses approfondies des questions ou des passages qui peuvent comporter la réponse exacte. En effet, la reconnaissance des entités nommées peut être considérée comme un outil ou technique dřextraction dřinformations. Dřailleurs, le processus dřannotation des entités nommées s'accomplit par le biais dřun jeu dřétiquettes (ou labels) correspondant aux types utilisés pour définir les différents types de la réponse. Dans nos travaux, les entités nommées issues dans la question peuvent jouer un rôle considérable dans lřextraction des réponses potentielles. Plus précisément, après avoir choisi le passage le plus pertinent, nous utilisons les entités nommées de la question et de ce passage pour extraire la réponse précise ou lřentité nommée.

Outils de recherche d’informations

Lors de la phase de recherche de documents, il est possible dřutiliser de nombreux moteurs de recherche comme des outils de recherche dřinformations. Dans nos travaux, nous avons utilisé le moteur de recherche google, comme étant une source de données linguistiques, pour extraire les passages pertinents qui sont susceptibles de contenir la réponse précise à une question donnée.

Outils d’intelligence artificielle

Ce processus se fonde également sur des techniques dřintelligence artificielle telles que le raisonnement logique. En effet, la maturité et lřefficacité de ces outils diffèrent selon le niveau de complexité du domaine traité et selon la langue cible. Dans nos travaux, nous

Thèse de doctorat en Informatique Chapitre 5

Wided BAKARI 149

appuyons sur le principe de lřopérateur Φ de [Sowa, 1984] qui associe une formule logique à un graphe conceptuel ou à un vocabulaire.

Ressources sémantiques et linguistiques

Construire un système de question-réponse arabe nřest pas une tâche simple. Pour le faire, nous utilisons un lexique linguistique («ظُعىٌا ُدؼٌّا»), une ressource sémantique («AWN»), etc. D'ailleurs, nous trouvons peu de ressources sémantiques (par exemple, les thesaurus, les ontologies, etc.) sont disponibles pour lřarabe en comparaison avec les autres langues.

a. WordNet arabe

WordNet arabe (AWN) [Elkateb et al. 2006] est une ressource lexicale pour lřarabe fondée sur le développement de Princeton WordNet pour lřanglais [Fellbaum, 1998]. AWN a une structure dřun thesaurus, il est organisé structuré selon des synsets qui sont un ensemble de synonymes. Ces synonymes sont regroupés afin de décrire le sens (signification) des mots. Dřailleurs, les synsets sont divisés en fonction des parties du discours en quatre types: nom, verbe, adjectif et adverbe. Dans nos travaux, nous utilisons WordNet arabe pour la construction des graphes conceptuels de la question et des passages (spécifiquement dans lřétape dřextraction de concepts). Nous utilisons pareillement WordNet arabe pour la détermination dřimplication textuelle entre les représentations logiques de la question et de leurs passages réponses.

b. Dictionnaire «ظُعىٌا ُدؼٌّا»

Le recours à une ressource linguistique, dans nos travaux, est utile. Plus précisément, nous utilisons le dictionnaire intermédiaire «ظٍظٌىا ٌجؼَىا» [Muṣṭafá et al., 2008] qui contient les différentes définitions des mots. En effet, «ظُعىٌا ُدؼٌّا» est une version du lexique arabe de lřacadémie de lřarabe à Egypte fournit par la platforme SAFAR20

. Ce lexique a été utilisé dans deux cas : (i) pour la construction des graphes conceptuels comme ressource de désambiguïsation des mots ambigus ; (ii) ou pour le traitement effectué dans un cas dřerreurs confronté avec les questions commençant par « نٍ ». Dans ce cadre, nous utilisons le lexique intermédiaire «ظُعىٌا ُدؼٌّا» pour tester si le mot qui suit la particule « ِٓ » est un verbe.

Techniques de RTE

Nous discutons maintenant quelles techniques nous avons utilisées dans nos travaux. Nous avons cité dans le chapitre 4 que le problème dřimplication textuelle est étudié comme un problème de classification. Pour le faire, plusieurs techniques ont été prises en considération. Ces techniques sont entre autre la mesure de chevauchement de mots, lřapprentissage automatique et la distance sémantique. Plus précisément, pour le chevauchement de mots, nous utilisant la mesure Overlap. Pour la distance sémantique, nous utilisons la mesure Wu-Palmer parmi plusieurs autres mesures de différentes catégories fournies lřAPI AWN (p.ex. edge counting, Wu Palmer, Li, etc). Finalement, pour lřapprentissage, nous utilisons, un classificateur dřarbre de décision J48 de WEKA [Witten & Frank, 1999].

2. Conception et implémentation de NArQAS

Pour concevoir notre système NArQAS, nous avons adopté lřarchitecture généralement utilisée pour un système de question-réponse. Notre système se situe en aval des modules dřanalyse de la question et du texte constitué des passages répondant à cette question. Tout dřabord, le processus de recherche débute par lřanalyse de la question posée jusquřà atteindre la réponse précise. Néanmoins, si les éléments de la question ne sont pas identifiés correctement, il reste peu de chances de trouver la réponse. La plupart des systèmes de question-réponse reposent sur une architecture classiquement fondée sur trois ou quatre modules. Ces modules sřappuient principalement sur des techniques de traitement automatique de la langue aussi des techniques de recherche dřinformations. Plus particulièrement, les outils de recherche dřinformations servent à la recherche des documents et des passages les plus pertinents, tandis que les techniques de traitement de la langue permettent dřaméliorer les procédures dřextraction dřinformations en offrant la possibilité dřeffectuer une analyse approfondie de la question et des documents. Dans nos travaux, nous ajoutons dřautres modules qui importent pour la sélection de la réponse et pour lesquels des traitements dřanalyse sémantique, de raisonnement automatique et de RTE sont réalisés.

2.1 Architecture de NArQAS

NArQAS avait simplement été mentionné dans la section précédente comme étant un outil permettant dřobtenir des réponses précises à des questions en arabe, nous détaillons ici son architecture, puis nous terminons par montrer le déroulement de ses principaux composants ainsi que son fonctionnement. Lřarchitecture schématisant le fonctionnement de notre approche est illustrée par la figure 5.29. La conception du système NArQAS emploie

Thèse de doctorat en Informatique Chapitre 5

Wided BAKARI 151

généralement une architecture pipeline qui assemble six modules principaux à savoir: lřanalyse de la question, la récupération des documents, lřextraction des passages, lřanalyse des passages, la représentation logique et lřextraction de la réponse. Chaque module repose sur des techniques et traitements particuliers. Par exemple, lřanalyse des questions repose sur des techniques liées au traitement automatique des langues, la recherche de documents repose sur des techniques de la recherche dřinformations afin dřobtenir les documents pertinents par rapport à la question ainsi quřau domaine de lřextraction dřinformations pour extraire la réponse précise attendue, etc. Chacun de ces composants mérite dřêtre évalué intrinsèquement, ou leur assemblage est évalué dans son ensemble. Nous dressons dans la suite de cette section une description des principes des différents modules qui composent cette architecture.

La figure 5.29 montre la façon dont chaque composant se rapporte à lřautre. Nous détaillerons par la suite les différents modules intervenant dans la chaîne de traitement, soit de lřanalyse de la question jusquřà lřélaboration de la réponse exacte. Notons que notre système proposé est doté dřune architecture complexe et sřappuie sur des techniques de recherche plus élaborées à savoir le raisonnement logique et RTE. La conception de ce système a largement contribué au développement des systèmes de question-réponse, notamment pour lřarabe.