Analyse des passages - Démarches de lřapproche proposée

Chapitre 4: Une nouvelle approche sémantique et logique pour la question-réponse

2. Démarches de lřapproche proposée

2.3 Analyse des passages

Dans cette section, diverses étapes sont étudiées pour analyser les passages. Dřabord, un post traitement est achevé pour nettoyer le texte source qui est déjà au format html et extrait à partir du Web pour produire un texte en arabe en format txt. Puis, une normalisation est effectuée afin de préparer le texte pour lřétape dřanalyse. Ensuite, une segmentation établit le découpage de texte en des unités lexicales (phrases et mots). Enfin, des étapes dřanalyse linguistique, à savoir, la REN, lřanalyse syntaxique et morphologique sont mises en considération.

2.3.1 Nettoyage des passages

Usuellement, lřutilisateur pose une question en langage naturel sans connaître la structure des sources à interroger. Les textes extraits du Web ne sont pas structurés et exprimés en langage naturel qui est extrêmement difficile à modéliser, ils peuvent également contenir des fautes dřorthographe, de grammaire, ou encore être rédigés dans un style inconnu à lřavance [Belguith et al., 2007]. Il est ainsi possible de leur appliquer, préalablement à leur utilisation, un ensemble de traitements visant à rendre les processus suivants plus rapides ou à normaliser les documents. Ceci entre dans le cadre dřanalyser un texte pour découvrir lřinformation « essentielle » contenue dans ce texte et permet de répondre à une question donnée. En effet, nous constatons que les textes générés à partir du Web contiennent généralement beaucoup de bruits et composants non informatifs, à savoir, les balises HTML, les scripts, etc. De plus, il y a beaucoup dřinformations dans le texte qui nřont pas un sens (les translittérations). Au-delà de ce premier point, et pour établir une réponse précise à une question, lřétape dřanalyse des textes recueillis du Web devrait essentiellement débuter par une phase de nettoyage. Cette tâche facilite la transformation de données textuelles en une forme appropriée qui permet un traitement ultérieur et la préparation du texte pour des traitements prochains. Elle prend essentiellement un document html et produit un texte arabe en un format txt.

2.3.2 Normalisation des passages

Les passages générés du web peuvent contenir des mots étrangers, des caractères spéciaux, des nombres (e.g. Ř,:,?, \, $, etc). Ainsi, dans ces textes, certains mots sont très communs et nřont pas de sens supplémentaire pour leurs contenus réels. Ces textes doivent être normalisés pour minimiser lřinfluence de ces mots sur leur analyse. En effet, lřétape de normalisation transforme une copie dřun texte original dans un format standard plus facilement manipulable.

Thèse de doctorat en Informatique Chapitre 4

Wided BAKARI ₁₁₃

Pour lřétape de normalisation de textes, nous appliquons un certain nombre de traitements (e.g. le codage, la normalisation, etc.) pour nettoyer les textes des erreurs typographiques et réalisons un quelques opérations de normalisation afin de préparer le texte pour lřétape dřanalyse. En effet, le codage vise à convertir les passages post-traités en codage UTF-8. Ce problème survient pendant le traitement de lettres arabes par le codage par défaut (e.g. le code ASCI). Par conséquent, avec le langage XML, un encodage UTF-8 devrait être spécifié dans le prologue du document XML : <?xml version="1.0" encoding="UTF-8"?>.

Considérant que, la normalisation vise à éliminer les données indésirables telles que mots vides, des chiffres et des signes de ponctuation [Sheker et al., 2016]. Cřest une technique notable dans leur analyse. Elle se compose de plusieurs étapes de prétraitement, qui comprennent la suppression des translittérations, la suppression de la ponctuation (les points-virgules (;), colons (:), les points dřexclamation (!), les points dřinterrogation (?), les traits dřunion (-), les apostrophes (Ř), les points de suspension (...), ..), lřélimination des diacritiques, le remplacement de أ et آإ avec ا, le filtrage des lettres non-arabes, etc. ,

2.3.3 Segmentation des passages

Les textes extraits du Web sont souvent longs, leur traitement consiste également à les découper en des phrases. De même, pour répondre à des questions, il est préférable dřéviter un long texte et extraire quelques phrases de ce texte qui peuvent être la réponse souhaitée. En effet, lřétape dřextraction de phrases de textes est une sorte de « Tokenization ». Elle sert à transformer le texte source écrit en arabe en une liste des phrases de taille plus au moins proche qui lui compose. Par conséquent, la segmentation de textes en phrases, paragraphes, items, etc., [Mourad, 2001], [Mouelhi 2008] reste une phase nécessaire et incontournable pour un très grand nombre dřapplications en traitement automatique des langues. Néanmoins, la segmentation de textes arabes est toujours différente. Cela est du des particularités de cette langue dont il nřy a pas de majuscules qui indiquent le début dřune nouvelle phrase. Ainsi, les signes de ponctuation, ne sont pas utilisés de façon régulière. Dřailleurs, la segmentation de textes arabes peut être supportée aussi par des particules et certains mots tels que les conjonctions de coordination (e.g. " ٓىٌ " (lakin), " ذمٌ " (laqad) et " اِّأ " (amma)) ainsi que celles de certaines particules tels que les conjonctions de coordination ("و " (wa) et "ف " (f ā)) [Belguith et al., 2005].

2.3.4 Traitement linguistique des passages

Le traitement linguistique se compose dřun pipeline de traitement de langage naturel à usage général qui expose les différentes étapes pour pouvoir analyser un passage de texte généré à partir du Web. Cette analyse augmente la chance de trouver la réponse précise à une question en langage naturel.

La reconnaissance des entités nommées

Après la segmentation des textes en phrases, lřétape suivante est augmentée par une étape représentant toutes les entités nommées dans le texte. Pour le faire, nous avons utilisé lřoutil ArNER pour extraire des entités importantes telles que les noms, les organisations et les lieux qui sont ensuite enregistrées dans un fichier XML. La figure 4.17 montre le résultat de la reconnaissance des entités nommées dřun texte enrichi par les balises de segmentation en phrases dřun passage collecté à partir du Web pour la question suivante « ؟وؼثنح دىًىرٍ». Notons que certaines entités ne sont pas détectées selon lřoutil ArNER.

Figure 4.17: Exemple d’un fichier XML émis par ArNER

L’analyse syntaxique

Dans le cas de passages de textes, il sřagit de déterminer si les dépendances extraites et les phrases segmentées peuvent nous aider à construire une représentation sémantique correcte via les graphes conceptuels. Pour cela, nous accomplissons une analyse syntaxique en profondeur de la définition en utilisant le Stanford Parser. Cet analyseur donne une sortie sous forme de dépendances syntaxiques, comme montré dans la figure 4.18.

Thèse de doctorat en Informatique Chapitre 4

Wided BAKARI ₁₁₅

Figure 4.18: Sorties de Stanford pour le passage du texte P1 L’analyse morphologique

Dans le cas où les termes qui nřexistent pas dans AWN, nous recherchons leurs tiges pour les ajouter à la liste de concepts. Le processus consiste à réduire les mots dérivés ou infléchis à leurs tiges ou à leurs racines originales. En utilisant Khoja Stemmer, chaque terme dans le texte dřentrée est représenté par sa tige et sa racine. Le terme «tige» a deux significations inconsidérément différentes. Tout dřabord, une tige peut être la partie centrale dřun mot qui exprime le sens de base et ne peut pas être divisé en plus petits morphèmes [Payne & Reader, 2006]. La figure 4.19 montre lřanalyse morphologique dřun texte enrichi par les balises de segmentation en phrases. Ainsi, elle fournit une description détaillée de lřanalyseur et sa sortie.

Figure 4.19: Sortie de Khoja stemmer pour le passage du texte P1

Dans le document UNE APPROCHE VERS LA COMPREHENSION AUTOMATIQUE DES TEXTES ARABES DESTINEE POUR LES SYSTEMES DE QUESTION-REPONSE (Page 125-128)