• Aucun résultat trouvé

Etude comparative

6. Les approches proposées

6.3. Etude comparative

6.3.1 Comparaison

Dans le Tableau 15 ci-dessous on récapitule les principaux travaux dans le domaine de l’extraction des relations sémantiques entre les entités nommées. On note que dans la littérature il y a peu de travaux dans ce sujet qui traitent la langue arabe. La majorité des travaux cités dans le tableau concernent les langues latines. Les seuls travaux qui concernent l’arabe occupent les cinq dernières lignes.

En ce qui concerne les critères de comparaison, on note que la troisième colonne du tableau (domaine) est un critère décisif en relation avec les performances du système. On désigne ici par domaine l’ensemble de relations sémantiques qui peuvent traitées par le système en question. La performance du système doit être inversement proportionnelle du nombre de relations traitées.

76

Système année domaine approche formalisme/technique

Evaluation précision rappel

f-mesure

Grishman 2002 événements épidémiques

à base de règles transducteurs à états finis

Hasegawa 2004 indépendant apprentissage non

supervisé

similarité cosinus 79.5%

Zhang 2005 apprentissage non

supervisé

83.5%

Chen 2005 apprentissage non

supervisé

K-means, DCM et entropie 45.4%

Diem 2006 hybride patrons lexicosyntaxiques – fréquence

co-occurence

60%

Chunju 2009 géographique à base de règles transducteurs à états finis - JAPE 69.36%

Santos et Batista

2010 relations familiales à base de règles XIP 70% 33%

Ezzat 2010 à base de règles grammaire formelle et algorithme

shift-reduce

Ben Abacha 2011 médical hybride règles pondérées - SVM 95% 94%

Serrano 2011 militaire à base de règles transducteurs à états finis - JAPE

Wang 2013 apprentissage non

supervisé

similarité vectorielle, WordNet 77.3%

Ben Hamadou 2010 pers-org à base de règles transducteurs à états finis 70%

Alnairia 2012 spatiale à base de règles 80.06%

Alotayq 2013 Gen-affiliation, Org-affiliation

apprentissage automatique

entropie maximale 85%

Boujelben 2015 pers, lieu, org à base de règle transducteurs à états finis Nooj 69.4% 58.6% 63.54% Notre travail 2015 pers, lieu, date à base de règles cascade de transducteurs à états finis

77

6.3.2 Synthèse

En guise de synthèse, on note que les valeurs des métriques d’évaluation montrent la suprématie des systèmes basés sur une approche hybride à l’instar du système de Ben Abacha avec une précision de 95%. On peut aussi souligner que les travaux réalisés en langue arabe sont basés principalement sur une approche à base de règles avec une seule tentative de résoudre le problème d’extraction des relations d’une manière supervisée. Jusqu’à présent, aucun travail en langue arabe n’a utilisé une approche hybride pour l’extraction des relations entre les EN, ce qui présente un défi dans le domaine d’identification des relations pour cette langue assez riche et complexe.

7. Conclusion

Dans ce chapitre on a présenté un résumé sur les relations sémantiques entre les EN dans les différentes langues, et vu que les travaux en langue arabe sont restreints on s’est limité à exposer quelques uns. Les difficultés d’extraction spécifiques à cette langue ont été longuement discutées dans les sections de ce chapitre.

Les notions ainsi que les approches exposées du chapitre courant servent comme un bagage théorique pour la compréhension de la mise en œuvre d’extraction de relations sémantiques qui est l’objectif final de notre travail. Le lecteur doit être revenir si nécessaire pour comprendre la fin du cinquième chapitre de cette thèse.

78

Chapitre IV

Le module arabe d’Unitex/GramLab

1. Introduction

Dans le présent chapitre, nous allons présenter le processus de création et de construction du module arabe de la plateforme Unitex/GramLab. Cette opération est nécessaire pour nous permettre d’atteindre notre premier objectif qui est l’extraction des relations sémantiques entre les entités nommées à partir du texte arabe.

Notre tâche étant de traiter un corpus textuel, nous allons, à cet effet, utiliser la plateforme Unitex/GramLab. Cette plateforme est un logiciel de traitement automatique de corpus qui regroupe un ensemble de programmes réalisant les différentes tâches dont l’utilisateur a besoin. Nous avons été amenés, au début de nos travaux, à constater que la plateforme dont il est question bien qu’elle prend en charge une dizaine de langues28, les ressources nécessaires pour la langue arabe n’y étant pas incluses. Nous avons été, donc, amenés à créer le module manquant, sa publication sous la licence LGPL-LR a suivi en Avril 2012, et depuis sa création il est téléchargeable par les utilisateurs intéressés, et a fait l’objet de plusieurs publications internationales comme c’est le cas pour (Doumi et al. 2016a; Doumi et al. 2013; Doumi et al. 2016b).

Le traitement automatique de la langue arabe à l’instar d’autres langues demande la construction de grandes ressources linguistiques dans le but d’effectuer des tâches différentes. Que se soit une tâche légère telle que la vérification orthographique ou lourde telle que la traduction et la compréhension automatique du texte ; ces ressources sont cruciales. Les lexiques sont reconnus comme un pré requis fondamental pour toutes les tâches de TAL (Maurel and Guenthner 2005). Construire ses propres ressources linguistiques c’est la méthode la plus économique pour le chercheur lui permettant d’acquérir ces composantes cruciales. D’un autre coté, il est difficile et au-delà du budget des chercheurs de construire des ressources à large couverture de la langue en question. C’est pour cette raison que les approches et les algorithmes proposés dans ce chapitre donnent une méthodologie de construction de ressources selon le besoin. Avant d’entamer l’explication des différentes méthodes et algorithmes proposés pour résoudre la problématique de construction de ressources nous allons introduire le bagage théorique en relation. Les sections suivantes fournissent au lecteur les notions théoriques pour comprendre le reste du chapitre.