• Aucun résultat trouvé

Système à base règles

6. La reconnaissance des entités nommées

6.4. Système à base règles

6.4.1 Système PERA

Cette recherche menée par Shaalan et Raza (2007) décrit la structure des noms de personnes arabes: 'ism', 'kounya', 'nasab', 'laqab' et 'nisba'. L'ism est un nom propre donné peu de temps après la naissance. Des exemples de tels noms sont 5\muHamad\Mohamed, c '5\muwsaý\Moïse, C ها "إ\Ăb.raAhiym\Abraham.

La 'kounya' est un nom honorifique ou un nom de famille qui indique le nom du père de quelqu’un '"أ\Âabuw\père de ou mère de quelqu’un مأ\Âum\mère de. Par exemple, '"أ دواد \Âabuw daAwud\père de David, C : مأ\Âum saliym\mère de Salim. Lorsque l’on

utilise le nom complet d'une personne, la 'kounya' précède le nom donné, par exemple, '"أ

< ﺣ ' \Âabuw yuwsuf Hasan\Hacene père de Joseph, G 5أ 8ﻌ مأ\Âum jaς.far

Âamiynaħ\Aminah mère de Jaafar.

Le 'nasab' indique l’héritage d’une personne par le mot <"ا\Aib.n\ qui signifie fils de

( G"\bin.t\fille de). Par exemple <"ا\Aib.nu ςumar\fils d’Omar, س G"\bin.tu ςabaAs\fille d’Abbas. En usage le 'nasab' suit 'l’ism', par exemple جا <"ا < ﺣ\Hasan Aib.nu far~aAj\Hacene fils de Ferraj, L G" \sumay~aħ bin.tu xubay.t\Soumaya fille de Khoubayt. Plusieurs personnes historiques qui nous sont familiers par leur 'nasab' que par leur 'ism'. Exemples dignes d’être notés : l’historien نو :L <"ا\Aib.nu xal.duwn\Ibn Khaldun, le voyageur !ط()& *&ا\Aib.nu baTuwTaħ\Ibn Battuta et le philosophe +,- *&ا\Aib.nu siynaA\Avicenne.

Le 'laqab' est une combinaison de mots en une épithète, généralement religieux, ou en relation avec un trait, une description ou une qualité admirable en une personne. Exemples comme : ا\Alr~ašiyd\le bien guidé et 8 ا\AlfaADil\le proéminent. En pratique

le 'laqab' suit 'l’ism' par exemple ا نور ه\haAruwn Alr~ašiyd\Aaron le bien guidé.

Enfin, la 'nisba' est un nom dérivé: du commerce, de profession, de lieu de résidence ou de naissance ou d’affiliation religieuse d’une personne. Par exemple جW ا\AlHal~aAj\le tisseur de coton, ي +ا,- ا\Alj~azaAŷiriy\algérien, 05W إ\Ăs.lAmiy\islamique. La 'nisba'

suit 'l’ism' et s’il contient un 'nasab', elle suit 'nasab'.

Dans le système PERA les règles prennent la forme des expressions régulières qui contiennent les constituants de nommage cités ci-dessus, afin de reconnaitre les noms de personnes. Le système est composé de trois composants : listes, règles de grammaire et un mécanisme de filtrage. Des listes blanches de noms de personnes ont été fournies dans le composant liste afin d’extraire le matching exact des EN mis à part l’utilisation des grammaires. Après, le texte en entrée est présenté aux grammaires afin d’identifier autres EN

54 de personne. Enfin le mécanisme de filtrage est appliqué aux EN afin d’éloigner les noms de personnes invalides.

PERA a été évalué en utilisant les données d’ACE et de Treebank Arabic et il a obtenu une précision, rappel et f-mesure de 85.5%, 89% et 87.5% respectivement.

6.4.2 Système NERA

Comme une continuation des travaux menés par Shaalan et Raza (2007), le système NERA généralise les résultats obtenus par PERA. NERA examine les principaux chalenges posés par la REN arabe provenant de la complexité du système morphologique, des particularités du système orthographique arabe, de la non-standardisation du texte écrit, d’ambiguïté et du manque de ressources. Le système identifie les types d’EN suivants: personne, lieu, organisation, date, heure, ISBN, prix, mesures, numéros de téléphone et nom de fichiers. NERA utilise Fast ESP comme plateforme d’implémentation dont son architecture est optimisée pour les systèmes à base de règles. A l’instar de PERA, NERA a trois composantes : listes, règles sous formes d’expressions régulières et mécanisme de filtrage.

L’évaluation de ce système est faite sur un corpus construit manuellement à partir d’ACE, du web et d’organisations. Il a obtenu une f-mesure de 87.7% pour les personnes, 85.9% pour les lieux et 83.15% pour les organisations.

6.4.3 Travaux d’Alkharashi

Alkharashi (2009) a décrit la formation d'un nom de personne arabe à partir de la racine et du schème en utilisant la morphologie arabe traditionnelle et il a suggéré des ressources informatiques pertinentes. L'auteur a introduit un ensemble de tables de base de données afin d'assister la REN arabe: tables de racine-schème, d’une liste de fréquences de racines et de déclencheurs lexicaux. Un corpus a été créé à partir de noms de personnes saoudiennes avec des étiquettes spécifiques aux noms : racine de l’EN personne, des traits indiquant la possibilité d'affixation, et des caractéristiques de genre (féminin ou masculin). L'objectif principal était de reconnaître les constituants de l’EN personne, soit la forme simple, l'affixe et les connecteurs.

Par exemple, le nom du califat Omeyyade o: ا <" ' ا\Alwaliyd b.nu ςab.dAlmalik\ a o:5\malik\ et و\waliyd\ comme des noms simples, \ςab.d\ et لا\Al\

comme des préfixes et *&\ban\ comme connecteur de nom.

L'étude a rapporté des observations intéressantes sur les caractéristiques des schèmes très fréquents et de leurs longueurs. Un test simple d’évaluation a été mené sur 60 000 entrées de noms de personnes générées, ce test indique comment le schème d'un nom de personne a été reconnu. Il a démontré que le schème correct apparaît à 94% du temps comme l'un des trois premiers schèmes suggérés, 86% comme l'un des deux premiers schèmes suggérés, et 69% du temps comme le premier schème suggéré.

6.4.4 Travaux d’Al Shalabi

Al-Shalabi et al. (2009) ont présenté un algorithme REN arabe pour récupérer les noms propres arabe à l'aide de déclencheurs lexicaux. Cette recherche prend en considération des modèles régionaux tels que le connecteur de nom و\wul.d.\fils de utilisé en noms de

personnes mauritaniennes (par exemple, , ,ﻌ ا و 5 9 + ا\Alraŷiys

55 identifie les types d’EN suivants: personnes, grandes villes, lieux, pays, organisations, partis politiques et groupes terroristes. Cependant, les recherches publiées ne portent que sur les EN de type personne. L'algorithme utilise des règles heuristiques pour prétraiter l'entrée pour nettoyer les données et supprimer les affixes. Ensuite, les éléments de preuve internes, tels que les connecteurs de nom de personne, sont utilisés pour reconnaître les EN. Le système a été évalué à l'aide de 20 documents sélectionnés au hasard du journal Al-Raya publié au Qatar et du journal Alrai publié en Jordanie. Une précision globale de 86,1% a été observée.

6.4.5 Travaux d’Attia

Attia et al. (2010) ont proposé une méthode pour acquérir un lexique EN plus riche en utilisant ArabicWordNet (El-Kateb et al. 2006) et Wikipedia arabe. Le lexique EN arabe proposé améliore les entrées lexicales dans WordNet et produit une ressource lexicale arabe bien structurée. L'objectif principal est d'extraire les substantifs instanciables de WordNet et d'identifier les catégories correspondantes dans Wikipedia arabe. Ces catégories agissent comme des déclencheurs lexicaux. Une décision est prise afin d'identifier lesquels des articles de Wikipedia de ces catégories correspondent aux EN. Elles sont ensuite extraites, connectées à ArabicWordNet, et insérées dans l’entrepôt d’EN. Dans une étape ultérieure de post-traitement, d'autres EN sont acquises en exploitant les liaisons inter-langues (ILI). Enfin, les EN acquises sont diacritisées. Cette ressource lexicale est utile pour la REN arabe car les résultats ne sont pas seulement des EN reconnus (annotées) mais aussi des synsets identifiés qui sont sémantiquement liés à eux (synonymes, sous-types, super-types, etc.).

6.4.6 Système RENAR

Zaghouani et al. (2010) ont présenté une adaptation d'un système multilingue pour inclure l’arabe, cette application c’est NewsExplorer spécialisé en recherche et extraction d’informations de l’Europe Media Monitor. Ce système comprend actuellement dix neuf langues et est capable d'analyser de grands volumes de textes d’actualités. L'architecture d’EMM-NewsExplorer est optimisée pour les systèmes à base de règles. L'adaptation a abouti à un système REN arabe basé sur des règles (RENAR), qui utilise un ensemble de règles écrites à la main et indépendantes de la langue en combinaison avec des ressources spécifiques pour l'arabe.

6.4.7 Système ARNE

Shihadeh et Neumann (2012) ont proposé un système REN arabe appelé ARNE, qui reconnaît les EN de type personne, lieu et organisation, basée uniquement sur une approche de recherche de nomenclature; Le système fournit des informations morphologiques à l'aide d'un système ElixirFM, développé par Smrz (2007)

6.4.8 Travaux d’Al-Jumaily

Al-Jumaily et al. (2012) ont proposé un système REN basé sur des règles qui peut être utilisé dans les applications Web. Le système identifie les types d’EN suivants: personne, lieu et organisation. Le système a été développé à l'aide de l’environnement GATE et fournit l'analyse morphologique arabe dans une méthode similaire à BAMA. Il intègre également différents listes de GATE, DBPedia et ANERGazet. Le système a été évalué à l'aide d'ANERcorp.

56