• Aucun résultat trouvé

6. La reconnaissance des entités nommées

6.2. Les difficultés pour la REN arabe

La reconnaissance des entités nommées arabes rencontre des difficultés qui rendent cette tâche plus difficile par rapport aux langues indo-européennes. Et ces difficultés sont à cause des particularités de cette langue. Car c’est une langue fortement fléchie, avec une morphologie riche et une syntaxe complexe.

Shaalan, Benajiba et Zaghouani respectivement dans (Shaalan 2014; Benajiba 2009; W. Zaghouani 2009) ont résumé les particularités de la langue arabe en ce qui concerne la REN, qu’on peut citer en ce qui suit :

6.2.1 Absence de majuscule

A l’inverse des langues qui utilisent l’alphabet latin comme le français ou l'anglais, où la plupart des EN commencent par une lettre majuscule, la majuscule n'est pas une caractéristique orthographique distinctive de l'écriture arabe pour reconnaître EN tels que les noms propres, acronymes et abréviations. L'ambiguïté causée par l'absence de cette caractéristique est davantage accrue par le fait que la plupart des noms propres arabes (EN) sont indiscernables des noms communs et des adjectifs (non-EN). Ainsi, une approche basée uniquement sur la recherche d'entrées dans les dictionnaires de noms propres ne serait pas un moyen approprié de s'attaquer à ce problème, car les mots / tokens ambigus qui appartiennent à cette catégorie sont plus susceptibles d'être utilisés dans le texte comme noms non propres. Par exemple, le nom propre arabe ف أ(Ashraf) peut être utilisé dans une phrase comme un prénom, un verbe fléchi (il a supervisé) ou un superlatif (le plus honorable) (Mesfar 2008). Une EN se trouve généralement dans un contexte avec des mots de déclenchement et de repère à gauche et/ou à droite.

6.2.2 Agglutination

La nature agglutinative de l'arabe mène à des motifs différents qui créent des variations lexicales. Chaque mot peut consister en un ou plusieurs proclitiques/préfixes, une base ou une racine, et un ou plusieurs suffixes/enclitiques dans des combinaisons différentes, aboutissant à une morphologie très systématique mais compliquée. Dans d'autres langues comme le français ou l'anglais les clitiques seraient traités comme des mots séparés qui n’agglutinent pas aux mots. L'arabe a un ensemble de clitiques qui sont attachés à une EN, y compris :

• des conjonctions telles que و\wa\et et ف\fa\et

• des prépositions telles que ل\li\pour, ك\ka\comme et ب\bi\par • ou une combinaison des deux telles que لو\wali\et pour.

La REN s'appuie sur les mots formant l’EN et le contexte dans lequel elle apparaît. Les mots et les contextes peuvent apparaître sous différentes formes fléchies. Afin de traiter le problème de la rareté des données sans pour autant avoir besoin de corpus d’apprentissage massif, ces morphèmes liés doivent subir un prétraitement morphologique.

50 Une solution consiste à omettre tous les affixes et ne conserver que le morphème racine. Par exemple, l'analyse du mot +ا,- "و\wabiAljazaAŷir\et par l’Algérie donne

+ا,- ا\AljazaAŷir\Algérie comme un nom de lieu.

Une autre solution consiste à effectuer une segmentation textuelle (segmentation des clitiques) et à insérer un délimiteur entre les morphèmes constitutifs, empêchant ainsi la perte d'informations contextuelles. Comme un exemple qui montre une occurrence des morphèmes préfixes et suffixes, considérons le mot déclencheur % Z و\waςaASimatuhaA\et sa

capitale qui est segmenté en trois parties : une conjonction, un nominal et un pronominal,

séparées par un caractère d'espace و Z ه\wa ςaASimatu haA\et capitale sa. 6.2.3 Voyelles courtes facultatives

Le texte arabe contient des signes diacritiques, la plupart représentant des voyelles qui affectent la phonétique et donnent une signification différente à la même forme lexicale. De nos jours, la version moderne de l'arabe est écrite sans diacritiques, créant une ambiguïté un-à-plusieurs et non vocalisée-à-vocalisée, qui donne des analyses morphologiques différentes pour la même forme de surface cf. la Figure 9.

En tant que tels, la plupart des textes arabes qui apparaissent dans les médias (qu'ils soient imprimés ou numérisés) ne sont pas diacritisés. Ceci est compréhensible pour les arabophones natifs, mais pas pour un système TAL. La simplification faite en ignorant ces diacritiques a conduit à des types d'ambiguïté structurelle et lexicale parce que les diacritiques différents représentent des significations différentes. Ces ambiguïtés ne peuvent être résolues que par des informations contextuelles et une connaissance adéquate de la langue.

Par exemple, le mot FU peut se référer

au nom du pays Qatar (EN de lieu) s’il est translittéré en \qaTar\,

au rayon (un mot déclencheur pour EN de mesures) s’il est translitéré en \quT.r\, ou au sens littéral de distiller s’il est translitéré en \qaT~ara\.

Malheureusement, cette solution pourrait ne pas fonctionner si l'information contextuelle est elle-même ambiguë en raison de non vocalisation. Pour considérer un autre exemple, les vocalisations probables de la forme non vocalisée k5\mŵssħ\ (Mesfar 2008) pourrait conduire à des mots déclencheurs qui dénotent deux types d’EN différents :

َA kُ5\muŵs~asaħ\société ou fondation, une preuve interne d’un constituant d’un nom d’organisation ou

ََِkُ5 \muŵasisaħ\fondeuse, un mot déclencheur pour des noms de personnes. 6.2.4 Ambiguïté inhérente aux EN

A l’instar des autres langues, l'arabe fait face au problème de l'ambiguïté entre deux EN. Considérons par exemple le texte suivant : < ,+ 8 " ﺣر د "l ﺣأ\ÂHmd ĀbAd rHb bAlfAŷzyn\Ahmed Abad a bien accueilli les gagnants. Dans cette exemple, ﺣأ د "l\ÂHmd ĀbAd\Ahmed Abad est à la fois un nom de personne et un nom de lieu, donnant ainsi lieu à une situation d’ambiguïté, où le même EN est marqué comme deux types différents d’EN. Pour résoudre les ambiguïtés, des techniques heuristiques par reconnaissance croisée des types EN, sont suggérées. Une technique heuristique, proposée par Shaalan et Raza (2009), utilise des règles heuristiques pour préférer un type EN sur l'autre. Une autre technique favorise le type d’EN pour lequel le classifieur atteint la plus grande précision.

Figure 9 : Exemple d’ambiguïté causée par l’absence des voyelles courtes dans le texte arabe

6.2.5 Manque d'uniformité dans les styles d'écriture L'arabe a un niveau élevé d'ambiguït

multiples façons. Cette multiplicité provient à la fois des différences entre les rédacteurs arabes et des schémas de translitération ambigus.

conduit à de nombreuses variantes du même mot qui sont orthographiées différemment mais qui correspondent toujours au même mot ayant la même signification créant ainsi une ambiguïté de plusieurs-à-un. Par exemple, translitérer (aussi connu sous le nom de

une EN telle que la ville de Washington en une EN arabe, produit des variantes telles que <FG و, <F@G او, <FG او

sons vocaux que les langues d'Europe occidentale, ce qui peut conduire de manière ambiguë ou erronée à une EN ayant plusieurs variantes.

versions des variantes de noms avec une possibilité de les relier.

normaliser chaque occurrence de la variante à une forme canonique.

mécanisme de matching (tel qu'un calcul de distance de chaîne) entre une variante de nom et sa représentation normalisée.

6.2.6 Erreurs d'orthographe

Les erreurs typographiques sont fréquemment faites par des rédacteurs arabes à l'é

certains caractères. Ceci est dû soit à une similarité de caractères, soit à un désaccord inhérent

23 arabiser c’est l’inverse de romaniser qui est la translittération ou la transcr latine.

: Exemple d’ambiguïté causée par l’absence des voyelles courtes dans le texte arabe extrait de (Attia 2008a).

Manque d'uniformité dans les styles d'écriture

L'arabe a un niveau élevé d'ambiguïté en translitération : une EN peut être translittérée de Cette multiplicité provient à la fois des différences entre les rédacteurs arabes et des schémas de translitération ambigus. L'absence de standardisation est critique et e nombreuses variantes du même mot qui sont orthographiées différemment mais qui correspondent toujours au même mot ayant la même signification créant ainsi une

Par exemple, translitérer (aussi connu sous le nom de

ne EN telle que la ville de Washington en une EN arabe, produit des variantes telles que <FG او, <F-G او. Une des raisons en est que l'arabe a plus de sons vocaux que les langues d'Europe occidentale, ce qui peut conduire de manière ambiguë ou erronée à une EN ayant plusieurs variantes. Une solution est de conserver toutes les versions des variantes de noms avec une possibilité de les relier. Une autre solution consiste à normaliser chaque occurrence de la variante à une forme canonique.

mécanisme de matching (tel qu'un calcul de distance de chaîne) entre une variante de nom et

Erreurs d'orthographes systématiques

Les erreurs typographiques sont fréquemment faites par des rédacteurs arabes à l'é

Ceci est dû soit à une similarité de caractères, soit à un désaccord inhérent

arabiser c’est l’inverse de romaniser qui est la translittération ou la transcription d'une écriture non latine vers une écriture

51

: Exemple d’ambiguïté causée par l’absence des voyelles courtes dans le texte arabe,

: une EN peut être translittérée de Cette multiplicité provient à la fois des différences entre les rédacteurs L'absence de standardisation est critique et e nombreuses variantes du même mot qui sont orthographiées différemment mais qui correspondent toujours au même mot ayant la même signification créant ainsi une Par exemple, translitérer (aussi connu sous le nom de arabiser23) ne EN telle que la ville de Washington en une EN arabe, produit des variantes telles que Une des raisons en est que l'arabe a plus de sons vocaux que les langues d'Europe occidentale, ce qui peut conduire de manière ambiguë Une solution est de conserver toutes les Une autre solution consiste à Ceci nécessite un mécanisme de matching (tel qu'un calcul de distance de chaîne) entre une variante de nom et

Les erreurs typographiques sont fréquemment faites par des rédacteurs arabes à l'égard de Ceci est dû soit à une similarité de caractères, soit à un désaccord inhérent

52 à l'égard des caractères, ce qui conduit souvent à une confusion orthographique. La première catégorie comprend le caractère Ta-Marbuta ة, littéralement Ta fermée, qui est un marqueur morphologique marquant typiquement une fin féminine; Cela est négligemment écrit de manière interchangeable avec Ha h.

La deuxième catégorie inclut les variantes de lettres de Hamza-Alif qui sont souvent normalisées par le remplacement de la force brute par un Alif dénudé. Certains linguistes computationnels évitent d'écrire le Hamza (en particulier avec l'Alif initial), considérant cela comme un problème de restauration de Hamza qui fait partie du problème de la diacritisation automatique arabe. Comme exemple qui combine les deux types d'erreurs, considérons ة -" 5W mا ﻌ5 - ا\AljaAmiςaħ AlĂs.lAmiyaħ bijad~aħ\l’université islamique à

Djeddah qui pourrait être écrite avec les deux variantes typographiques comme #ﻌ5 - ا h -" # 5W eا\AljaAmiςah AlAs.lAmiyah bijad~ah\. Une technique de distance d'édition peut être utilisée pour résoudre le problème de variante d'orthographe. Il convient de noter que toutes les erreurs d'orthographe systématiques ne peuvent pas être traitées de cette manière. Par exemple, considérons la différence entre ﻌ5 - "\biAljaAmiςaħ\par

l'université et !"# $%&\bilAjaAmiςaħ\sans université. Il est difficile de déterminer si cette erreur est due à la transposition des deux caractères ا (Alif) et ل (Lam), où le préfixe لا (signifie le) alors que le préfixe e (signifie non). Cette dernière variation montre aussi un autre problème orthographique: les mots arabes run-on ou concaténation libre de mots, lorsque le mot immédiatement précédent se termine par une lettre non-connectée, telle que ا (Alif), د (Dal), ذ (Dhal), ر (Ra), ز (Za), و (waw) et ainsi de suite. Par exemple, la phrase suivante montre une EN de nom de personne pleinement concaténée avec son contexte environnant: ر \ ا زو 5ر' آ ا\Alduk.tuwrmuHamadwaziyrAlxaArijiyaħ\Dr Mohammed

le ministre des Affaires étrangères. Ceci est compréhensible par la plupart des lecteurs mais

pas par un système informatique qui doit travailler sur des mots segmentés. 6.2.7 Manque de ressources

De grandes collections de documents annotés (corpus) ainsi que des nomenclatures ou gazetteers (listes d’EN typées prédéfinies) sont d'excellentes sources sur lesquelles nous pouvons nous baser lors pour la mise en œuvre et du test des performances d'un système REN arabe. Pour que ces ressources linguistiques soient utiles, elles doivent inclure un nombre représentatif d’EN qui ne souffrent pas de la rareté.

Malheureusement, les ressources arabes disponibles pour la REN ont souvent une capacité et/ou une couverture limitées. En outre, il est coûteux de créer ou d'acquérir la licence de ces importantes ressources de REN arabe. Pour ces raisons, les chercheurs s'appuient souvent sur leurs propres corpus, qui nécessitent l'annotation et la vérification humaines. Peu de ces corpus ont été rendus libres et publiques à des fins de recherche. Alors que d'autres sont disponibles mais sous contrat de licence.