• Aucun résultat trouvé

Les noms de personnes

Dans le document Extraction de connaissances à partir du texte (Page 103-107)

4. La détection des entités nommées arabes

4.2. L’annotation des entités nommées arabes

4.2.1 Les noms de personnes

Les noms de personnes peuvent se trouver dans un texte arabe sous différentes formes. Les noms de personnes dans un texte de l’arabe classique se caractérisent par l’absence de la structure moderne (first name, middle name et last name) alors que les noms de personnes de l’arabe standard moderne varient entre les régions du monde arabe : les noms de la région du

Maghreb diffèrent des noms de l’Egypte et ceux

de la famille royale des pays de Golf diffèrent des noms de personnes qui n’appartiennent pas à la famille royale. La Figure

peuvent exister dans un texte arabe. On s’intéresse dans notre travail nommées de type noms de personnes d

Figure 32 : Taxonomie des noms de personnes dans un texte arabe

Les noms de personnes occidentaux dans un texte journalistique arabe se caractérisent par le problème de translitération

produite sous différentes variantes et

en général) qu’elle soit anglophone ou francophone. Dans la littérature, le problème de Schwartzenegger réfère au cas où une seule écriture en anglais correspond à plusieurs translitérations en arabe. Ici une seule écriture du gouverneur de la Californie peut apparaitre en arabe en

- &زرا' \šuwAr.ziniyjar\ et

variante du même problème est le cas de particularités de prononciatio

راز'5\muwzaAr\ (francophonique) A l’instar des autres langues

caractérisé par une preuve externe et une preuve interne. L’utilisation de ces preuves facilitera l’opération de la détection.

e.g. pour annoter un texte contenant la phrase suivante

^ :81'" , ,ﻌ ا 9 + ا 5 \8 5 ا ا 1

lfxAmħ Alrŷys ςbdAlςzyz bwtflyq Abdelaziz Bouteflika

Le résultat de l’annotation doit être comme suit

<rawText>ل 5 ا ا 1

<pers.ind>

Maghreb diffèrent des noms de l’Egypte et ceux-ci sont différents des pays de Golf. Les noms de la famille royale des pays de Golf diffèrent des noms de personnes qui n’appartiennent pas Figure 32 montre les différentes catégories de noms de personnes qui peuvent exister dans un texte arabe. On s’intéresse dans notre travail à la détection

noms de personnes dans les textes de l’ASM.

: Taxonomie des noms de personnes dans un texte arabe

Les noms de personnes occidentaux dans un texte journalistique arabe se caractérisent par le problème de translitération (N. Habash 2010). La translitération du même nom peut être se produite sous différentes variantes et cela dépend de la personne (le journaliste ou le rédacteur en général) qu’elle soit anglophone ou francophone. Dans la littérature, le problème de réfère au cas où une seule écriture en anglais correspond à plusieurs translitérations en arabe. Ici une seule écriture du gouverneur de la Californie peut apparaitre

@ &زرا' \šuwAr.ziniyγar\, @&زرا'

et - &,1را' \šuwAr.tziniyjar\ parmi plusieurs d’autres. Une variante du même problème est le cas de Mozart où différentes écritures préservant des particularités de prononciations apparaissent : تراز'5\muwzaAr.t\ (anglophonique) et

(francophonique) (N. Habash 2010).

A l’instar des autres langues naturelles un nom de personne dans un texte arabe est uve externe et une preuve interne. L’utilisation de ces preuves facilitera e.g. pour annoter un texte contenant la phrase suivante

^ :81'" , ,ﻌ ا 9 + ا 5 \8 5 ا ا 1…\tHt Alr yz bwtflyqħ…\sous le haut patronage de son excellence Le résultat de l’annotation doit être comme suit :

ل 5 ا ا 1 </rawText> <pers.ind> <title> 5 \ <func.ind>9 + ا</func.ind> </title> <name.first>, ,ﻌ ا </name.first> <name.last> ^ :81'"</name.last> 103 ci sont différents des pays de Golf. Les noms de la famille royale des pays de Golf diffèrent des noms de personnes qui n’appartiennent pas montre les différentes catégories de noms de personnes qui détection des entités

: Taxonomie des noms de personnes dans un texte arabe

Les noms de personnes occidentaux dans un texte journalistique arabe se caractérisent par . La translitération du même nom peut être se dépend de la personne (le journaliste ou le rédacteur en général) qu’elle soit anglophone ou francophone. Dans la littérature, le problème de réfère au cas où une seule écriture en anglais correspond à plusieurs translitérations en arabe. Ici une seule écriture du gouverneur de la Californie peut apparaitre

@&زرا' \šuwAr.ziniγar\, parmi plusieurs d’autres. Une où différentes écritures préservant des (anglophonique) et un nom de personne dans un texte arabe est uve externe et une preuve interne. L’utilisation de ces preuves facilitera

tHt AlrςAyħ AlsAmyħ excellence le président

104 </pers.ind>

<rawText>...</rawText>

La granularité de l’annotation est en fonction de son objectif final. On peut dans l’exemple précédent réduire l’annotation comme suit :

<rawText>ل 5 ا ا 1 </rawText> <pers.ind> <title>9 + ا 5 \ </title> <name> ^ :81'" , ,ﻌ ا </name> </pers.ind> <rawText>...</rawText>

Pour la partie titre de la preuve interne des noms de personnes on a conçu un transducteur qui balise cette partie par l’étiquette title. Le transducteur est montré dans la Figure 33, ce petit transducteur peut générer tous les chemins possibles des titres de noblesse utilisé dans les articles journalistiques. La liste du Tableau 22 montre une partie des expressions qui peuvent être reconnues par le transducteur de la Figure 33. Ce transducteur appelle des sous transducteurs (en gris dans la figure) et qui peuvent eux même appeler d’autres transducteurs et ainsi de suite. Le transducteur de la Figure 33 peut reconnaitre en tout, 21840 expressions différentes (ce graphe orienté contient 21840 chemins possibles y compris ceux des sous transducteurs).

105 9 + ا 5 \ ا 9 + ا 5 \ + ا 5 \ ة ا + ا 5 \ &ƒا + ا 5 \ 9 + ا ود ا 9 + ا ود ءارز' ا 9 +ر ود ا ءارز' ا 9 +ر ود ر' آ ا ءارز' ا 9 +ر ود ا ر' آ ا ءارز' ا 9 +ر ود س G% ا ءارز' ا 9 +ر ود ا س G% ا ءارز' ا 9 +ر ود 5' ا 9 +ر ود ا 5' ا 9 +ر ود ر' آ ا 5' ا 9 +ر ود ا ر' آ ا 5' ا 9 +ر ود س G% ا 5' ا 9 +ر ود ةر' آ ا ءارز' ا +ر ود &ƒا ةر' آ ا ءارز' ا +ر ود ز' ا ةد ﻌ ز' ا ةد ﻌ ا ر' آ ا ز' ا ةد ﻌ ا ر' آ ا ز' ا ةد ﻌ ا س G% ا ز' ا ةد ﻌ ر' و ا ز' ا ةد ﻌ ا ر' و ا ز' ا ةد ﻌ 8 ا ةد ﻌ ا 8 ا ةد ﻌ ر' آ ا 8 ا ةد ﻌ ا ر' آ ا 8 ا ةد ﻌ ا ر' و ا 8 ا ةد ﻌ ة ز' ا ةد ﻌ ة ا ة ز' ا ةد ﻌ G% ا ة 8 ا ةد ﻌ ة ا G% ا ة 8 ا ةد ﻌ &ƒا G% ا ة 8 ا ةد ﻌ ءارز' ا 9 +ر 0 ﻌ5 ا ءارز' ا 9 +ر 0 ﻌ5 ر' آ ا ءارز' ا 9 +ر 0 ﻌ5 &ƒا ةر' آ ا 0 ﻌ5 ةر' آ ا ةذ gا 0 ﻌ5 gا 0 ﻌ5 ة ا ةر' آ ا ةذ س G% ا „ ا ا س G% ا „ ا &ƒا G% ا ` ا

Tableau 22 : Un exemple de la liste des expressions <title> qui peuvent être reconnues par le transducteur de la Figure 33

Les expressions citées dans le Tableau 22 montrent la puissance des transducteurs dans la reconnaissance ; un simple graphe (transducteur) peut couvrir une large variante de structures syntaxiques au nombre de 21840 structures. De cette façon, on peut couvrir toutes les preuves externes d’une entité nommée de type nom de personne. La preuve externe sert comme un déclencheur de reconnaissance pour le transducteur i.e. si le celui-ci rencontre une telle

106 structure linguistique il peut conclure que la suite du texte est une entité nommée de type nom de personne. Le processus de reconnaissance nécessite aussi les preuves internes. Une preuve interne dans le cas des noms de personnes peut consister en une entrée des dictionnaires des prénoms de la plateforme Unitex/GramLab.

Dans le document Extraction de connaissances à partir du texte (Page 103-107)