• Aucun résultat trouvé

Partie II Contributions 49

3.6 Modélisation du langage

€@Q» kura¯asun /k u r a s u n/ Modélisation explicite des voyelles courtes

€@Q» kurra¯asun /k u r r a s u n/ Modélisation explicite de la gémination

€@Q» kurra¯asun /k u r r a : s u n/ Modélisation explicite des voyelles longues

€@Q» kr¯as /k r s/ Modélisation implicite des voyelles

Table3.7 – Variantes de prononciation du mot €@Q»(cahier) selon les aspects de modélisation

de la prononciation.

3.6 Modélisation du langage

L’apprentissage du modèle de langage est basé sur des corpus textuels de la langue à

recon-naître, à savoir la langue arabe standard dans notre cas. Ces corpus sont généralement extraits

à partir de journaux, de documents officiels, de livres ou même à partir de réseaux sociaux ces

dernières années. Quelle que soit la source de nos corpus, il existe toujours des anomalies dans

le texte écrit et particulièrement dans la langue arabe. Ces anomalies ont un impact directe

sur la modélisation du langage du fait que plusieurs formes d’écriture, qui désignent le même

mot, partagent la même probabilité. Pour cette raison, une étape de normalisation des données

textuelles est nécessaire pour réduire les conflits d’écriture et donc pour améliorer l’estimation

des probabilités des séquences de mots par le modèle de langage.

3.6.1 Normalisation des données

En analysant nos corpus d’apprentissage, nous avons pu établir une liste des erreurs les plus

fréquentes. Certaines d’entre elles sont spécifiques à l’arabe et d’autres sont communes à la

majorité des langues naturelles. Cette liste ainsi que les solutions proposées sont décrites dans le

tableau 3.8.

Vu que le préfixeð w (et) est le plus utilisé en arabe, nous avons décidé de le séparer du

mot pour réduire la taille du vocabulaire et couvrir plus de mots. En séparant, par exemple, le

préfixe du mot ÈAg.Pð wrˇg¯al (et des hommes), les trois mots ð w (et), ÈAg.P rˇg¯al (hommes) et

ÈAg.P ð w rˇg¯al (et des hommes)) seront reconnus par le système de reconnaissance. En revanche,

dans le cas où le préfixe est collé, le mot ÈAg.P rˇg¯al(hommes) sera considéré comme un mot hors

vocabulaire s’il n’apparaît pas dans un autre contexte.

En plus des opérations listées dans le tableau 3.8, une erreur souvent commise en arabe

est la simplification de l’écriture de la lettre

3.6. Modélisation du langage

Contexte Exemples Opération

Adresses mails - Chemins

URL - Phrases avec du texte

non arabe - Diacritiques

©¯ñÖÏ@ Yë à@ ñ J« ð

www.arabsummit.org.sa

(et le titre de ce site est

www. arabsummit.org.sa)

Suppression de la phrase entière

Ponctuations - Diacritiques PA ’@=>PA’@(supporteurs) Suppression

Les mots étirés È@@@@Ag.QË@ ¯alrˇg¯a¯a¯a¯a¯al→ÈAg.QË@

¯

alrˇg¯al

Suppression des caractères en double

Le préfixeð w(et) ÈAg.Pð => ÈAg.P ð (et des

hommes)

Séparation du préfixe et le mot

suivant en utilisant l’outil Farassa

[Abdelaliet al., 2016]

Les autres préfixes H. (avec,

dans, par), ¬ (ensuite), È@

(le,la,l’), ¼ (comme), È (à,

car) et €(exprime le futur)

áKXQÒJÖÏ@ H.=> áKXQÒJÖÏAK.(par

les rebelles)

Concaténation avec le mot

suivant

è h

éJJ.ʯéÓ P@=>

éJJ.ʯ éÓ P@ Insertion d’un espace après le caractère

è h(ce caractère est toujours écrit en

fin du mot)

Temps 15 :30→ é

®J¯X àñKCKð éJËAJË@ Écriture littérale

Nombres 150 => àñ‚Ô gð éKAÓ Écriture littérale

Les abréviations Ð . † => XCJÖÏ@ ÉJ.¯ (avant

JC)

Remplacement par la séquence de mots

correspondante (voir annexe A)

Table3.8 – Liste des opérations de normalisation des données textuelles.

la lettre Alif @ est souvent supprimé. La même remarque est observable pour le tilde˜qui est

utilisé dans le cas où le caractère @ est suivi par une voyelle longue (

@). L’approche que nous

proposons pour normaliser l’écriture dehamza Zest inspirée des techniques qui ont été proposées

dans la littérature pour détecter et corriger automatiquement les fautes d’orthographe. C’est un

problème commun à toutes les langues naturelles. En arabe, les fautes d’orthographe les plus

fréquentes sont celles qui concernent les erreurs d’édition et celles qui concernent les erreurs

sémantiques. Le premier type d’erreur se produit lorsqu’un mot est mal orthographié, tandis que

pour les erreurs sémantiques, un mot est remplacé par un autre mot correctement orthographié

[Alkanhal et al., 2012]. La suppression du symbole hamza Z pourrait conduire à un mot mal

orthographié (par exemple le mot mal écrit àB l¯an (car), il doit être écrit comme suit àB l-an)

où il pourrait changer le sens du mot (par exemple le mot ÐAÓ@ ¯am¯amqui pourrait être interprété

comme ÐAÓ@ -m¯am(devant) ou ÐAÓ@ -im¯am(imam) selon la position dehamza Z). Pour restituer le

symbolehamza Zet le tilde˜, nous avons utilisé une procédure basée sur les trois étapes suivantes :

Détection des erreurs deux principales techniques sont utilisées pour détecter les fautes

d’orthographe en arabe : la méthode à base de règles [AlShenaifi et al., 2015,Shaalan et al., 2010,

Hassan et al., 2014] et la méthode à base de dictionnaire [Attia et al., 2014,Zerroukiet al., 2014,

Alkanhal et al., 2012]. Pour la méthode à base de règles, détecter si un mot est mal

ortho-graphié ou non dépend de l’analyse morphologique du mot, tandis que dans la technique

basée sur le dictionnaire, la détection dépend d’une grande liste de mots qui couvre les

mots les plus fréquemment utilisés dans la langue. Dans notre cas, nous avons opté pour

l’utilisation d’une grande liste de mots [Attia et al., 2012] contenant 9,2 millions de mots.

Un mot avec la lettreAlif @est correctement orthographié s’il existe dans la liste de mots.

Production d’hypothèses la distance d’édition est la technique la plus utilisée pour

pro-duire la liste des mots candidats. Elle mesure la différence entre deux séquences de

ca-ractères en calculant le nombre de modifications requises pour transformer un mot en un

autre. La correction de l’orthographe du symbole hamza Z ne nécessite pas l’utilisation

d’une distance d’édition. En effet, la correction est uniquement basée sur la sélection de

tous les mots à partir de la liste de mots arabes dont l’orthographe est la même que celle

du mot mal écrit à l’exception de hamza Z au-dessus/au-dessous de Alif @ (

@ et

@). Pour

clarifier cette démarche, considérons le mot mal orthographié ÉÔ«@ ¯a,ml, la liste des

can-didats contient les deux mots ÉÔ«

@ -a,mal(je travaille) et

ÉÔ«@ -i,ml (travaille !). Il est clair

que le mot mal écrit a la même orthographe que les deux mots candidats à l’exception de

la lettre

@ -a et

@ -i.

Correction des erreurs afin de corriger les mots avec la lettre Alif @ mal orthographiés,

nous avons utilisé la distance de cosinus afin de mesurer la similitude entre deux vecteurs

multidimensionnels. En effet, chaque mot dans les corpus d’apprentissage du modèle de

langage est projeté dans un espace de 200 dimensions de sorte que les mots qui partagent

le même contexte dans le corpus sont situés à proximité les uns aux autres dans l’espace.

Cela est obtenu avec word2vec [Mikolov et al., 2013]. Cette technique nous a permis de

corriger un mot mal orthographié par un autre qui partage le même contexte.

3.6.2 Apprentissage

Après avoir normalisé les données d’apprentissage, le modèle de langage que nous proposons

est la combinaison linéaire de deux modèles de langage de type n-grammes. Dans un tel modèle,

la probabilité de n’importe quelle séquence de motsW est calculée selon la formule suivante :

P(W) =λ

1

P

M L1

(W) +λ

2

P

M L2

(W) (3.1)

lesλ

i

sont des poids de pondération associés à chaque modèle de langage. Ils sont estimés sur un

corpus de validation de sorte que la perplexité sur ce corpus soit minimale. La perplexité d’un

modèle de langage mesure la capacité de ce modèle à prédire les mots d’un texte. Elle peut être

vue comme un facteur de branchement dans un graphe où le modèle de langage joue le rôle de

l’algorithme de recherche et les nœuds sont les mots à prédire. Dans ce cas, l’estimation de chaque

mot revient à choisir entreP P (avecP P est la valeur de la perplexité) mots équiprobables. Il est

clair queP P ≤taille vocabulaireet plus la valeur de la perplexité est petite, plus le nombre de

possibilités entre les mots équiprobables est réduit et donc meilleur sera le modèle de langage.

Le premier modèle de langage est appris sur le corpus Gigaword et le deuxième est appris

sur la transcription textuelle des données acoustiques. Le nombre des n-grammes dans le modèle

final est présenté dans le tableau 3.9.