Partie II Contributions 49
3.6 Modélisation du langage
@Q» kura¯asun /k u r a s u n/ Modélisation explicite des voyelles courtes
@Q» kurra¯asun /k u r r a s u n/ Modélisation explicite de la gémination
@Q» kurra¯asun /k u r r a : s u n/ Modélisation explicite des voyelles longues
@Q» kr¯as /k r s/ Modélisation implicite des voyelles
Table3.7 – Variantes de prononciation du mot @Q»(cahier) selon les aspects de modélisation
de la prononciation.
3.6 Modélisation du langage
L’apprentissage du modèle de langage est basé sur des corpus textuels de la langue à
recon-naître, à savoir la langue arabe standard dans notre cas. Ces corpus sont généralement extraits
à partir de journaux, de documents officiels, de livres ou même à partir de réseaux sociaux ces
dernières années. Quelle que soit la source de nos corpus, il existe toujours des anomalies dans
le texte écrit et particulièrement dans la langue arabe. Ces anomalies ont un impact directe
sur la modélisation du langage du fait que plusieurs formes d’écriture, qui désignent le même
mot, partagent la même probabilité. Pour cette raison, une étape de normalisation des données
textuelles est nécessaire pour réduire les conflits d’écriture et donc pour améliorer l’estimation
des probabilités des séquences de mots par le modèle de langage.
3.6.1 Normalisation des données
En analysant nos corpus d’apprentissage, nous avons pu établir une liste des erreurs les plus
fréquentes. Certaines d’entre elles sont spécifiques à l’arabe et d’autres sont communes à la
majorité des langues naturelles. Cette liste ainsi que les solutions proposées sont décrites dans le
tableau 3.8.
Vu que le préfixeð w (et) est le plus utilisé en arabe, nous avons décidé de le séparer du
mot pour réduire la taille du vocabulaire et couvrir plus de mots. En séparant, par exemple, le
préfixe du mot ÈAg.Pð wrˇg¯al (et des hommes), les trois mots ð w (et), ÈAg.P rˇg¯al (hommes) et
ÈAg.P ð w rˇg¯al (et des hommes)) seront reconnus par le système de reconnaissance. En revanche,
dans le cas où le préfixe est collé, le mot ÈAg.P rˇg¯al(hommes) sera considéré comme un mot hors
vocabulaire s’il n’apparaît pas dans un autre contexte.
En plus des opérations listées dans le tableau 3.8, une erreur souvent commise en arabe
est la simplification de l’écriture de la lettre
3.6. Modélisation du langage
Contexte Exemples Opération
Adresses mails - Chemins
URL - Phrases avec du texte
non arabe - Diacritiques
©¯ñÖÏ@ Yë à@ ñ J« ð
www.arabsummit.org.sa
(et le titre de ce site est
www. arabsummit.org.sa)
Suppression de la phrase entière
Ponctuations - Diacritiques PA @=>PA@(supporteurs) Suppression
Les mots étirés È@@@@Ag.QË@ ¯alrˇg¯a¯a¯a¯a¯al→ÈAg.QË@
¯
alrˇg¯al
Suppression des caractères en double
Le préfixeð w(et) ÈAg.Pð => ÈAg.P ð (et des
hommes)
Séparation du préfixe et le mot
suivant en utilisant l’outil Farassa
[Abdelaliet al., 2016]
Les autres préfixes H. (avec,
dans, par), ¬ (ensuite), È@
(le,la,l’), ¼ (comme), È (à,
car) et (exprime le futur)
áKXQÒJÖÏ@ H.=> áKXQÒJÖÏAK.(par
les rebelles)
Concaténation avec le mot
suivant
è h
éJJ.ʯéÓ P@=>
éJJ.ʯ éÓ P@ Insertion d’un espace après le caractère
è h(ce caractère est toujours écrit en
fin du mot)
Temps 15 :30→ é
®J¯X àñKCKð éJËAJË@ Écriture littérale
Nombres 150 => àñÔ gð éKAÓ Écriture littérale
Les abréviations Ð . => XCJÖÏ@ ÉJ.¯ (avant
JC)
Remplacement par la séquence de mots
correspondante (voir annexe A)
Table3.8 – Liste des opérations de normalisation des données textuelles.
la lettre Alif @ est souvent supprimé. La même remarque est observable pour le tilde˜qui est
utilisé dans le cas où le caractère @ est suivi par une voyelle longue (
@). L’approche que nous
proposons pour normaliser l’écriture dehamza Zest inspirée des techniques qui ont été proposées
dans la littérature pour détecter et corriger automatiquement les fautes d’orthographe. C’est un
problème commun à toutes les langues naturelles. En arabe, les fautes d’orthographe les plus
fréquentes sont celles qui concernent les erreurs d’édition et celles qui concernent les erreurs
sémantiques. Le premier type d’erreur se produit lorsqu’un mot est mal orthographié, tandis que
pour les erreurs sémantiques, un mot est remplacé par un autre mot correctement orthographié
[Alkanhal et al., 2012]. La suppression du symbole hamza Z pourrait conduire à un mot mal
orthographié (par exemple le mot mal écrit àB l¯an (car), il doit être écrit comme suit àB l-an)
où il pourrait changer le sens du mot (par exemple le mot ÐAÓ@ ¯am¯amqui pourrait être interprété
comme ÐAÓ@ -m¯am(devant) ou ÐAÓ@ -im¯am(imam) selon la position dehamza Z). Pour restituer le
symbolehamza Zet le tilde˜, nous avons utilisé une procédure basée sur les trois étapes suivantes :
Détection des erreurs deux principales techniques sont utilisées pour détecter les fautes
d’orthographe en arabe : la méthode à base de règles [AlShenaifi et al., 2015,Shaalan et al., 2010,
Hassan et al., 2014] et la méthode à base de dictionnaire [Attia et al., 2014,Zerroukiet al., 2014,
Alkanhal et al., 2012]. Pour la méthode à base de règles, détecter si un mot est mal
ortho-graphié ou non dépend de l’analyse morphologique du mot, tandis que dans la technique
basée sur le dictionnaire, la détection dépend d’une grande liste de mots qui couvre les
mots les plus fréquemment utilisés dans la langue. Dans notre cas, nous avons opté pour
l’utilisation d’une grande liste de mots [Attia et al., 2012] contenant 9,2 millions de mots.
Un mot avec la lettreAlif @est correctement orthographié s’il existe dans la liste de mots.
Production d’hypothèses la distance d’édition est la technique la plus utilisée pour
pro-duire la liste des mots candidats. Elle mesure la différence entre deux séquences de
ca-ractères en calculant le nombre de modifications requises pour transformer un mot en un
autre. La correction de l’orthographe du symbole hamza Z ne nécessite pas l’utilisation
d’une distance d’édition. En effet, la correction est uniquement basée sur la sélection de
tous les mots à partir de la liste de mots arabes dont l’orthographe est la même que celle
du mot mal écrit à l’exception de hamza Z au-dessus/au-dessous de Alif @ (
@ et
@). Pour
clarifier cette démarche, considérons le mot mal orthographié ÉÔ«@ ¯a,ml, la liste des
can-didats contient les deux mots ÉÔ«
@ -a,mal(je travaille) et
ÉÔ«@ -i,ml (travaille !). Il est clair
que le mot mal écrit a la même orthographe que les deux mots candidats à l’exception de
la lettre
@ -a et
@ -i.
Correction des erreurs afin de corriger les mots avec la lettre Alif @ mal orthographiés,
nous avons utilisé la distance de cosinus afin de mesurer la similitude entre deux vecteurs
multidimensionnels. En effet, chaque mot dans les corpus d’apprentissage du modèle de
langage est projeté dans un espace de 200 dimensions de sorte que les mots qui partagent
le même contexte dans le corpus sont situés à proximité les uns aux autres dans l’espace.
Cela est obtenu avec word2vec [Mikolov et al., 2013]. Cette technique nous a permis de
corriger un mot mal orthographié par un autre qui partage le même contexte.
3.6.2 Apprentissage
Après avoir normalisé les données d’apprentissage, le modèle de langage que nous proposons
est la combinaison linéaire de deux modèles de langage de type n-grammes. Dans un tel modèle,
la probabilité de n’importe quelle séquence de motsW est calculée selon la formule suivante :
P(W) =λ
1P
M L1(W) +λ
2P
M L2(W) (3.1)
lesλ
isont des poids de pondération associés à chaque modèle de langage. Ils sont estimés sur un
corpus de validation de sorte que la perplexité sur ce corpus soit minimale. La perplexité d’un
modèle de langage mesure la capacité de ce modèle à prédire les mots d’un texte. Elle peut être
vue comme un facteur de branchement dans un graphe où le modèle de langage joue le rôle de
l’algorithme de recherche et les nœuds sont les mots à prédire. Dans ce cas, l’estimation de chaque
mot revient à choisir entreP P (avecP P est la valeur de la perplexité) mots équiprobables. Il est
clair queP P ≤taille vocabulaireet plus la valeur de la perplexité est petite, plus le nombre de
possibilités entre les mots équiprobables est réduit et donc meilleur sera le modèle de langage.
Le premier modèle de langage est appris sur le corpus Gigaword et le deuxième est appris
sur la transcription textuelle des données acoustiques. Le nombre des n-grammes dans le modèle
final est présenté dans le tableau 3.9.
Dans le document
Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales
(Page 86-89)