• Aucun résultat trouvé

Proposition d’une approche possibiliste discriminative de d´ esambigu¨ısa-

L’approche `a base de transformation probabilit´e-possibilit´e (Elayeb et al., 2018) traite le probl`eme d’incertitude et d’impr´ecision des traductions candidates de chaque terme de la requˆete source. Cette approche n’´evalue pas la discrimination des valeurs des traductions, car elle utilise une seule mesure de possibilit´e (formule 4.3). Cependant, la th´eorie des possibilit´es mod´elise l’effet discriminatif `a l’aide de la mesure de n´ecessit´e. D’apr`es l’´etat de l’art, et en se basant sur les techniques de traduction existantes en RIT, il n’existe pas dans la litt´erature des approches pour la TR qui mod´elise la discrimination. Ce fait nous a motiv´e `a pousser la recherche dans cette direction en proposant une nouvelle approche possibiliste discriminative de d´esambigu¨ısation de TR. Nous optons, dans cette approche d’exploiter les deux mesures de possibilit´e et de n´ecessit´e afin d’´etudier l’impact de ces deux derni`eres sur la d´esambigu¨ısation des traductions.

Nous illustrons, `a travers la figure 4.3, le mod`ele conceptuel de notre approche possibiliste discriminative.

Requête source •Lemmatisation

•Identification des catégories grammaticales (POS)

Ensemble des NPs Français Ensemble des mots simples restants Module de désambiguïsation

des traductions

Calcul de Degré de Pertinence Possibiliste DPP

Ensemble des NPs Anglais Ensemble des mots simples Anglais

Dictionnaire Fr-Ang Corpus parallèle Fr-Ang Europarl Calcul des mesure de

Possibilité et de Nécessité

Requête Anglaise Correspondre les traductions

candidates à chaque terme des NPs et aux termes restants

Chercher les textes parallèles contenants les Traductions

candidates

Traduction inversée

Figure 4.3 – Mod`ele conceptuel de l’approche possibiliste discriminative

subit une ´etape de lemmatisation et d’identification des cat´egories grammaticales de chaque terme. D’autre part, nous avons gard´e le mˆeme principe de traduction que l’approche `a base de transformation. En effet, nous avons traduit les syntagmes nominaux de la requˆete en unit´es ainsi que les mots restants en appliquant pour les deux les mˆemes formules. Nous pr´esentons, dans la section 4.2.1, les formules de calcul de degr´e de pertinence possibiliste (DPP), et dans la section 4.2.2, un exemple illustratif avec un calcul d´etaill´e.

4.2.1 Le degr´e de pertinence possibiliste

Consid´erons la requˆete source RS = (t1, t2, . . . , tP) contenant P termes. La figure 4.4 pr´esente un r´eseau possibiliste qui relie l’ensemble des traductions candidates (Tj) aux termes de RS. Le r´esultat du processus de d´esambigu¨ısation est une requˆete cible RC = (T1, T2, . . . , TN). Nous ´evaluons la pertinence d’une traduction candi-date en utilisant deux mesures de pertinence : la pertinence possible et la pertinence n´ecessaire. Les traductions non-pertinentes sont rejet´ees par la pertinence possible. Tandis que, la pertinence n´ecessaire renforce les traductions restantes qui n’ont pas ´et´e rejet´ees par la possibilit´e. Nous notons DP P (Tj|RS) le Degr´e de Pertinence Possibiliste (DP P ) d’une traduction Tj sachant RS.

T1 Tj TN

t1 t2 t3 t4 tP

… …

Figure 4.4 – R´eseau possibiliste de l’approche discriminative de d´esambigu¨ısation

La pertinence possible de chaque traduction Tj est calcul´ee comme suit (Ben Romd-hane et al., 2017) :

La possibilit´e Π(Tj|RS) est proportionnelle `a :

Π0(Tj|RS) = Π(t1|Tj) ∗ . . . ∗ Π(tp|Tj) = nf t1j ∗ . . . ∗ nf tP j (4.11) O`u :

– nf tij = tfij/max(tfkj) : est la fr´equence normalis´ee du terme source ti dans le texte parall`ele (les phrases align´ees) de la traduction candidate Tj.

– tfij : est le nombre d’occurrence du terme source ti dans le texte parall`ele de la traduction candidate Tj divis´e par le nombre de termes dans le texte parall`ele de la traduction candidate Tj.

La n´ecessit´e, d´esign´ee par N (Tj|RS), est calcul´ee pour restituer la traduction per-tinente Tj donn´ee pour la requˆete source RS. Cette mesure est calcul´ee comme suit :

N (Tj|RS) = 1 − Π(¬Tj|RS) (4.12) O`u :

Π(¬Tj|RS) = (Π(RS|¬Tj) ∗ Π(¬Tj))/Π(RS) (4.13) De la mˆeme mani`ere Π(¬Tj|RS) est proportionnelle `a :

Π(¬Tj|RS) = Π(t1|¬Tj) ∗ . . . ∗ Π(tP|¬Tj) (4.14) Ce num´erateur peut ˆetre exprim´e comme suit :

Π0(¬Tj|RS) = (1 − φT1j) ∗ . . . ∗ (1 − φTP j) (4.15) O`u :

φTij = Log10(nCT /nTj) ∗ (nf tij) (4.16) Avec :

– nCT est le nombre de traductions candidates dans le dictionnaire bilingue Fr-Ang.

– nTj est le nombre de textes parall`eles (phrases parall`eles fran¸caises) de la traduction Tj contenant le terme source ti.

Nous calculons le degr´e de pertinence possibiliste (DP P ) de chaque traduction Tj des termes de RS via l’´equation suivante (4.17) :

DP P (Tj|RS) = Π(Tj|RS) + N (Tj|RS) (4.17) Les traductions appropri´ees sont celles qui ont le score de DP P le plus ´elev´e.

4.2.2 Exemple illustratif

Consid´erons la requˆete source RS = (W, t2, t4, t5, t7) (Ben Romdhane et al., 2017). Pour simplifier le calcul dans cet exemple, nous supposons que la requˆete n’a qu’un

seul terme polys´emique W . Nous supposons que W a deux traductions candidates T1 et T2. Nous supposons ´egalement que le texte parall`ele de T1 est index´e par les termes {t1, t2, t3, t4} et le texte parall`ele de T2 est index´e par {t1, t4, t5, t6, t7}. La mesure de Π est calcul´ee comme suit :

Π(T1|RS)= nf(W,T1)∗nf(t2,T1)∗nf(t4,T1)∗nf(t5,T1)∗nf(t7,T1) = 0∗(1/4)∗(1/4)∗0∗0 = 0 Avec nf(W,T1)est la fr´equence normalis´ee de W dans le texte parall`ele de la traduc-tion T1.

Π(T2|RS) = nf(W,T2)∗ nf(t2,T2)∗ nf(t4,T2)∗ nf(t5,T2)∗ nf(t7,T2) = 0 ∗ 0 ∗ (1/5) ∗ (1/5) ∗ (1/5) = 0

Nous avons souvent Π(Tj|RS) = 0 ; sauf si tous les mots de la requˆete source existent dans l’index du texte parall`ele de la traduction Tj.

D’autre part, nous n’avons pas des valeurs nulles pour la mesure N (Tj|RS) : N (T1|RS) = 1 − ((1 − φ(T1, W )) ∗ (1 − φ(T1, t2)) ∗ (1 − φ(T1, t4)) ∗ (1 − φ(T1, t5)) ∗ (1 − φ(T1, t7))); Avec : – φ(T1, W ) = 0 parce que nf(T1,W ) = 0; – φ(T1, t2) = log10(2/1) ∗ (1/4) = 0.075; – φ(T1, t4) = log10(2/2) ∗ (1/4) = 0; – φ(T1, t5) = 0; – φ(T1, t7) = 0 Donc : N (T1|RS) = 1−((1−0)∗(1−0.075)∗(1−0)∗(1−0)∗(1−0)) = 1−(1∗0.925∗1∗1∗1) = 0.075

Par cons´equent, DP R(T1|RS) = 0.075.

N (T2|RS) = 1 − ((1 − φ(T2, W )) ∗ (1 − φ(T2, t2)) ∗ (1 − φ(T2, t4)) ∗ (1 − φ(T2, t5)) ∗ (1 − φ(T2, t7))) Avec : – φ(T2, W ) = 0 parce que nf (T2, W ) = 0; – φ(T2, t2) = 0; – φ(T2, t4) = log10(2/2) ∗ (1/5) = 0; – φ(T2, t5) = log10(2/1) ∗ (1/5) = 0.06; – φ(T2, t7) = log10(2/1) ∗ (1/5) = 0.06 Donc : N (T2|RS) = 1 − ((1 − 0) ∗ (1 − 0) ∗ (1 − 0) ∗ (1 − 0.06) ∗ (1 − 0.06)) = 1 − (1 ∗ 1 ∗ 1 ∗ 0.94 ∗ 0.94) = 1 − 0.8836 = 0.1164

Ainsi, DP P (T2|RS) = 0.1164 > DP P (T1|RS) = 0.075

Nous remarquons que la requˆete source RS est plus pertinente pour T2 que T1, car elle renferme trois termes (t4, t5, t7) de l’index du texte parall`ele de T2 et seulement deux termes (t2, t4) de l’index du texte parall`ele de T1.