Proposition d’une approche possibiliste discriminative de d´ esambigu¨ısa-

L’approche à base de transformation probabilité-possibilité (Elayeb et al., 2018) traite le problème d’incertitude et d’imprécision des traductions candidates de chaque terme de la requête source. Cette approche n’évalue pas la discrimination des valeurs des traductions, car elle utilise une seule mesure de possibilité (formule 4.3). Cependant, la théorie des possibilités modélise l’effet discriminatif à l’aide de la mesure de nécessité. D’après l’état de l’art, et en se basant sur les techniques de traduction existantes en RIT, il n’existe pas dans la littérature des approches pour la TR qui modélise la discrimination. Ce fait nous a motivé à pousser la recherche dans cette direction en proposant une nouvelle approche possibiliste discriminative de désambigu¨ısation de TR. Nous optons, dans cette approche d’exploiter les deux mesures de possibilité et de nécessité afin d’étudier l’impact de ces deux dernières sur la désambigu¨ısation des traductions.

Nous illustrons, `a travers la figure 4.3, le mod`ele conceptuel de notre approche possibiliste discriminative.

Requête source •Lemmatisation

•Identification des catégories grammaticales (POS)

Ensemble des NPs Français Ensemble des mots simples restants Module de désambiguïsation

des traductions

Calcul de Degré de Pertinence Possibiliste DPP

Ensemble des NPs Anglais Ensemble des mots simples Anglais

Dictionnaire Fr-Ang Corpus parallèle Fr-Ang Europarl Calcul des mesure de

Possibilité et de Nécessité

Requête Anglaise Correspondre les traductions

candidates à chaque terme des NPs et aux termes restants

Chercher les textes parallèles contenants les Traductions

candidates

Traduction inversée

Figure 4.3 – Mod`ele conceptuel de l’approche possibiliste discriminative

subit une étape de lemmatisation et d’identification des catégories grammaticales de chaque terme. D’autre part, nous avons gardé le même principe de traduction que l’approche à base de transformation. En effet, nous avons traduit les syntagmes nominaux de la requête en unités ainsi que les mots restants en appliquant pour les deux les mêmes formules. Nous présentons, dans la section 4.2.1, les formules de calcul de degré de pertinence possibiliste (DPP), et dans la section 4.2.2, un exemple illustratif avec un calcul détaillé.

4.2.1 Le degr´e de pertinence possibiliste

Considérons la requête source RS = (t₁, t₂, . . . , t_P) contenant P termes. La figure 4.4 présente un réseau possibiliste qui relie l’ensemble des traductions candidates (Tj) aux termes de RS. Le résultat du processus de désambigu¨ısation est une requête cible RC = (T₁, T₂, . . . , T_N). Nous évaluons la pertinence d’une traduction candi-date en utilisant deux mesures de pertinence : la pertinence possible et la pertinence nécessaire. Les traductions non-pertinentes sont rejetées par la pertinence possible. Tandis que, la pertinence nécessaire renforce les traductions restantes qui n’ont pas été rejetées par la possibilité. Nous notons DP P (T_j|RS) le Degré de Pertinence Possibiliste (DP P ) d’une traduction T_j sachant RS.

T₁ T_j T_N

t₁ t₂ t₃ t₄ t_P

… …

…

Figure 4.4 – R´eseau possibiliste de l’approche discriminative de d´esambigu¨ısation

La pertinence possible de chaque traduction T_j est calcul´ee comme suit (Ben Romd-hane et al., 2017) :

La possibilit´e Π(T_j|RS) est proportionnelle `a :

Π⁰(T_j|RS) = Π(t₁|T_j) ∗ . . . ∗ Π(t_p|T_j) = nf t_1j ∗ . . . ∗ nf t_{P j} (4.11) O`u :

– nf t_ij = tf_ij/max(tf_kj) : est la fréquence normalisée du terme source t_i dans le texte parallèle (les phrases alignées) de la traduction candidate T_j.

– tf_ij : est le nombre d’occurrence du terme source t_i dans le texte parallèle de la traduction candidate T_j divisé par le nombre de termes dans le texte parallèle de la traduction candidate T_j.

La nécessité, désignée par N (Tj|RS), est calculée pour restituer la traduction per-tinente T_j donnée pour la requête source RS. Cette mesure est calculée comme suit :

N (T_j|RS) = 1 − Π(¬T_j|RS) (4.12) O`u :

Π(¬T_j|RS) = (Π(RS|¬T_j) ∗ Π(¬T_j))/Π(RS) (4.13) De la même manière Π(¬Tj|RS) est proportionnelle à :

Π(¬T_j|RS) = Π(t₁|¬T_j) ∗ . . . ∗ Π(t_P|¬T_j) (4.14) Ce numérateur peut être exprimé comme suit :

Π⁰(¬T_j|RS) = (1 − φT_1j) ∗ . . . ∗ (1 − φT_{P j}) (4.15) O`u :

φT_ij = Log₁₀(nCT /nT_j) ∗ (nf t_ij) (4.16) Avec :

– nCT est le nombre de traductions candidates dans le dictionnaire bilingue Fr-Ang.

– nT_j est le nombre de textes parall`eles (phrases parall`eles fran¸caises) de la traduction T_j contenant le terme source t_i.

Nous calculons le degr´e de pertinence possibiliste (DP P ) de chaque traduction T_j des termes de RS via l’´equation suivante (4.17) :

DP P (T_j|RS) = Π(T_j|RS) + N (T_j|RS) (4.17) Les traductions appropriées sont celles qui ont le score de DP P le plus élevé.

4.2.2 Exemple illustratif

Considérons la requête source RS = (W, t₂, t₄, t₅, t₇) (Ben Romdhane et al., 2017). Pour simplifier le calcul dans cet exemple, nous supposons que la requête n’a qu’un

seul terme polysémique W . Nous supposons que W a deux traductions candidates T₁ et T₂. Nous supposons également que le texte parallèle de T₁ est indexé par les termes {t₁, t₂, t₃, t₄} et le texte parallèle de T₂ est indexé par {t₁, t₄, t₅, t₆, t₇}. La mesure de Π est calculée comme suit :

Π(T₁|RS)= nf_(W,T₁₎∗nf_(t₂_,T₁₎∗nf_(t₄_,T₁₎∗nf_(t₅_,T₁₎∗nf_(t₇_,T₁₎ = 0∗(1/4)∗(1/4)∗0∗0 = 0 Avec nf_(W,T₁₎est la fréquence normalisée de W dans le texte parallèle de la traduc-tion T₁.

Π(T₂|RS) = nf_(W,T₂₎∗ nf_(t₂_,T₂₎∗ nf_(t₄_,T₂₎∗ nf_(t₅_,T₂₎∗ nf_(t₇_,T₂₎ = 0 ∗ 0 ∗ (1/5) ∗ (1/5) ∗ (1/5) = 0

Nous avons souvent Π(T_j|RS) = 0 ; sauf si tous les mots de la requˆete source existent dans l’index du texte parall`ele de la traduction T_j.

D’autre part, nous n’avons pas des valeurs nulles pour la mesure N (Tj|RS) : N (T₁|RS) = 1 − ((1 − φ(T₁, W )) ∗ (1 − φ(T₁, t₂)) ∗ (1 − φ(T₁, t₄)) ∗ (1 − φ(T₁, t₅)) ∗ (1 − φ(T₁, t₇))); Avec : – φ(T₁, W ) = 0 parce que nf_(T₁_{,W )} = 0; – φ(T₁, t₂) = log₁₀(2/1) ∗ (1/4) = 0.075; – φ(T₁, t₄) = log₁₀(2/2) ∗ (1/4) = 0; – φ(T₁, t₅) = 0; – φ(T1, t7) = 0 Donc : N (T₁|RS) = 1−((1−0)∗(1−0.075)∗(1−0)∗(1−0)∗(1−0)) = 1−(1∗0.925∗1∗1∗1) = 0.075

Par cons´equent, DP R(T₁|RS) = 0.075.

N (T₂|RS) = 1 − ((1 − φ(T₂, W )) ∗ (1 − φ(T₂, t₂)) ∗ (1 − φ(T₂, t₄)) ∗ (1 − φ(T₂, t₅)) ∗ (1 − φ(T₂, t₇))) Avec : – φ(T2, W ) = 0 parce que nf (T2, W ) = 0; – φ(T₂, t₂) = 0; – φ(T₂, t₄) = log₁₀(2/2) ∗ (1/5) = 0; – φ(T₂, t₅) = log₁₀(2/1) ∗ (1/5) = 0.06; – φ(T₂, t₇) = log₁₀(2/1) ∗ (1/5) = 0.06 Donc : N (T₂|RS) = 1 − ((1 − 0) ∗ (1 − 0) ∗ (1 − 0) ∗ (1 − 0.06) ∗ (1 − 0.06)) = 1 − (1 ∗ 1 ∗ 1 ∗ 0.94 ∗ 0.94) = 1 − 0.8836 = 0.1164

Ainsi, DP P (T₂|RS) = 0.1164 > DP P (T₁|RS) = 0.075

Nous remarquons que la requête source RS est plus pertinente pour T₂ que T₁, car elle renferme trois termes (t₄, t₅, t₇) de l’index du texte parallèle de T₂ et seulement deux termes (t2, t4) de l’index du texte parallèle de T1.

Dans le document Désambiguïsation des Traductions des Requêtes dans la Recherche d'Information Translinguistique (Page 111-115)