Mesures de comparabilité pour évaluer la qualité de comparabilité

2.2 Corpus : corpus parallèles et corpus comparables

2.2.5 Mesures de comparabilité pour évaluer la qualité de comparabilité

Notre état de l’art montre qu’il y a peu de travaux sur les mesures de comparabilité propre- ment dites. On recense principalement les références suivantes : [113], [77], [103] et [132].

Dans [113], les auteurs déduisent un score de comparabilité globale de la similarité de toutes les paires de documents inter-linguistiques ”cross-language documents” sous hypothèse que plus les documents sont similaires, plus leurs contextes de mots sont similaires. Soit C1un corpus dans la langue L1constitué de m documents d1i(i = 1, 2, . . . , m) et soit C2un corpus dans la langue L2consititué de n documents d₂j( j = 1, 2, . . . , n). Tout d’abord, la similarité entre deux documents de langues différentes est calculée en utilisant l’outil ”Dokusare”. Cet outil permet d’obtenir la similarité entre les deux documents de langues différentes et est décrit dans [114]. On peut ainsi obtenir une matrice DM de(n ∗ m), où chaque élément DMi j = S(d1i, d

j 2), qui correspond à l’élément sur la ligne i et la colonne j, est la similarité entre di

1et d j

2. Les auteurs définissent ensuite un processus appelé EMD (basé sur la notion de flux au sens physique) pour estimer à partir de la matrice DM de similarité, un score global pour le corpus bilingue.

Dans [103], les auteurs ont proposé deux variantes de mesure de comparabilité basées sur le ratio entre deux fois la somme des liens inter-linguistiques (traductions) et la somme des tailles des deux vocabulaires dans les deux langues différentes. Les auteurs considèrent un corpus comparable C d’articles issus de Wikipédia, constitué par exemple par une partie portugaise Cp et une partie espagnole Cs. Pour chaque terme tpdans le vocabulaire Cvpde Cp, un coefficient de comparabilité peut être défini à partir de la recherche de son lien inter-langue (ou traduction) dans le vocabulaire C_sv de Cs. Le vocabulaire associé à un corpus Wikipédia est constitué de l’ensemble des ”liens internes” trouvés dans ce corpus. Ainsi, les deux parties du corpus, Cp et Cs, ont tendance à avoir un haut degré de comparabilité si nous trouvons de nombreux liens internes à Cv

pqui peuvent être traduits (par le moyen des liens inter-langues) dans de nombreux liens internes à C_sv. Soit Transbin(tp,Csv) une fonction binaire qui renvoie 1 si la traduction du terme portugais tp se trouve dans le vocabulaire espagnol Csv. La première variante est alors définie par : Dicebin(Cp,Cs) = 2 ∑tp∈CvpTransbin(tp,C v s) |Cv p| + |Csv| (2.9) Pour éviter l’influence des liens internes communs (les liens présentés dans la plupart des articles), les auteurs ont proposé une autre variante en tenant compte de la pondération tf-idf tel que défini en Equation2.10.

Dicet f_id f(Cp,Cs) = 2 ∑_t_p_∈Cv pTranst f_id f(tp,C v s) ∑tp∈Cvpt f_id f(tp) + ∑ts∈Csvt f_id f(ts) (2.10) Plus récemment, dans [132], les auteurs ont développé une autre mesure de comparabilité as- sez différente qui combine plusieurs métriques distinctes : une métrique basée sur l’alignement lexical, une métrique basée sur les mots-clés et des métriques basées sur la traduction automatique.

1. Métrique basée sur l’alignement lexical

Tout d’abord, les auteurs ont automatiquement construit des dictionnaires bilingues (lorsque ces dictionnaires bilingues ne sont pas disponibles pour les langues peu do- tées en ressources numériques, par exemple anglais/slovène ou anglais/lituanien) en utilisant l’alignement des mots à partir de corpus parallèles à grande échelle comme Europarl [67] et JRC-Acquis [131].

Une fois ces dictionnaires conçus, les auteurs ont réalisé un alignement lexical en ex- ploitant une approche d’alignement mots-pour-mots. Ils ont vérifié si chaque mot est présent dans les entrées du dictionnaire et si oui, la première traduction (la plus pro- bable) est prise comme le mot d’alignement correspondant. Dans le cas où plusieurs traductions existent pour un mot, la deuxième traduction dont la probabilité est su- périeure à 0,3 est également prise en compte. Enfin, les auteurs ont utilisé la mesure de similarité cosinus pour calculer le poids de comparabilité des paires de documents obtenus.

2. Métrique basée sur les mots-clés

Partant de l’intuition que plus deux documents partagent des mots-clés, plus ils sont comparables, les auteurs ont effectué les étapes suivantes :

D’abord, les auteurs ont traduit les textes non-anglais vers l’anglais en utilisant le dictionnaire bilingue. Ensuite, la pondération tf-idf est appliquée pour effectuer un tri en ordre décroissant et les 30 premiers mots sont gardés pour représenter le texte. Enfin, les auteurs ont utilisé la similarité cosinus pour calculer la valeur de comparabilité entre ces listes de mots-clés.

3. Métriques basées sur la traduction automatique

Pour diminuer la perte de performance lorsque l’on ignore l’ordre des mots, la structure syntaxique et les entités nommées, les auteurs se sont tournés vers l’exploitation d’un système de traduction automatique (SMT). L’API de traduction automatique de Microsoft1a été utilisée pour traduire les langues peu dotées en ressources numériques comme le slovène et le lituanien en anglais et exploiter les caractéristiques suivantes pour la conception de la métrique de comparabilité.

a. Caractéristique lexicale : la similarité lexicale WLde chaque paire de documents est obtenue par la mesure de similarité cosinus sur cette caractéristique lexicale après la lemmatisation des mots non-vides.

b. Caractéristique de structure : Elle est obtenue approximativement par le nombre de mots de contexte CD (adjectifs, adverbes, noms, verbes et noms propres) et le

nombre de phrases SD dans chaque document avec l’intuition que si deux docu-

ments sont hautement comparables, leur nombre de mots de contexte et la taille des

documents doivent être similaires. La similarité de structure WSest définie par :

WS= 0.5 × (CD1/CD2) + 0.5 × (SD1/SD2) (2.11)

En supposant que CD1≤ CD2et SD1≤ SD2.

c. Caractéristique de mots-clés : les auteurs ont sélectionné les 20 premiers mots (par tri sur les poids tf-idf). La similarité ”mots-clés” WK de deux documents est égale- ment calculée par similarité cosinus.

d. Caractéristique des entités nommées : les auteurs ont extrait les entités nommées et ensuite utilisé la similarité cosinus pour calculer la similarité ”entités nommées” WN entre une paire de documents de langues différentes.

Enfin, ils ont combiné ces quatre valeurs de similarité selon l’Equation2.12pour obtenir la valeur de comparabilité globale :

SC= α ×WL+ β ×WS+ γ ×WK+ δ ×WN (2.12)

Oùα, β, γ et δ ∈ [0, 1] et α + β + γ + δ = 1. Dans leur expérience, les auteurs ont utilisé α = 0, 5, β = 0, 2, γ = 0, 2 et δ = 0, 1.

SC est ainsi une valeur comprise entre 0 et 1, et plus sa valeur est grande, plus la comparabilité est élevée.

Les mesures présentées ci-dessus sont relativement complexes à calculer. En dehors de ces travaux, à notre connaissance, il existe seulement un travail qui élabore et évalue une mesure de la comparabilité d’une manière systématique et quantitative. Cette mesure de comparabilité est proposée par Li et Gaussier dans [77]. Elle calcule de manière symétrique vis-à-vis des langues L1 et L2, le nombre des mots du vocabulaire source qui ont au moins une tradution présente dans le vocabulaire cible. La valeur définitive est obtenue par la somme de ces deux nombres, normalisée par la somme de la taille du vocabulaire source et la taille du vocabulaire cible. La mesure de comparabilité se présente formellement sous la forme :

CLG(C1,C2) =

∑

w1∈WC1∩W D1 σ(w1) +

∑

w2∈WC2∩W D2 σ(w2) |WC1∩W D1| + |WC2∩W D2| (2.13) où : WCi, i∈ {1, 2} est le vocabulaire en langue

L

iassocié au corpus Ci; W Diest l’ensemble des entrées lexicales en langue

L

i du dictionnaire bilingue utilisé présentes dans WCi;σ(wi) est une fonction indicatrice qui prend la valeur 1 si au moins une traduction de l’entrée lexicale wi∈ WCi en langue

L

iexiste dans le vocabulaire associé au corpus de l’autre langue, 0 sinon.

Cette mesure de comparabilité est facile à calculer : dans les expérimentations proposées par les auteurs et que nous avons également reprises dans le chapitre3, nous avons pu vérifier que la symétrie est très importante pour calculer la comparabilité.

Nous pouvons qualifier cette mesure de comparabilité ”traductionnelle” dans la mesure où elle est bien adaptée à une tâche d’aide à la traduction, mais pas nécessairement adaptée à des tâches de classification ou de clustering de documents bilingues thématiques.

Dans le document Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques (Page 43-46)