• Aucun résultat trouvé

2.2 Corpus : corpus parallèles et corpus comparables

2.2.3 Applications des corpus comparables

Les corpus comparables peuvent être exploités dans plusieurs domaines [158] : l’extraction des lexiques bilingues [38], [37], [30], [94], [55], [79], [136] ou l’extraction des terminologies [39], [42], [143], [93], [72], [152], la fouille de données multilingues, la traduction automatique

ou assistée, l’apprentissage des langues [141], etc.

1. Extraction des lexiques bilingues ou des terminologies

Les auteurs Fung et McKeown dans [38] ont proposé une méthode basée sur l’analyse du contexte lexical et une dépendance lexicale basée sur une observation simple : un mot et sa traduction ont tendance à se présenter dans un même contexte lexical. Cette méthode devient la méthode standard dans le domaine de l’extraction des lexiques bi- lingues. Dans [37], les auteurs ont proposé une méthode ”DKvec” pour extraire des lexiques bilingues anglais/japonais et anglais/chinois issues de corpus parallèles brui- tés (lorsque certaines phrases d’un texte ne sont pas traduites dans un autre texte où les frontières de phrases ne sont pas claires.) et de corpus comparables. Les précisions obtenues sont apparemment bonnes. Plus récemment, dans [30], les auteurs ont pro- posé une extension de la méthode standard afin de diminuer la dépendance de la cou- verture du dictionnaire bilingue. Cette extension est basée sur l’intuition que les mots partageant le même sens partageront les mêmes contextes. Dans [94], les auteurs ont vérifié que la représentativité (la qualité) des corpus comparables est plus importante que leur volumétrie en testant sur une tâche d’extraction des termes bilingues français/- japonais. Dans [55], les auteurs ont proposé une méthode basée sur la notion de termes du domaine : ce sont les termes les plus contextuellement pertinents et importants du domaine traité. Cette méthode, permettant de détecter et traiter les termes de contexte du domaine au lieu des termes de contexte général, ne nécessite pas de dictionnaire bilingue de grande taille. Les auteurs ont proposé dans [79] une méthode basée sur le clustering, avec une nouvelle approche intégrant la comparabilité. Celle-ci exploite une notion d’homogénéité du corpus, la plupart du vocabulaire du corpus original étant préservée. Dans [136], les auteurs ont proposé une approche sur le graphe de la simila- rité de relation de co-occurrence (directe ou indirecte) des termes sous une hypothèse : un mot et sa traduction ont tendance à avoir une relation de co-occurrence similaire (directe ou indirecte) avec tous les grains inter-lingues (un grain est une paire de tra- duction). Une relation directe est qu’un terme a une relation de co-occurrence avec un autre terme et une relation indirecte est qu’un terme n’a pas de cette relation directe avec un autre terme dans le graphe mais ils peuvent être inter-connectés via un terme intermédiaire. Cette approche permet de capturer les relations directes et indirectes de co-occurrence pour tous les grains afin de construire un graphe de similarité de relation de co-occurrence. Après la construction de ce graphe (un nœud est un terme et un arc est un lien de similarité), une technique de propagation d’étiquettes (les noms des termes et les similarités dans leur contexte) basée sur graphe [161] est appliquée pour trans- mettre les étiquettes d’un nœud étiqueté vers un nœud non étiqueté afin d’obtenir la distribution des étiquettes de chaque nœud. A partir de ces distributions, les grains sont finalement extraits. Les approches pour l’extraction des terminologies sont semblables à celles développées pour l’extraction des lexiques bilingues. La plupart des chercheurs

ont utilisé les corpus comparables pour acquérir de nouveaux mots et des paires de tra- duction candidates, propres à la terminologie du domaine spécialisé traité. Leur idée est également basée sur l’hypothèse qu’un terme dans une langue et le terme lui correspon- dant dans une autre langue ont un contexte similaire. Dans [143], les auteurs ont utilisé les similarités de contextes de document pour obtenir des paires de documents alignés, et pour chaque paire de documents alignés, les similarités de translittérations (basée sur les séquences de caractères, les couplages de sous-chaînes de caractères, la monotonie de l’alignement, etc.) sont calculées pour effectuer l’extraction des entités nommées. Par ailleurs, dans [39], [42], [93], les auteurs ont utilisé les informations de contexte pour effectuer l’extraction. Dans [72], les auteurs ont utilisé une mesure hybride non- supervisée qui combine des traits statistiques, lexicaux, linguistiques, contextuels et temporels en exploitant l’algorithme EM (espérance-maximisation) [31] (permettant de trouver le maximum de vraisemblance) pour extraire des terminologies bilingues. Dans [152], l’auteur a utilisé les corpus comparables pour extraire la collocation de deux thèmes ”culture” et ”cultiver” en anglais, français et italien.

2. Fouille de données multilingues

Afin d’essayer de résoudre les problèmes liés à la volumétrie ou aux contraintes tem- porelles associés aux corpus parallèles, [11], [153], [95], [97] ont extrait des textes parallèles dans des corpus comparables en se basant sur l’alignement des phrases et des paragraphes.

3. Traduction automatique ou assistée

[96] a utilisé des phrases parallèles extraites de corpus comparables de journaux pour améliorer la performance d’un système de traduction automatique et obtenu des perfor- mances satisfaisantes. Par contre, [121] a directement utilisé des corpus comparables afin de trouver des traductions équivalentes pour des expressions.

Cependant, la plupart de ces recherches soit est limitée par le volume des corpus compa- rables disponibles, soit ne détaille pas le processus de constitution de corpus comparables, soit la qualité d’alignement n’est pas toujours bonne. [134], [87], [78] ont vérifié que la qualité d’alignement des corpus comparables est plus importante que leur volume. Dans la section suivante, nous présentons les approches principales développées pour la constitution de corpus comparables.