• Aucun résultat trouvé

Typologie des textes « partiellement » parallèles sur le Web

Chapitre 5. Méthodes d’acquisition de traductions à partir du Web

5.4 Acquisition de textes partiellement parallèles à partir du Web

5.4.1 Typologie des textes « partiellement » parallèles sur le Web

En nous appuyant sur la typologie proposée par Nagata (2001) pour le japonais et l’anglais, nous proposons une typologie des textes « partiellement » bilingues sur le Web.

Paragraphes alignés

1

Les paragraphes alignés sont des documents comportant des paragraphes traduits dans une langue cible. Chaque paragraphe est complètement monolingue, et les paragraphes traduits succèdent les paragraphes sources. Ce type de documents concerne fréquemment des documents officiels destinés à être lus par des locuteurs non natifs, ou des articles scientifiques dans lesquels seuls les titres et les résumés sont traduits :

Figure 36. Exemple de « paragraphe aligné »2

Tables

Le document se présente sous la forme d’une table comprenant des paires d’équivalences de termes. Il s’agit le plus souvent de glossaires bilingues :

1

« Aligned paragraph format » en anglais (Nagata, 2001).

2

Figure 37. Exemple de format « table »1

Texte plein

Les termes en langue cible sont précisés de façon ponctuelle dans le corps d’un document monolingue en langue source :

Figure 38. Exemple de format « texte plein »2

1

http://www.glossaire.be/english_french/glossaire_multimedia_anglais_francais.htm

2

Une majorité des documents bilingues sur le Web répondent à cette catégorie (ibid.). La figure récapitule les différents types de textes partiellement parallèles :

Figure 39. Typologie des documents partiellement parallèles

5.4.2 Méthodes d’acquisition

Une majorité des travaux qui exploite les propriétés du Web « partiellement parallèles » concerne les travaux centrés sur la traduction de langues asiatiques en anglais (Cheng et al., 2004a). Nous présentons ces travaux et nous montrerons par la suite que le Web « partiellement parallèle » peut également être exploité pour des langues telles que le français et l’anglais. Les travaux de Nagata (2001) proposent une méthode d’extraction de traductions de termes spécialisés du japonais vers l’anglais, à partir de documents partiellement parallèles sur le Web. La méthode est basée sur le repérage de documents contenant à la fois le terme source et le terme cible via un moteur de recherche et sur un calcul de distance entre les deux termes au sein du document. Tout d’abord, sont récoltés les 100 premiers documents retournés par un moteur de recherche contenant les termes sources japonais et sont éliminés les documents exclusivement japonais. Pour chaque terme anglais présent dans le document, un calcul de probabilité est estimé, en prenant en compte la distance entre le terme source et la traduction candidate au sein d’un même document, et la traduction candidate obtenant le plus haut score est sélectionnée. Parmi les couples de termes utilisés afin de tester la quantité de documents partiellement parallèles sur le Web, 50 de ceux qui avaient retourné au moins un document sont sélectionnés comme banc de test. Parmi eux, 34 ont retourné des pages partiellement parallèles au sein des 100 premiers résultats. En ce qui concerne l’alignement de termes anglais/japonais, 60% des résultats contiennent un alignement correct dans les 10 premiers candidats termes.

Cheng et al. (2004a) présente une méthode de traduction pour l’anglais et le chinois, à partir de requêtes en langue source dont les résultats sont limités à la langue cible. L’hypothèse est que la présence de termes en langue source au sein de pages écrites en langue cible peut être un indice de repérage de documents mixtes. Les étapes de traitement à partir des documents mixtes sont tout d’abord une extraction terminologique, puis un alignement des traductions candidates avec le terme source. L’alignement des traductions est basée sur deux stratégies complémentaires : l’une mesure le taux de co-occurrence sur le Web entre le terme source et la traduction candidate, l’autre compare la similarité des vecteurs de co-occurrences sur le Web entre le terme source et la traduction candidate. Une évaluation, dans le cadre de la recherche multilingue, offre une précision de 46% sur la première traduction candidate pour les requêtes les plus populaires et 58% pour le top 5. En ce qui concerne des requêtes aléatoires, la précison est de 40% pour le top 1 et de 60% pour le top 5. Dans la même lignée, Cheng et al. (2004b) proposent une approche basée sur une utilisation « partiellement » multilingue du Web (pages contenant à la fois de l’anglais et des langues asiatiques) afin de construire des lexiques multilingues prenant en compte des variations régionales pour la langue chinoise.

Huang et al. (2005) présentent une méthode d’acquisition de traductions chinois/anglais d’Entités Nommées à partir du Web, en exploitant des documents partiellement bilingues. La méthode est basée sur le repérage de traductions au sein de résumés mixtes, à partir de requêtes interlingues « enrichies », c’est-à-dire associant le terme source aux traductions de mots-clés apparentés. Par exemple, le mot-source Faust en japonais constitue d’abord une première requête. A partir des résumés retournés, une liste de mots-clés est constituée selon différents critères tels que le taux de co-occurrence du mot source et du mot-clé thématique sur le Web, le recensement de la traduction du mot-clé thématique dans des ressources pré- existantes, la faible quantité de traductions candidates possibles du mot-clé thématique, le fait que le mot-clé thématique soit un nom ou un syntagme nominal. Les mots-clés les plus significatifs sont traduits en anglais (langue cible) et sont générées des requêtes enrichies du type de Faust(en japonais) Goethe, comme l’illustre le schéma (Huang et al., 2005) :

Figure 40. Exemple de « requête enrichie »

Des critères phonétiques, sémantiques et statistiques (mesure de la distance entre le mot source et le mot cible au sein des résumés) sont ensuite appliqués à l’extraction des résumés mixtes retournés par ce type de requêtes. Les résultats de traduction offrent une précision de 46% en utilisant les 10 premiers résumés retournés, et de 80% en utilisant 165 résumés. Zhuang et Vines (2004, 2005) utilisent une méthode similaire de traduction chinois/anglais pour la détection de termes inconnus1. Wu et Chang (2007) présentent le système TermMine, système d’acquisition de « translitérations » de l’anglais vers le chinois. La méthode est basée sur l’expansion de requêtes et la collecte de résumés « mixtes » sur le Web.