Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques

(1)

HAL Id: tel-00997837

https://tel.archives-ouvertes.fr/tel-00997837

Submitted on 2 Jun 2014

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Mesures de comparabilité pour la construction assistée

de corpus comparables bilingues thématiques

Guiyao Ke

To cite this version:

Guiyao Ke. Mesures de comparabilité pour la construction assistée de corpus comparables bilingues thématiques. Traitement du texte et du document. Université de Bretagne Sud, 2014. Français. �tel-00997837�

(2)

UFR Sciences et Sciences de l’Ingénieur sous le sceau de l’Université Européenne de Bretagne Pour obtenir le grade de :

DOCTEUR DE L’UNIVERSITE DE BRETAGNE SUD

Mention : INFORMATIQUE

Ecole Doctorale SICMA

Guiyao KE

IRISA-UBS Laboratoire de Recherche Informatique et ses Applications de Vannes et Lorient

Mesures de comparabilité pour la

construction assistée de corpus

comparables bilingues thématiques

Thèse soutenue le 26 février 2014, devant la commission d’examen composée de : Mme. Pascale SEBILLOT

Professeur, INSA de Rennes, IRISA / Président M. Eric GAUSSIER

Professeur, Université Joseph Fourier, LIG / Rapporteur M. Emmanuel MORIN

Professeur, Université de Nantes, LINA / Rapporteur M. Geoffrey WILLIAMS

Professeur, Université de Bretagne Sud, LICORN / Examinateur M. Pierre-françois MARTEAU

(3)

Remerciements

Je présente mes sincères remerciements à mon directeur de thèse Pr. Pierre-François MAR-TEAU pour avoir dirigé et encadré cette thèse ainsi que pour ses efforts, son aide, ses conseils et ses encouragements.

Je remercie tout spécialement les rapporteurs Pr. Emmanuel MORIN et Pr. Eric GAUS-SIER, ainsi que les examinateurs Pr. Pascale Sébillot, présidente du jury de soutenance, et Pr. Geoffrey WILIAMS, pour m’avoir fait l’honneur d’assister à mon jury de thèse, pour leur nombreuses questions et suggestions constructives et pour le temps qu’ils ont consacré à l’éva-luation de mon travail.

Je remercie aussi tous les différents collaborateurs du projet ANR METRICC, surtout ceux qui ont contribué à ce travail, tout particulièrement Dr. Gildas MENIER et Dr. Bo LI.

Je remercie également tous les membres du laboratoire IRISA (ex. VALORIA), particuliè-rement les doctorants, les docteurs et permanents de l’équipe de football, en particulier Abdul-kader BENCHI, Djamel BENFERHAT, Thibaut LE NAOUR, Jean-François KAMP, etc.

Je remercie enfin Pr. Quansheng LIU du laboratoire LMBA-UBS et Pr. Thierry BAUTIER de l’Ecole Supérieure du Professorat et de l’Education de Bretagne pour leur soutien.

Je dédie ce travail à mes parents, à tous les membres de ma famille et toutes les personnes qui ont contribué, de près ou de loin, à travers leur soutien moral ou matériel, à ce que celui-ci aboutisse.

(4)

(5)

Table des matières

Table des matières i

Liste des figures xiv

Liste des tableaux xv

I INTRODUCTION 1

1 Introduction 3

1.1 Contexte du projet METRICC . . . 3

1.2 Motivations . . . 4

1.2.1 Corpus comparables et corpus parallèles . . . 4

1.2.2 Motivation pour la constitution de corpus comparables . . . 5

1.2.3 Corpus comparables thématiques versus corpus comparables généraux . 5 1.3 Principales contributions de cette thèse . . . 7

1.4 Plan de thèse . . . 8

II ETAT DE L’ART 9 2 Etat de l’art 11 2.1 Introduction . . . 11

2.2 Corpus : corpus parallèles et corpus comparables . . . 11

2.2.1 Corpus parallèles . . . 12

2.2.2 Définitions des corpus comparables . . . 14

2.2.3 Applications des corpus comparables . . . 14

2.2.4 Constitution des corpus comparables. . . 16

2.2.5 Mesures de comparabilité pour évaluer la qualité de comparabilité . . . 25

2.3 Clustering et classification de textes . . . 28

2.3.1 Classification non supervisée : le clustering . . . 28

2.3.2 Classification supervisée : la catégorisation . . . 36

(6)

III Contribution à l’élaboration de mesures de comparabilité quantitatives

et à leur évaluation 47

3 Mesures de comparabilité 51

3.1 Introduction . . . 51

3.2 Variations autour d’une mesure quantitative de comparabilité . . . 52

3.2.1 Mesure de comparabilité de Li et Gaussier (CLG) . . . 52

3.2.2 Vers une définition quantitative de la comparabilité thématique . . . 52

3.3 Protocole d’évaluation des mesures quantitatives de comparabilité . . . 54

3.3.1 Mesure d’évaluation et paramètres d’étude . . . 54

3.3.2 Prétraitements et principes d’évaluation . . . 55

3.4 Evaluations des mesures de comparabilité sur la base de série de corpus dégra-dés décrits précédement . . . 58

3.4.1 Influence de la taille des blocs de texte sur les corrélations moyennes . 58 3.4.2 Influence des taux de couverture sur les corrélations moyennes des me-sures avec la référence empirique . . . 59

3.4.3 Capacités des mesures à discriminer les degrés de dégradation du cor-pus parallèle Europarl . . . 61

3.5 Conclusion . . . 62

IV Contribution à la classification et au clustering de documents bilingues comparables thématiques 65 4 Clustering et catégorisation des données bilingues par fusion des similarités na-tiveset des similarités induites par mesure de comparabilité 69 4.1 Introduction . . . 70

4.2 Modèle de fusion des similarités natives et des similarités induites par la com-parabilité . . . 72

4.2.1 Mesure de similarité induite par mesure de comparabilité . . . 73

4.2.2 Fusion des similarités natives et similarités induites . . . 74

4.3 Corpus de test développés et prétraitement des données collectées associé . . . 74

4.3.1 Dictionnaire bilingue . . . 77

4.3.2 Protocole d’évaluation . . . 77

4.4 Expérimentations sur le corpus RSS7 . . . 79

4.4.1 Impact du modèle de mélange des similarités natives et des similarités induitespar mesure de comparabilité sur la classification 1-PPV . . . . 79

4.4.2 Evaluation du modèle de mélange des similarités natives et des simila-rités induites par la comparabilité sur le clustering k-médoides avec les pondérations tf-idf et tf . . . 79

(7)

4.4.3 Impact de la fusion des similarités natives et des similarités induites par mesure de comparabilité sur un clustering hiérarchique ascendant

avec les pondérations tf-idf et tf . . . 82

4.4.4 Alignement des clusters comparables par le modèle de mélange de la comparabilités (pour la variante CVA2) avec les similarités natives, en considérant un modèle vectoriel avec pondération tf . . . 83

4.5 Expérimentations sur les corpus Wikipédia. . . 84

4.5.1 Expériences sur le sous-corpus Wikipedia_A. . . 86

4.5.2 Expériences sur le sous-corpus Wikipedia_B. . . 88

4.5.3 Expériences sur le sous-corpus Wikipedia_C . . . 91

4.6 Analyse et éléments de conclusion . . . 95

V Contribution à la construction assistée de corpus bilingues comparables thématiques 99 5 Quelques éléments pour la construction assistée de corpus comparables bilingues thématiques 103 5.1 Introduction . . . 103

5.2 Construction semi-supervisée de corpus comparables par co-clustering de cor-pus bilingues . . . 104

5.3 Corpus et dictionnaire exploités . . . 109

5.4 Expérimentations et résultats . . . 110 5.4.1 Expérimentations sur

C

₁ . . . 110 5.4.2 Expérimentations complémentaires . . . 117 5.5 Conclusion . . . 122 VI CONCLUSIONS 125 6 Conclusions et perspectives 127 6.1 Introduction . . . 127

6.2 Sommaire des contributions . . . 128

6.2.1 Mesures de comparabilité proposées . . . 128

6.2.2 SCF-clustering, SCF-classification et alignement des clusters compa-rables . . . 128

6.2.3 Généralisation pour la constitution des corpus comparables . . . 129

6.3 Conclusions générales . . . 129

(8)

Bibliographie 145

Annexes 145

A Mots vides anglais et français 147

B Dix premières paires de clusters obtenues sur la base du Tri séquentiel 151

B.1 Premières paire de clusters : ”Syrie-Iraq” . . . 153

B.2 Deuxième paire de clusters : ”Iran”. . . 154

B.3 Troisième paire de clusters : ”Armes chimiques en Syrie” . . . 155

B.4 Quatrième paire de clusters : ”Querre civile en Syrie” . . . 156

B.5 Cinquième paire de clusters : ”Président chinois” . . . 157

B.6 Sixième paire de clusters : ”Israel et Turquie” . . . 158

B.7 Septième paire de clusters : ”Afghanistan” . . . 159

B.8 Huitième paire de clusters : ”Chypre” . . . 160

B.9 Neuvième paire de clusters : ”Election Syrie” . . . 161

B.10 Dixième paire de clusters : ”Liban”. . . 162

C Dix premières paires de clusters obtenues sur la base du Tri simultané 163 C.1 Premières paire de clusters : ”Syrie et Liban” . . . 164

C.2 Deuxième paire de clusters : ”Syrie et Iraq” . . . 165

C.3 Troisième paire de clusters : ”Querre civile en Syrie” . . . 166

C.4 Quatrième paire de clusters : ”Iran” . . . 167

C.5 Cinquième paire de clusters : ”Armes chimiques en Syrie” . . . 168

C.6 Sixième paire de clusters : ”Président chinois” . . . 169

C.7 Septième paire de clusters : ”Israel et Turquie” . . . 170

C.8 Huitième paire de clusters : ”Israel et Syrie” . . . 171

C.9 Neuvième paire de clusters : ”Afghanistan” . . . 172

C.10 Dixième paire de clusters : ”Paris, Londre et Syrie” . . . 173

D Dix premières paires de clusters obtenues sur la base du Tri du pire des cas 175 D.1 Premières paire de clusters : ”Animal” . . . 177

D.2 Deuxième paire de clusters : ”Argents”. . . 178

D.3 Troisième paire de clusters : ”Tennis” . . . 179

D.4 Quatrième paire de clusters : ”Films”. . . 180

D.5 Cinquième paire de clusters : ”Président français” . . . 181

D.6 Sixième paire de clusters : ”Vin” . . . 182

D.7 Septième paire de clusters : ”Pilules”. . . 183

D.8 Huitième paire de clusters : ”Milliadaire américain” . . . 184

(9)

(10)

(11)

Table des figures

2.1 Approche basée sur les caractéristiques TNC, LIU et MTD, pour l’alignement

des documents. . . 20

2.2 Modèle de la traduction des requêtes . . . 24

2.3 Processus de constitution des corpus comparables suédois/anglais basé sur la recherche d’information multilingue [135] . . . 24

2.4 Illustration de l’algorithme des k-moyennes : à gauche, les centres de cluster sont aléatoires ; au milieu, les centres de cluster commencent à converger ; à droite, les centres de cluster deviennent stables. . . 30

2.5 Exemple de dendrogramme. Si on coupe horizontalement au niveau du seuil de similarité So, nous obtenons 3 clusters : {q,a,c,x,s}, {v,t,e,y,w,k} et {g}. . . 32

2.6 Les phases du classifieur de Bayes Naïf . . . 39

2.7 Hyperplan pour diviser les deux classes . . . 44

2.8 Maximisation de la marge . . . 45

3.1 Dégradation partitionnée et progressive du corpus Europarl pour les deux modes de remplacement (déterministe ou aléatoire).. . . 56

3.2 Influence de la taille des blocs de texte de corpus sur les corrélations moyennes des mesures vis-à-vis de la référence empirique étalon pour le dictionnaire bi-lingue fullDicText. Les deux modes de remplacement sont représentés pour chaque taille de bloc de texte avec un léger décalage : déterministe à gauche et aléatoire à droite . . . 58

3.3 Influence de la taille des blocs de texte de corpus sur les corrélations moyennes des mesures vis-à-vis de la référence empirique étalon pour le dictionnaire bi-lingue dicElra. Les deux modes de remplacement sont représentés pour chaque taille de bloc de texte avec un léger décalage : déterministe à gauche et aléatoire à droite . . . 59

3.4 Influence du taux de couverture TCV sur les corrélations moyennes des mesures vis-à-vis de la référence empirique étalon pour le dictionnaire fullDicText, à gauche pour les corpus dégradés par remplacement déterministe, à droite pour les corpus dégradés par remplacement aléatoire . . . 60

3.5 Influence du taux de couverture TCV sur les corrélations moyennes des me-sures vis-à-vis de la référence empirique étalon pour le dictionnaire dicElra, à gauche pour les corpus dégradés par remplacement déterministe, à droite pour les corpus dégradés par remplacement aléatoire . . . 60

(12)

3.6 Capacité des mesures de comparabilité à discriminer les degrés de dégradation

du corpus Europarl : moyennes et écarts-types de ∆(.) en fonction des taux

de couverture du dictionnaire TCDfullDicTextexploité sur les corpus produits

par remplacements déterministe (décalages à gauche) et aléatoire (décalages à

droite).. . . 61

3.7 Capacité des mesures de comparabilité à discriminer les degrés de dégradation

du corpus Europarl : moyennes et écarts-types de ∆(.) en fonction des taux

de couverture du dictionnaire TCDdicElraexploité sur les corpus produits par

remplacements déterministe (décalages à gauche) et aléatoire (décalages à droite). 62

4.1 Couplage de deux espaces linguistiques par graphe de comparabilité . . . 71

4.2 Evaluation de l’impact de la fusion des similarités natives et des similarités

in-duitespar mesure comparabilité sur le taux d’erreur d’une classification 1-PPV,

pour les trois mesures de comparabilité testées : à gauche, la classification des documents anglais ; à droite, la classification des documents français. Le mo-dèle vectoriel est exploité avec pondération tf-idf en haut, et avec pondération

tf en bas. . . 80

4.3 Evaluation de la fusion des similarités natives et des similarités induites par

mesure de comparabilité sur le clustering k-médoides au sens de la mesure AC. Le modèle vectoriel est exploité avec pondération tf-idf en haut, et avec

pondération tf en bas. . . 81

mesure de comparabilité sur le clustering k-médoides au sens de la mesure NMI. Le modèle vectoriel est exploité avec pondération tf-idf en haut, et avec

pondération tf en bas. . . 82

mesure comparabilité sur le clustering k-médoides au sens de la mesure DB. Le modèle vectoriel est exploité avec pondération tf-idf en haut, et avec

pon-dération tf en bas. . . 83

4.6 Evaluation de la fusion des similarités natives avec les similarités induites par

mesure de comparabilité sur un clustering hiérarchique ascendant en utilisant la mesure AC. Le modèle vectoriel est exploité avec pondération tf-idf en haut,

et avec pondération tf en bas. . . 84

4.7 Evaluation de la fusion des similarités natives avec les similarités induites par

mesure de comparabilité sur un clustering hiérarchique ascendant au sens de la mesure NMI. Le modèle vectoriel est exploité avec pondération tf-idf en haut,

et avec pondération tf en bas. . . 85

4.8 Comparabilités inter-clusters par modèle de fusion de la comparabilité et les

(13)

4.9 Alignement des clusters par fusion de la comparabilité et les similarités avec le

graphe deα=0,8 pour la variante CVA2, avec la pondération tf . . . 86

4.10 Impact de la fusion des similarités natives avec les similarités induites par la

comparabilité sur le taux d’erreur de ”leave one out” de la classification 1−

PPV sur Wikipedia_A . . . 87

4.11 Impact de la fusion des similarités natives avec les similarités induites par la comparabilité sur le taux d’erreur de ”10 cross-validation” de la classification

1− PPV sur Wikipedia_A . . . 88

4.12 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure AC avec les

pondérations tf-idf et tf sur Wikipedia_A . . . 89

4.13 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure NMI avec

les pondérations tf-idf et tf sur Wikipedia_A . . . 90

4.14 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure DB avec

les pondérations tf-idf et tf sur Wikipedia_A . . . 91

PPV avec la pondération tf sur Wikipedia_B . . . 92

1− PPV avec la pondération tf sur Wikipedia_B . . . 92

4.17 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure AC avec la

pondération tf sur Wikipedia_B . . . 93

la pondération tf sur Wikipedia_B . . . 93

4.19 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure DB avec la

pondération tf sur Wikipedia_B . . . 94

PPV avec la pondération tf sur Wikipedia_C . . . 94

(14)

4.22 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure AC avec la

pondération tf sur Wikipedia_C . . . 95

la pondération tf sur Wikipedia_C . . . 96

4.24 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering k-médoides en utilisant la mesure DB avec la

pondération tf sur Wikipedia_C . . . 96

4.25 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering hiérarchique ascendant en utilisant la mesure

ACavec la pondération tf sur Wikipedia_C . . . 97

4.26 Evaluation de la fusion des similarités natives avec les similarités induites par la comparabilité sur le clustering hiérarchique ascendant en utilisant la mesure

NMIavec la pondération tf sur Wikipedia_C. . . 97

5.1 Principe du Tri simultané basée sur le calcul de la matrice Fi j = nli+ ncj et

des vecteurs v et w . . . 105

5.2 Différentes étapes de notre approche pour la construction de corpus

compa-rables thématiques . . . 109

5.3 Détermination du nombre initial de clusters K0 pour

C

1 en exploitant les

si-milarités intra et inter clusters moyennes δintra et δinter dans le clustering

k-médoides, avec le Tri séquentiel en haut, et avec le Tri simultané en bas. . . . 111

5.4 Détermination du seuil de comparabilitéϕ en fonction du nombre de clusters

conservés, du nombre de documents conservés et du degré du graphe bipartite des clusters alignés, avec le Tri séquentiel en haut, et avec le Tri simultané en bas. . . 112

5.5 Alignement des deux clusters (médoides) ayant la comparabilité la plus élevée,

avec le Tri séquentiel en haut, et avec le Tri simultané en bas. . . 113

5.6 Nombre de clusters ajoutés et nombre de clusters communs en fonction des

itérations de k-médoides, avec le Tri séquentiel à gauche, et avec le Tri

simul-tané à droite. . . 114

5.7 Nombre de documents conservés avec différentes valeurs d’ajout en exploitant

Sv1, avec le Tri séquentiel à gauche, et avec le Tri simultané à droite. . . 114

5.8 Nombre de documents conservés avec différentes valeurs d’ajout en exploitant

Sv2, avec le Tri séquentiel à gauche, et avec le Tri simultané à droite. . . 115

5.9 Comparabilité moyenne de chaque paire de clusters sans enrichissement et avec

enrichissement contrôlé par le seuil d’ajoutτ sur Sv1, avec le Tri séquentiel à

(15)

5.10 Comparabilité moyenne de chaque paire de clusters sans enrichissement et avec

enrichissement contrôlé par le seuil d’ajoutτ sur Sv2, avec le Tri séquentiel à

gauche, et avec le Tri simultané à droite. . . 116

5.11 Détermination du nombre initial de clusters K0 en exploitant les similarités intra et inter clusters moyennesδintraetδinterdans le clustering k-médoides . . 117

5.12 Détermination du seuil de comparabilité ϕ en fonction du nombre de clusters conservés, du nombre de documents conservés et du degré du graphe bipartite des clusters alignés . . . 118

5.13 Alignement des deux clusters (médoides) ayant la comparabilité la plus élevée . 119 5.14 Nombre de clusters ajoutés et nombre de clusters communs par rapport à chaque itération de k-médoides . . . 120

5.15 Nombre de documents conservés avec différentes valeurs d’ajout sur Sv1 . . . . 120

5.16 Nombre de documents conservés avec différentes valeurs d’ajout sur Sv2 . . . . 121

5.17 Comparabilité moyenne de chaque paire de clusters sans enrichissement et avec enrichissement contrôlé par le seuil d’ajoutτ sur Sv1 . . . 121

5.18 Comparabilité moyenne de chaque paire de clusters sans enrichissement et avec enrichissement contrôlé par le seuil d’ajoutτ sur Sv2 . . . 122

6.1 Cercle vertueux d’amélioration itérative par raffinement du dictionnaire bilingue131 B.1 Alignement des deux médoides : ”Syrie-Irak” . . . 153

B.2 Alignement des deux médoides : ”Iran” . . . 154

B.3 Alignement des deux médoides : ”Armes chimiques en Syrie” . . . 155

B.4 Alignement des deux médoides : ”Querre civile en Syrie” . . . 156

B.5 Alignement des deux médoides : ”Président chinois” . . . 157

B.6 Alignement des deux médoides : ”Israel et Turquie” . . . 158

B.7 Alignement des deux médoides : ”Afghanistan” . . . 159

B.8 Alignement des deux médoides : ”Chypre”. . . 160

B.9 Alignement des deux médoides : ”Election Syrie” . . . 161

B.10 Alignement des deux médoides : ”Liban” . . . 162

C.1 Alignement des deux médoides : ”Syrie et Liban” . . . 164

C.2 Alignement des deux médoides : ”Syrie et Irak” . . . 165

C.3 Alignement des deux médoides : ”Querre civile en Syrie” . . . 166

C.4 Alignement des deux médoides : ”Iran” . . . 167

C.5 Alignement des deux médoides : ”Armes chimiques en Syrie” . . . 168

C.6 Alignement des deux médoides : ”Président chinois” . . . 169

C.7 Alignement des deux médoides : ”Israel et Turquie” . . . 170

C.8 Alignement des deux médoides : ”Israel et Syrie” . . . 171

C.9 Alignement des deux médoides : ”Afghanistan” . . . 172

(16)

D.1 Alignement des deux médoides : ”Animal” . . . 177

D.2 Alignement des deux médoides : ”Argents” . . . 178

D.3 Alignement des deux médoides : ”Tennis” . . . 179

D.4 Alignement des deux médoides : ”Films” . . . 180

D.5 Alignement des deux médoides : ”Président français” . . . 181

D.6 Alignement des deux médoides : ”Vin”. . . 182

D.7 Alignement des deux médoides : ”Pilules” . . . 183

D.8 Alignement des deux médoides : ”Milliadaire américain” . . . 184

D.9 Alignement des deux médoides : ”Paris” . . . 185

(17)

Liste des tableaux

4.1 Liste des flux RSS collectés pour la constitution du corpus RSS7. Tous ces flux

sont issus des files d’agence de presse internationale diffusées par les grands

quotidiens ou chaînes de télévision en anglais (EN) et en français (FR). . . 75

4.2 Liste des classes avec leur taille en nombre de documents pour le corpus de test

RSS7. . . 75

4.3 Liste des classes avec leur taille (en nombre de documents) pour les trois

(18)

(19)

Première partie

(20)

(21)

1

Introduction

Sommaire

1.1 Contexte du projet METRICC . . . 3

1.2 Motivations . . . 4

1.2.1 Corpus comparables et corpus parallèles. . . 4

1.2.2 Motivation pour la constitution de corpus comparables . . . 5

1.2.3 Corpus comparables thématiques versus corpus comparables généraux 5 1.3 Principales contributions de cette thèse . . . 7

1.4 Plan de thèse . . . 8

1.1 Contexte du projet METRICC

Cette thèse est issue du projet ANR METRICC (MEmoire de Traduction, Recherche d’In-formation et Corpus Comparables). Le projet METRICC aborde la problématique des corpus comparables d’une façon complète et originale. Plusieurs défis fondamentaux pour le domaine sont abordés. Ceux-ci s’expriment sous la forme des questions suivantes :

1. Comment construire des corpus comparables de la manière la plus efficace possible ? Comment évaluer la comparabilité et donc l’adéquation aux besoins du corpus ? Quels sont les indices permettant de valider un corpus avant d’effectuer les extractions de ressources ? Comment utiliser une telle mesure de comparabilité au moment même de la constitution du corpus (crawling) pour éviter les trop grandes dérives ?

2. Lorsque l’on dispose d’un corpus comparable adéquat, comment extraire les ressources bilingues nécessaires de la manière la plus efficace possible ?

3. Comment aider le traducteur travaillant sur un document donné ayant une thématique précise pour laquelle il est difficile de trouver un lexique bilingue pour la paire de langues voulue ?

4. Comment exploiter les corpus comparables pour enrichir les possibilités d’un système de recherche d’informations inter-langues ?

(22)

Pour répondre en partie à ces questions, plusieurs partenaires (laboratoires et entreprises) se sont associés dans le cadre de METRICC : le Laboratoire d’Informatique de Grenoble (LIG), le Laboratoire Informatique de Nantes-Atlantique (LINA), l’Institut de Recherche en Informa-tique et Systèmes Aléatoires (IRISA), les entreprises Lingua et Machina, Sinequa et Syllabs. L’objectif de cette thèse concerne plutôt le premier défi, celui de la construction des corpus comparables thématiques à partir de l’exploitation du WEB.

1.2 Motivations

Cette thèse a pour ambition de proposer des outils dédiés à la construction assistée de cor-pus comparables de ”bonne qualité”. Nous devons préciser en premier lieu ce que l’on entend par corpus comparables, leurs intérêts et retombées attendues, et les enjeux d’une assistance outillée à la construction de telles ressources qui en découlent.

1.2.1 Corpus comparables et corpus parallèles

La définition des corpus parallèles est précise et non ambiguë. Nous reprenons la définition proposée par [14] : ”a parallel corpus contains texts and their translations into one or more languages” (il s’agit donc d’un ensemble de textes accompagné de leurs traductions dans une ou plusieurs langues). Les corpus parallèles sont importants dans le domaine de la traduction automatique ou assistée, de l’extraction des terminologies ou des dictionnaires bilingues, de la recherche d’informations multilingues, etc. Cependant, ils sont coûteux à développer et souvent difficiles à transposer d’un domaine de spécialité à l’autre.

Pour répondre (en partie) à ces inconvénients, la notion de corpus comparables a été pro-posée initialement dans les années 90 par [7], puis précisée ou adaptée au cours des années comme dans [39], [96]. Ces définitions se résument ainsi : un corpus comparable devrait cou-vrir un même thème ou un thème similaire ou partager certaines caractéristiques importantes (telles que le style, la période, etc.). Malheureusement, ces définitions sont trop vagues pour être exploitées en pratique. La définition la plus opérationnelle que nous avons identifiée est celle proposée par [30] : Deux corpus de deux langues

L

1et

L

2sont dits comparables s’il existe une sous-partie non négligeable du vocabulaire du corpus de langue

L

₁, respectivement

L

₂, dont la traduction se trouve dans le corpus de langue

L

2, respectivement

L

1. A partir de cette définition, [77] a conçu une mesure de comparabilité que l’on pourrait qualifier de compara-bilité ”traductionnelle” quantitative, qui est relativement bien adaptée à une tâche d’aide à la traduction.

Les corpus comparables, au même titre que les corpus parallèles, peuvent servir dans plu-sieurs domaines d’application : extraction des terminologies ou des lexiques bilingues, fouille de données textuelles bilingues, traduction automatique ou assistée, assistant pédagogique pour l’apprentissage des langues, etc. Par rapport aux corpus parallèles, les corpus comparables ont trois avantages : premièrement, ils constituent des ressources riches et larges : en volume et en

(23)

période couverte ; deuxièmement, il n’y a plus de contrainte sur la traduction limitée au texte original : les corpus comparables fournissent des ressources linguistiques originales et théma-tiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles. La contre-partie est que l’exploitation des corpus comparables est plus difficile comparativement aux corpus parallèles car les données qu’ils regroupent sont beaucoup plus hétérogènes et ”bruitées”. Ce sont ces raisons qui rendent la construction des corpus comparables de ”bonne qualité” très attractive.

1.2.2 Motivation pour la constitution de corpus comparables

De nombreux travaux ont été réalisés pour construire des corpus comparables comme dans [137], [95], [135], [102], [149]. Nous allons les détailler dans notre chapitre état de l’art. Selon ces recherches, nous pouvons considérer que la constitution des corpus comparables passe par deux étapes principales : d’abord, la création d’un corpus initial de documents (le corpus de la langue source et de la langue cible) ; ensuite, l’utilisation de certaines techniques pour établir l’alignement des documents similaires entre la langue source et la langue cible afin de produire les corpus comparables définitifs. Cependant, une difficulté subsiste : com-ment faire un compromis entre deux facteurs importants : la qualité et la taille des corpus ? La croissance rapide des sources d’informations sur Internet fournit une belle occasion pour la construction des corpus comparables, en particulier via l’exploitation des publications quoti-diennes issues des agences de presse en différentes langues, ou des ressources multilingues de qualité telles que Wikipédia.

En résumé, nos principales motivations reposent sur trois constats et questions associées : — Les corpus comparables thématiques offrent de grands avantages par rapport aux corpus

parallèles dès lors que leur qualité et leur taille sont suffisantes. Jusqu’où peut-on aller en matière d’assistance automatisée pour leur construction ?

— Il n’existe pas de cadre partagé et définitif d’évaluation de la notion de comparabilité partagée. La proposition de Li et Gaussier, indépendante du cadre applicatif constitue-t-elle une opportunité pour hiérarchiser ces mesures de comparabilité ?

— Il faut également pouvoir contrôler lors de leur construction, à la fois la volumétrie et la qualité des corpus comparables. Peut-on optimiser à la fois la qualité d’alignement des documents (ou clusters) et également la volumétrie dans la construction des corpus comparables thématiques ?

1.2.3 Corpus comparables thématiques versus corpus comparables généraux Tout d’abord, nous avons besoin d’introduire les définitions suivantes :

— Un thème est un sous ensemble de documents caractéristique d’un vocabulaire par-tagé. Il se rapport à une idée, un sujet développé dans un discours, un écrit, un ouvrage

(24)

(défintion du Centre National de Ressources Textuelles et Lexicales (CNRS)). En fonc-tion des traitements différents selon l’auditoire, il y a des genres différents. Alors, un genre est un format de production qui possède des caractéristiques de formatage et de choix lexicogrammatique typés [133], par exemple un article de recherche, un article de vulgarisation, un article de presse. Un domaine regroupe donc l’ensemble de termes spécialisés.

— Un événement est une série d’actions qui se passe à un moment donné, par exemple : une invasion en temps de guerre, les vendanges, etc. Il peut être assimilé à un thème ou un sous-thème.

— Un corpus comparable thématique : c’est un ensemble de documents multilingues qui traitent d’un même thème. En particulier, les termes (discriminants) caractérisant le domaine sont en général fréquents dans le corpus et peu ambigus.

— La notion de comparabilité thématique pour rendre cette notion opérationnelle s’ex-prime ainsi : deux corpus en langues

L

₁ et

L

₂ sont dits thématiquement comparables si :

- d’une part il existe une sous-partie non négligeable du vocabulaire du corpus de langue

L

₁, respectivement

L

₂ , dont la traduction se trouve dans le corpus de langue

L

₂ , respectivement

L

1

- d’autre part les termes des sous-parties des vocabulaires concernés doivent être tels que le ratio entre leur fréquence d’occurrence et leur nombre de traduction soit le plus grand possible (les termes fréquents et faiblement ambigus)

Dans ce contexte, la qualité (d’alignement des documents comparables) est-elle plus im-portante que la taille de corpus comparables ?

Il existe certains travaux qui démontrent que si la taille des corpus comparables est suffi-sante, la qualité a moins d’importance. Par exemple, [93] montre, dans le cadre de l’extraction de lexiques bilingues à partir de corpus comparables spécialisés, que si la qualité était pré-pondérante à la taille du corpus pour l’alignement de termes complexes cela n’était pas le cas pour l’alignement des termes simples. Cependant, le débat reste ouvert : en premier lieu, comment justifier que la qualité des corpus scientifiques est meilleure que les corpus mixtes (scientifiques + grand public) ? En second lieu, est-ce qu’une centaine de mots et quelques centaines de documents sont suffisants pour établir cette conclusion car la différence de résul-tats en matière d’extraction des terminologies entre les deux types de corpus reste petite ? Par ailleurs, dans [106], l’auteur montre que : ”un corpus comparable correctement constitué est au

moinsaussi efficace qu’un corpus comparable moins bien constitué mais plus volumineux” ;

et que : ”les fréquences de cooccurrences des termes sont instables, même dans le cas de cor-pus fortement comparables, mais que ce phénomène est aggravé dans le cas de corcor-pus moins comparables”. Nous observons donc ici qu’une ”bonne” qualité améliore potentiellement la performance de l’extraction terminologique.

Par contre, il existe plusieurs travaux comme [134], [87], [78], qui ont tendance à montrer que la qualité d’alignement des corpus comparables est plus importante que leur volume.

(25)

No-tamment, dans [107], les auteurs montrent que la qualité des corpus comparables (deux corpus comparables construits par leurs soins : un corpus construit à partir d’un alignement basé sur la similarité des concepts présents dans les documents et la date de publication, un autre cor-pus construit à partir d’un alignement basé sur les similarités de thème et des concepts avec des dates de publication différentes pour traiter des événements de longue durée) amélioré si-gnificativement les performances de l’extraction des traductions des mots et de la recherche d’information multiligue à partir des requêtes traduites.

Tout cela justifie notre motivation pour la construction de corpus comparables thématiques ayant une forte cohérence thématique tout en maintenant la qualité d’alignement et également en prenant en compte l’effet de la volumétrie de corpus.

1.3 Principales contributions de cette thèse

La plus grande contribution de cette thèse est le développement d’une nouvelle approche pour la constitution des corpus comparables thématiques de ”bonne qualité” pouvant être faci-lement adaptable aux exigences en fournissant des corpus de niveaux variables de comparabi-lité. Nous explicitons cette approche en présentant 3 parties contributives :

1. La première porte sur le développement des mesures de comparabilité et leur évaluation 2. La deuxième porte sur les problématiques de clustering et de classification multilingue,

et l’alignement des clusters comparables

3. La troisième développe une approche pour la constitution assistée de corpus compa-rables thématiques à partir de ressources hétérogènes.

Dans la première partie contributive, l’objectif est de fournir des mesures de comparabilité quantitatives pour mesurer la comparabilité entre deux documents ou même entre deux corpus de langues différentes.

Dans la deuxième partie contributive, le but est de fournir une approche efficace pour ali-gner deux espaces linguistiques différents, par exemple, un espace anglais et un espace français, par une approche de clustering ou de catégorisation qui fusionne des similarités natives dans chacun des espaces linguistiques avec des similarités induites par la mesure de comparabilité utilisée (nous appelons cette approche de clustering ”SCF-clustering” et cette approche de clas-sification ”SCF-clasclas-sification”). Nous montrons expérimentalement que cette fusion exploitant les mesures de comparabilité que nous avons développées dans la première partie améliorent la qualité du clustering ou de la catégorisation ainsi que l’alignement des clusters.

Enfin, dans la troisième partie contributive, nous généralisons ces résultats en proposant une approche semi-supervisée qui intègre les deux contributions précédentes, pour construire finalement des corpus comparables thématiques sur mesure et de qualité contrôlable.

(26)

1.4 Plan de thèse

Outre le chapitre d’introduction, cette thèse est constituée de cinq chapitres, comprenant un chapitre d’état de l’art, trois chapitres de contributions et un chapitre de conclusions et perspectives plus une annexe. L’organisation est la suivante :

Dans le Chapitre 2, nous présentons un état de l’art décomposé en quatre sections : les corpus parallèles et les corpus comparables, les différentes approches pour la constitution des corpus comparables, les mesures de comparabilité, et les différentes types de clustering et de classification. Nous commentons les avantages et les inconvénients des corpus parallèles et l’intérêt des corpus comparables, nous analysons les différentes approches pour la constitu-tion des corpus comparables, nous étudions les différentes mesures de comparabilité et nous présentons les différents types de clustering et de classification et la raison pour laquelle nous avons choisi telle méthode plutôt qu’une autre.

Le Chapitre 3 est consacré aux mesures de comparabilité développées à partir de la mesure de comparabilité de référence [77]. Nous présentons d’abord la mesure de comparabilité de référence et proposons ensuite deux variantes. Les corpus de test, les dictionnaires bilingues utilisés et le prototype d’évaluation sont décrits. Les différentes étapes pour évaluer ces mesures de comparabilité sont également détaillées. Et enfin, nous commentons les avantages et les inconvénients des variantes par rapport à la mesure de comparabilité de référence.

Dans le Chapitre 4, nous développons une nouvelle approche de clustering, de classifica-tion et d’alignement des clusters comparables. Cette nouvelle méthode combine les similarités natives avec la mesure de comparabilité pour concevoir une nouvelle mesure de similarité à caractère multilingue. Nous illustrons ensuite les différentes expérimentations effectuées sur deux types de corpus collectés sur le WEB : les Flux RSS (un corpus de test) de presses géné-ralistes et Wikipédia (trois corpus de test). Pour chaque expérience, nous détaillons les résultats obtenus sur une classification de type k plus proches voisins (k-PPV) et deux types de cluste-ring : K-médoides et HAC (Clustecluste-ring hiérarchique ascendant), avec les pondérations tf et tf-idf. Enfin, nous analysons les résultats obtenus dans ces expérimentations.

Le Chapitre 5 est dédié à l’intégration des deux contributions précédentes : les mesures de comparabilité et le modèle de mélange des similarités natives et les similarités induites par la comparabilité, pour développer une assistance à la constitution des corpus comparables de qua-lité. Nous détaillons en premier lieu les différentes étapes de cette approche. Nous présentons ensuite les corpus et le dictionnaire bilingue utilisés pour effectuer une fouille de textes compa-rables. Nous illustrons nos expérimentations en testant certains paramètres importants comme le nombre de clusters, le seuil de comparabilité ou de similarité. Enfin, nous commentons nos résultats en explicitant les clusters alignés obtenus.

Dans le Chapitre 6, nous concluons cette thèse en listant les résultats principaux obtenus par rapport à la problématique posée et nous discutons les différentes voies possibles pour améliorer l’approche proposée et ses possibilités d’extension. ï»¿

(27)

Deuxième partie

(28)

(29)

2

Etat de l’art

2.1 Introduction

Nous recensons dans ce chapitre les connaissances récentes sur les corpus notamment les corpus multilingues (bilingues), et tout particulièrement les corpus parallèles et les corpus com-parables en section2.2.

Dans la mesure où nous envisageons construire des corpus comparables à partir de cluste-ring de données bilingues ”brutes”, i.e. collectées à partir de sources hétérogènes non dédiées, nous présentons dans la section2.3, les différents types de classification et de clustering ex-ploitables pour effectuer la classification et le clustering de documents bilingues, ainsi que les différentes techniques utilisées pour ajuster le nombre de clusters (K).

Enfin, la section2.4conclut ce chapitre.

2.2 Corpus : corpus parallèles et corpus comparables

La définition du terme ”corpus” évolue beaucoup au fil du temps. Nous recensons dans les années 60 les définitions suivantes. Dans le Trésor de la Langue Française Informatisé (TLFI) [1], la définition proposée est : ”Recueil réunissant ou se proposant de réunir, en vue de leur étude scientifique, la totalité des documents disponibles d’un genre donné, par exemple épigraphiques, littéraires, etc.” Dans le Larousse, la définition est un peu plus précise : ”Re-cueil de documents relatifs à une discipline, réunis en vue de leur conservation. Ensemble fini d’énoncés écrits ou enregistrés, constitué en vue de leur analyse linguistique”. Cependant, ces deux notions restent difficilement exploitables dans une optique traitement automatique des langues naturelles (TALN) ou fouille de textes car très générales et imprécises.

Pour cette raison, [125] a proposé deux définitions plus directement exploitables : l’une est adaptée à la notion de corpus au sens large et l’autre à la notion de corpus pour les traitements informatiques. Pour un corpus général : il s’agit d’un ensemble de morceaux de langue qui sont sélectionnés et classés selon des critères linguistiques explicites, afin d’être utilisés comme un échantillon de la langue. Pour un corpus en informatique : c’est un corpus qui est codé de manière standardisée et homogène pour la tâche ouverte de recherche d’information.

(30)

Pour rendre plus représentative la notion d’échantillon de la langue, [51] a proposé une autre définition : ”un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extralinguistiques explicites pour servir d’échan-tillon d’emplois déterminés d’une langue”.

[34] a organisé ces différentes définitions de corpus selon trois facteurs : 1. La nature : le corpus est composé de données langagières.

2. La structure : les données du corpus sont sélectionnées, mises en forme et enrichies. Leur sélection se fait selon des critères de choix, de façon à ce que le corpus soit représentatif des objectifs visés. Les critères appliqués sont d’ordres linguistiques ou extralinguistiques. Le corpus ainsi constitué est ensuite mis en forme (normalisation) et enrichi (documentation, méta données, etc.).

3. La finalité : le corpus est représentatif d’un langage, d’un sous-langage ou de certains phénomènes linguistiques étudiés.

Enfin, dans [4], une définition encore plus générale a été proposée : ”un corpus est un ensemble de ressources linguistiques originales d’une certaine taille et d’une certaine structure, collecté et traité pour une ou plusieurs applications informatisées”.

Selon [4] et [14], il existe plusieurs types de corpus qui se déclinent selon les critères suivants : 1. Evolutions temporelles : corpus diachroniques et corpus synchroniques.

2. Niveaux de traitement : corpus annotés et corpus non-annotés.

3. Structures : corpus de structure équilibrée et corpus de structure aléatoire. 4. Usage : corpus généraux et corpus spécialisés.

5. Façons d’expression : corpus parlants et corpus de textes.

6. Nombre de langues : corpus monolingues et corpus multilingues (bilingues).

Depuis les années 90, la linguistique de corpus s’est bien développée, surtout dans l’aspect multilingues des corpus en raison de l’internationalisation. Le besoin d’échanges multilingues et les traitements automatiques associés deviennent de plus en plus importants. Les corpus multilingues sont des corpus qui contiennent au moins deux langues différentes et s’ils ne com-portent que deux langues différentes, ils sont appelés corpus bilingues. Il y a en principe deux types de corpus multilingues : les corpus parallèles et les corpus comparables. Nous présentons succinctement ces deux corpus dans les sous-sections suivantes.

2.2.1 Corpus parallèles

[86] considère que les corpus parallèles sont des corpus qui contiennent des textes origi-naux et des textes de traduction dans au moins deux langues différentes. Dans [14], on trouve également une définition similaire d’un corpus parallèle : ”c’est un ensemble de textes accom-pagnés de leurs traductions dans une ou plusieurs langues”. Il s’agit donc d’un ensemble de

(31)

paires de textes tels que, deux à deux, dans chaque paire, ces textes sont des traductions l’un de l’autre. Ces corpus sont produits surtout par les grands organismes comme les Nations Unies, l’Union Européenne et autres organismes internationaux.

Les principaux corpus parallèles exploités à des fins expérimentales sont :

1. Le corpus Europarl [67] : ce corpus rassemble des textes du Parlement Européen dans 11 langues : il contient plus de 20 millions de mots par langue. Ce corpus constitue une référence importante pour le TALN. Dans nos expérimentations, nous l’avons égale-ment utilisé pour évaluer la qualité des mesures de comparabilité.

2. Le corpus Hansard [56] : ce corpus est issu des transcriptions des débats du parlement canadien de 1970 à 1988. Il contient plusieurs dizaines de millions de mots, et il est composé de textes anglais et de textes français.

3. Le corpus Hong-Kong Hansard : ce corpus a été créé par le Linguistic Data Consortium. Il rassemble des textes en anglais et en français issus des discussions et rapports du parlement de Hong Kong.

4. Le corpus de l’UBS (Union des banques suisses) [40] : ce corpus regroupe des rap-ports sur le développement de l’économie suisse dans quatre langues (anglais, français, allemand, italien).

5. Le corpus InterCorp [21] : ce corpus est riche, puisqu’il contient 31 langues et au moins quelques millions de mots pour les langues principales.

6. Le corpus ITU CRATER : ce corpus est constitué des rapports de l’Union internatio-nale des télécommunications, contenant environ un million de mots pour trois langues (anglais, français et espagnol).

7. Le corpus TradooIT : ce corpus contient quelques centaines de millions de mots pour les trois langues : anglais, français et espagnol.

8. Le corpus JRC-Acquis [131] : ce corpus est issu de l’ensemble des lois applicables dans l’Union Européenne. Il couvre 22 langues et contient quelques dizaines de millions de mots par langue.

Les corpus parallèles ont une grande importance dans le domaine de la traduction automatique ou assistée, [98], [157], [17], [82], [68], [101], de l’extraction des terminologies [41], [12], [81], [74] ou de la construction des dictionnaires bilingues [64], et de la recherche d’informa-tion multilingue (CLIR) [9], etc. Malheureusement, ils sont coûteux à développer et souvent difficilement transposables d’un domaine de spécialité à l’autre [83]. A cause de ces limites, des recherches [80], [109], [155] ont tenté d’utiliser les URL, la structure des pages web et leur contenu pour extraire automatiquement des textes parallèles. Cependant, ces approches ne résolvent que partiellement les besoins : les contraintes liées aux domaines et aux langues d’intérêt subsistent. Ce sont les raisons pour lesquelles de nombreux travaux de recherche se sont tournés vers la constitution des corpus comparables, principale motivation de cette thèse.

(32)

2.2.2 Définitions des corpus comparables

La notion de corpus comparable a été initialement proposée par [7]. Les auteurs indiquent que ce sont des textes sans contrainte de traduction entre eux, mais ”certainement” similaires.

En 1996, [125] du EAGLES (Expert Advisory Group on Language Engineering Standards

Guidelines) a proposé une autre définition pour les corpus comparables : ce sont des textes de différents types dans une seule langue ou des textes similaires dans au moins deux langues différentes. [86] considère également que les corpus comparables comportent la caractéristique bilingue et multilingue mais sans contrainte de traduction. Les textes de langues différentes sont donc indépendants et originaux dans les corpus comparables. D’autre part, [39], [96] ont pro-posé une autre définition : un corpus comparable est un corpus qui couvre un thème similaire et transmet des informations qui se chevauchent. [138] a également proposé une définition : les corpus comparables sont des corpus en deux ou plusieurs langues ayant une composition ou une structure similaire (ou quasi-similaire). [14] a complété plus tard cette définition : les corpus comparables sont composés de documents en plusieurs langues, sans lien de traduction entre eux, mais qui partagent certaines caractéristiques.

Pour conclure sur une définition des corpus comparables ci-dessus : nous considèrerons que ce sont des textes traitant d’un même sujet qui sont écrits dans plusieurs langues différentes, certainement similaires mais sans traduction mutuelle. Par exemple, un journal anglais et un journal français qui publient une nouvelle internationale sur un même événement (l’une en an-glais et l’autre en français), mais dont les deux auteurs sont différents (absence de traduction de l’une vers l’autre), produisent une paire de documents comparables.

Toutes ces définitions restent malgré tout assez générales. La définition la plus ”opérationnelle” est proposée par [30]. C’est une définition quantitative de la notion de comparabilité selon la-quelle : ”Deux corpus de deux langues

L

₁et

L

₂sont dits comparables s’il existe une sous-partie non négligeable du vocabulaire du corpus de langue

L

1, respectivement

L

2, dont la traduction se trouve dans le corpus de langue

L

₂, respectivement

L

₁”. Par ailleurs, [30] classe les corpus comparables en exploitant des critères qualitatifs qui contiennent le genre, l’auteur, la période, le média, etc. et des critères quantitatifs qui sont basés sur les mesures de fréquences de certains traits linguistiques. Le degré de comparabilité varie en fonction des différents critères choisis.

Par rapport aux corpus parallèles, les corpus comparables ont en principal trois avantages selon [142] : premièrement, ce sont des ressources riches et larges : en volume et en période temporelle couverte ; deuxièmement, il n’existe plus de contrainte sur la traduction limitée au texte original car les corpus comparables fournissent des ressources linguistiques originales et thématiques. Enfin, ils sont moins coûteux à développer que les corpus parallèles.

2.2.3 Applications des corpus comparables

Les corpus comparables peuvent être exploités dans plusieurs domaines [158] : l’extraction des lexiques bilingues [38], [37], [30], [94], [55], [79], [136] ou l’extraction des terminologies [39], [42], [143], [93], [72], [152], la fouille de données multilingues, la traduction automatique

(33)

ou assistée, l’apprentissage des langues [141], etc.

1. Extraction des lexiques bilingues ou des terminologies

Les auteurs Fung et McKeown dans [38] ont proposé une méthode basée sur l’analyse du contexte lexical et une dépendance lexicale basée sur une observation simple : un mot et sa traduction ont tendance à se présenter dans un même contexte lexical. Cette méthode devient la méthode standard dans le domaine de l’extraction des lexiques bi-lingues. Dans [37], les auteurs ont proposé une méthode ”DKvec” pour extraire des lexiques bilingues anglais/japonais et anglais/chinois issues de corpus parallèles brui-tés (lorsque certaines phrases d’un texte ne sont pas traduites dans un autre texte où les frontières de phrases ne sont pas claires.) et de corpus comparables. Les précisions obtenues sont apparemment bonnes. Plus récemment, dans [30], les auteurs ont pro-posé une extension de la méthode standard afin de diminuer la dépendance de la cou-verture du dictionnaire bilingue. Cette extension est basée sur l’intuition que les mots partageant le même sens partageront les mêmes contextes. Dans [94], les auteurs ont vérifié que la représentativité (la qualité) des corpus comparables est plus importante que leur volumétrie en testant sur une tâche d’extraction des termes bilingues français/-japonais. Dans [55], les auteurs ont proposé une méthode basée sur la notion de termes du domaine : ce sont les termes les plus contextuellement pertinents et importants du domaine traité. Cette méthode, permettant de détecter et traiter les termes de contexte du domaine au lieu des termes de contexte général, ne nécessite pas de dictionnaire bilingue de grande taille. Les auteurs ont proposé dans [79] une méthode basée sur le clustering, avec une nouvelle approche intégrant la comparabilité. Celle-ci exploite une notion d’homogénéité du corpus, la plupart du vocabulaire du corpus original étant préservée. Dans [136], les auteurs ont proposé une approche sur le graphe de la simila-rité de relation de co-occurrence (directe ou indirecte) des termes sous une hypothèse : un mot et sa traduction ont tendance à avoir une relation de co-occurrence similaire (directe ou indirecte) avec tous les grains inter-lingues (un grain est une paire de tra-duction). Une relation directe est qu’un terme a une relation de co-occurrence avec un autre terme et une relation indirecte est qu’un terme n’a pas de cette relation directe avec un autre terme dans le graphe mais ils peuvent être inter-connectés via un terme intermédiaire. Cette approche permet de capturer les relations directes et indirectes de co-occurrence pour tous les grains afin de construire un graphe de similarité de relation de co-occurrence. Après la construction de ce graphe (un nœud est un terme et un arc est un lien de similarité), une technique de propagation d’étiquettes (les noms des termes et les similarités dans leur contexte) basée sur graphe [161] est appliquée pour trans-mettre les étiquettes d’un nœud étiqueté vers un nœud non étiqueté afin d’obtenir la distribution des étiquettes de chaque nœud. A partir de ces distributions, les grains sont finalement extraits. Les approches pour l’extraction des terminologies sont semblables à celles développées pour l’extraction des lexiques bilingues. La plupart des chercheurs

(34)

ont utilisé les corpus comparables pour acquérir de nouveaux mots et des paires de tra-duction candidates, propres à la terminologie du domaine spécialisé traité. Leur idée est également basée sur l’hypothèse qu’un terme dans une langue et le terme lui correspon-dant dans une autre langue ont un contexte similaire. Dans [143], les auteurs ont utilisé les similarités de contextes de document pour obtenir des paires de documents alignés, et pour chaque paire de documents alignés, les similarités de translittérations (basée sur les séquences de caractères, les couplages de sous-chaînes de caractères, la monotonie de l’alignement, etc.) sont calculées pour effectuer l’extraction des entités nommées. Par ailleurs, dans [39], [42], [93], les auteurs ont utilisé les informations de contexte pour effectuer l’extraction. Dans [72], les auteurs ont utilisé une mesure hybride non-supervisée qui combine des traits statistiques, lexicaux, linguistiques, contextuels et temporels en exploitant l’algorithme EM (espérance-maximisation) [31] (permettant de trouver le maximum de vraisemblance) pour extraire des terminologies bilingues. Dans [152], l’auteur a utilisé les corpus comparables pour extraire la collocation de deux thèmes ”culture” et ”cultiver” en anglais, français et italien.

2. Fouille de données multilingues

Afin d’essayer de résoudre les problèmes liés à la volumétrie ou aux contraintes tem-porelles associés aux corpus parallèles, [11], [153], [95], [97] ont extrait des textes parallèles dans des corpus comparables en se basant sur l’alignement des phrases et des paragraphes.

3. Traduction automatique ou assistée

[96] a utilisé des phrases parallèles extraites de corpus comparables de journaux pour améliorer la performance d’un système de traduction automatique et obtenu des perfor-mances satisfaisantes. Par contre, [121] a directement utilisé des corpus comparables afin de trouver des traductions équivalentes pour des expressions.

Cependant, la plupart de ces recherches soit est limitée par le volume des corpus compa-rables disponibles, soit ne détaille pas le processus de constitution de corpus compacompa-rables, soit la qualité d’alignement n’est pas toujours bonne. [134], [87], [78] ont vérifié que la qualité d’alignement des corpus comparables est plus importante que leur volume. Dans la section suivante, nous présentons les approches principales développées pour la constitution de corpus comparables.

2.2.4 Constitution des corpus comparables

La croissance rapide des sources d’informations sur Internet fournit une réelle opportunité pour la construction des corpus comparables. En particulier les pages de nouvelles issues des agences de presse disponibles en différentes langues, ou encore Wikipédia sont des ressources multilingues volumineuses, riches, exploitables, accessibles et en général libres de droit.

Avec l’augmentation des besoins en matière de corpus comparables, la qualité de ces der-niers est devenue critique. Le point central de la construction des corpus comparables est

(35)

l’ali-gnement des documents ou clusters de documents entre langue source et langue cible. Plus les documents alignés sont similaires ou comparables, meilleur est l’alignement, et plus le corpus comparable produit est exploitable.

Beaucoup de recherches ont été menées pour construire des corpus comparables. Au début, des approches assez rudimentaires ont été exploitées. Par exemple, [123] a simplement utilisé la date de publication et la similarité de thésaurus (en considérant les documents comme la caractéristique d’indexation et les termes comme les éléments de recherche) pour construire la relation d’alignement entre des textes italiens et des textes allemands. Sur cette base, [15] a intégré un indicateur dans la construction des corpus comparables anglais (publiés par AP : Associated Press) et allemand (publiés par l’agence SDA suisse). Cet indicateur est créé par le mot qui a la fréquence moyenne dans tous les textes anglais parmi tous les mots. Cet indicateur est ensuite traduit par le dictionnaire bilingue anglais-allemand et utilisé comme une requête dans le corpus allemand. Les similarités obtenues et les dates sont utilisées pour organiser les corpus comparables. Par ailleurs, cette approche a permis de construire des corpus comparables français-allemand issus de l’agence SDA en utilisant les types des nouvelles, les terminologies, les valeurs numériques, etc. Par ailleurs, [108] a proposé une approche pour fouiller les corpus comparables en exploitant l’hypothèse suivante : si le contenu de pages Web existantes en différentes langues sont comparables, celles-ci possèdent une structure similaire, comme les titres, les paragraphes, etc. Nous pouvons constater qu’initialement la construction des corpus comparables est relativement empirique et hétérogène. Les approches proposées ne tiennent pas beaucoup compte de la qualité de l’alignement des textes obtenus en sortie.

Récemment, [137] a proposé une approche basée sur la corrélation des fréquences de mots d’un même thème exprimé en différentes langues dans des corpus comparables sous une hypo-thèse que les distributions de fréquences des mots thématiques en différentes langues sont sou-vent corrélées. Cette approche dépend uniquement des corpus comparables. [95] est le premier à utiliser un dictionnaire bilingue pour transformer les textes sources en textes en langue cible pour obtenir les 5 premières traductions (top-5) comme requête pour chercher dans les textes de la langue cible sur même période. En fonction des similarités obtenues, les K premiers do-cuments de la langue cible (top-K) sont choisis en regroupant les paires de textes comparables de 1 à K. De même, [135] a utilisé la recherche d’information multilingue pour construire des corpus comparables anglais-suédois. Néanmoins, pour éviter la traduction du texte entier, seules les informations importantes sont extraites et traduites, puis recherchées dans le système de recherche d’information. Afin d’améliorer la qualité de l’alignement, les résultats de la re-cherche sont filtrés. [102] a fouillé des corpus comparables issus de Wikipédia en définissant un thème et les langues (la langue source et la langue cible) pour collecter les documents simi-laires à ce thème. Par ailleurs, [149] a proposé une approche d’alignement de documents basée sur les caractéristiques ( TNC (titre et contenu), LIU (unité indépendante linguistique) et MTD (Distribution des termes monolingues) ) et obtenu des résultats satisfaisants.

En résumé, on recense principalement trois types d’approches pour la constitution des cor-pus comparables :

(36)

1) L’approche basée sur la distribution de fréquences des mots

2) L’approche basée sur les caractéristiques (TNC (titre et contenu), LIU (unité indépendante linguistique) et MTD (distribution des termes monolingues))

3) L’approche basée sur la recherche d’information multilingue (”Cross-language information retrieval (CLIR)”).

Nous allons entrer un peu plus dans le détail de ces approches dans la sous-section suivante.

2.2.4.1 Approche basée sur la distribution des fréquences des mots

[137] a proposé une approche qui ne dépend pas des ressources externes (comme les dic-tionnaires bilingues) pour fouiller des textes bilingues comparables. Cette approche est basée sur l’état de la distribution de la fréquence des termes sur une certaine période pour obtenir la relation entre les mots de langue source et les mots de langue cible sous l’hypothèse que les fréquences d’une paire constituée d’un mot et de sa traduction sont corrélées dans les textes comparables. Plus les fréquences des termes sont similaires, plus il est probable qu’ils décrivent le même sujet. Les similarités sont estimées via le coefficient de Pearson, comme indiqué dans l’équation suivante :

r(x, y) = ∑

n

i=1xiyi−_N1∑ni=1xi∑ni=1yi q (∑n i=1x2i −1n(∑ n i=1xi)2)(∑ni=1y2i −1n(∑ n i=1yi)2) (2.1) Où : xi = _∑nc(x,si) j=1c(x,sj), yi= c(y,ti)

∑nj=1c(y,tj) , x est un mot de la langue source, y est un mot de la

langue cible, n est le nombre de dates dans une période temporelle, c(x, si) est la fréquence du mot x dans le document s de la langue source à la date i, c(y,ti) est la fréquence du mot y dans le document t de la langue cible à la date i.

Selon l’équation2.1, nous pouvons ainsi obtenir la similarité de chaque paire de mots, puis calculer la similarité entre un document source et un document cible en faisant la somme de la similarité pondérée de chaque paire de mots comme indiqué dans l’équation suivante :

s(ds, dt) =

∑

x∈ds,y∈dt

r(x, y) × IDF(x) × IDF(y) × BM25(x, ds) × BM25(y, dt) (2.2)

Où : IDF(x) = log_{d f(x)}n+1 , BM25(w, d) = k1c(w,d)

c(w,d)+k1(1−b+bAvgDocLen|d| )

dsest un document source, dt est un document cible, IDF(x) [127] est la fréquence inverse dans le document du mot x, IDF(y) est la fréquence inverse dans le document du mot y. df(x) est le nombre de documents qui contiennent le mots x. BM25(w,d) [110] est une mesure standard en recherche d’informa-tion, pour laquelle k1 et b sont deux paramètres ajustables, |d| est le nombre de mots dans le document, c(w,d) est la fréquence du mot w dans le document d, AvgDocLen est le nombre moyen de mots dans les documents du corpus.

(37)

combinaison des ces deux mesures permet de diminuer les poids des mots les moins discri-minants (les moins fréquents) et augmenter les poids des mots les plus discridiscri-minants (les plus fréquents). Pour construire des corpus comparables, les auteurs ont calculé les similarités entre chaque document source et tous les documents cibles, extrait les documents les plus similaires, et construit ainsi une paire de documents comparables.

L’approche basée sur la distribution des fréquences de mots pour construire des corpus comparables est adaptée à n’importe quelle langue et permet d’éviter la limitation liée aux ressources externes comme les dictionnaires bilingues (ce qui est un avantage, surtout pour les langues peu dotées en ressources numériques). Cependant, le calcul est très lourd (il faut calculer, sur une certaine fenêtre temporelle, les distributions des fréquences de mots) et donc l’approche est peu efficace, passe mal à l’échelle et n’est pas adaptée pour construire des corpus comparables de grande taille. De plus, cette approche dépend principalement des statistiques des fréquences de mots, elle ne peut donc pas garantir la qualité de l’alignement des corpus comparables produits.

2.2.4.2 Approche basée sur les caractéristiques

[149] propose une approche basée sur les caractéristiques pour aligner des documents com-parables, comme indiqué dans la figure2.1. Après avoir filtré les documents de la langue source et de la langue cible par exploitation d’une fenêtre temporelle, des champs ”titre” et ”contenu”, les paires de documents alignés candidates sont obtenues. Ensuite, les trois caractéristiques : TNC (titre et contenu), LIU (unité indépendante linguistique) et MTD (distribution des termes monolingues) sont extraites de ces paires. Les valeurs de ces trois caractéristiques sont re-groupées pour obtenir la similarité des paires de documents et en fonction de ces similarités, l’alignement des documents comparables est finalement établi. Nous détaillons ci-dessous les 4 étapes constitutives de cette approche.

— ETAPE-1 : Création des paires de documents comparables candidates.

Afin d’aligner les documents de la langue source avec les documents comparables cor-respondants dans la langue cible, le calcul des similarités entre chaque document de la langue source et tous les documents de la langue cible est nécessaire. Pour éliminer certains documents non pertinents, deux mesures de filtrage sont utilisées : un filtrage temporel et un filtrage qui porte sur les champs ”titre” et ”contenu”. Pour le filtrage tem-porel, la date de publication, souvent présente, peut être exploitée. On suppose que si les instants de publication des documents sont proches, ils seront temporellement simi-laires. Nous pouvons donc définir une même période d’analyse pour la langue source et également pour la langue cible. Cela permet d’éliminer beaucoup de documents et ainsi diminuer la complexité de calcul. Un deuxième niveau de filtrage peut être effectué : c’est le filtrage sur les champs ”titre” et ”contenu”. En utilisant le dictionnaire bilingue et en fonction d’un seuil portant sur le nombre de mots (le nombre de mots du titre seul par exemple), on traduit cette fenêtre de mots vers la langue cible et on ne considère

(38)

Langue cible

Langue source

Paires de documents candidates

Extraction des caractéristiques

Filtrage temporel _{Filtrage du titre et du}

contenu

Regroupement des caractéristiques

Alignement des documents comparables

Dictionnaire Bilingue

TNC

LIU

MTD

FIGURE 2.1 – Approche basée sur les caractéristiques TNC, LIU et MTD, pour l’alignement des documents

que les documents de la langue cible qui ont au moins un mot présent dans la traduction. — ETAPE-2 : Extraction des caractéristiques : TNC, LIU et MTD.

Ce module extrait les caractéristiques des documents et les répartit en trois groupes : TNC (titre et contenu), LIU (unité indépendante linguistique) et MTD (Distribution des termes monolingues).

a. TNC : titre et contenu

Comme pour le filtrage des champs ”titre” et ”contenu”, on effectue le décompte du nombre de traductions des mots dans le titre d’un document de la langue source qui sont présentes dans les documents de la langue cible, ainsi que le nombre de tra-ductions des mots dans le titre d’un document de la langue cible qui sont présentes dans les documents de la langue source. Formellement :

T NC(ds, dt) =

∑

wi∈Ts

T R(wi, ct) +

∑

wj∈Tt

T R(wj, cs) (2.3)

Où : ct est le contenu du document dt et csest le contenu du document ds; Tsest l’ensemble des mots dans le titre des documents d’une langue et Tt est l’ensemble des mots dans le titre des documents d’une autre langue. TR est une fonction indi-catrice : si c contient la traduction de w, alors, TR(w,c)=1, sinon, TR(w,c)=0. b. LIU : unité indépendante linguistique