Test sur la portabilité des modèles entre langues

La section précédente a été l’occasion de regarder dans quelle mesure des modèles entraî- nés sur des corpus dans une langue donnée étaient capables de retrouver des termes dans cette même langue. Or, le but de ce travail consiste également à investiguer les possibilités d’utili- ser des modèles entraînés dans une langue pour proposer des termes dans une autre langue. À cette fin, nous avons mené une série d’expériences en appliquant des modèles entraînés sur une langue, dite la « langue image », sur une autre langue, dite la « langue support ». Pour poursuivre sur cette métaphore artistique, nous désignerons par « modèle calque » le meilleur modèle de la langue image (déterminé dans la section 8.1), et par « modèle contre- épreuve » le modèle entraîné sur la langue image avec une combinaison de traits identique à celle du meilleur modèle de la langue support (également determiné dans la section 8.1). Nous avons appliqué pour chaque langue de notre échantillon de test, et pour chaque alter- native de sous-spécification (tokens, UTE modérées et UTE franches), les différents modèles calque et contre-épreuve entraînés sur chacune des autres langues. Un modèle entraîné sur un corpus pour un cadre expérimental donné est appliqué sur un corpus ayant un degré de sous-spécification équivalent, sauf pour le chinois.

L’intégralité des f-scores ainsi obtenus sont présentés en annexe C (p. 271). Les moyennes des meilleurs modèles calques et contre-épreuve pour chaque couple langue image–langue support sont données en marge des tableaux 8.9 (a), (b) et (c). Les résultats des meilleurs modèles sont représentés pour chaque langue support dans les figures 8.3 à 8.9. Ces figures situent les scores des différents modèles appliqués à une langue support : modèles calques et contre-épreuves pour les trois cadres de sous spécification possibles, entraînés sur chaque langue image. À titre informatif, les scores des meilleurs modèles entraînés et appliqués sur la langue support ont également été inclus dans ces graphes (symboles astérisques). Pour chaque figure, l’axe des abscisses correspond à la précision, l’axe des ordonnées correspond au rappel, et les lignes en pointillés indiquent des iso-ligne de f-score. Les lettres superposées aux symboles correspondent aux degrés de sous spécification du modèle : « F » indiquant une sous-spécification franche, « M » désignant une sous-spécification modérée et « B » (pour «Baseline ») faisant état d’aucune sous spécification.

Une fois de plus, nous constatons que, quelles que soient les langues supports et les langues images impliquées, les modèles obtenant les meilleures f-scores sont systématiquement des modèles entraînés et appliqués sur des corpus n’ayant pas bénéficié de sous-spécification. Pour cette raison, lorsque nous parlerons par la suite d’un modèle sans préciser si il a été entraîné sur des tokens, des UTE modérées ou des UTE franches, il faudra entendre qu’il s’agit d’un modèle non sous-spécifié.

8.2. TEST SUR LA PORTABILITÉ DES MODÈLES ENTRE LANGUES 155 Table 8.9 – Proportions de termes complexes obtenus par les meilleurs modèles (calques et contre-épreuve) entraînés sur différentes langues pour les trois cadres expérimentaux et appli- qués sur toutes les langues support. Ces proportions (en %) sont accompagnées des f-scores moyens obtenus par l’ensemble des modèles considérés et pour l’ensemble des langues.

(a) Tokens

Prop. de termes complexes pour les langues supports Prop. f-score précision rappel

Modèles ara deu eng fra pol tur zho moy. moy. moy. moy.

ara 0.77 0.00 0.00 0.00 0.05 55.16 9.33 0.85 0.83 0.86 deu 21.06 37.89 29.10 10.77 14.53 66.45 29.97 0.85 0.83 0.89 eng 24.25 30.95 13.03 11.90 13.51 57.75 25.23 0.81 0.84 0.80 fra 25.46 34.25 37.29 15.51 15.57 49.94 29.67 0.84 0.86 0.83 pol 16.41 19.88 32.09 23.90 11.34 34.28 22.98 0.86 0.87 0.86 tur 6.82 7.56 12.01 10.30 4.22 22.12 10.51 0.94 0.94 0.95 zho 18.95 29.98 20.43 34.34 15.19 24.55 23.91 0.66 0.84 0.59 Prop. moy 18.82 20.57 23.29 18.45 9.60 13.26 47.62 f-score moy 0.89 0.90 0.87 0.86 0.88 0.89 0.54 précision moy. 0.98 0.88 0.89 0.84 0.91 0.96 0.54 rappel moy. 0.83 0.92 0.87 0.90 0.87 0.84 0.55 (b) UTE modérées

Prop. de termes complexes pour les langues supports Prop. f-score précision rappel

Modèles ara deu eng fra pol tur zho moy. moy. moy. moy.

ara 10.88 12.05 14.30 7.91 10.46 46.28 16.98 0.82 0.74 0.94 deu 4.33 6.78 12.90 2.33 1.21 12.85 6.73 0.77 0.67 0.92 eng 10.67 14.71 22.55 17.92 12.08 54.40 22.06 0.75 0.72 0.80 fra 8.32 5.66 9.04 7.10 3.88 44.05 13.01 0.78 0.75 0.83 pol 10.45 4.86 6.83 7.87 1.93 11.35 7.21 0.58 0.51 0.70 tur 2.87 5.12 5.59 9.00 3.64 31.79 9.67 0.85 0.76 0.97 zho 15.83 19.74 12.46 18.40 39.15 15.93 20.25 0.56 0.49 0.66 Prop. moy 8.74 10.16 8.79 14.17 13.01 7.58 33.45 f-score moy 0.73 0.72 0.75 0.75 0.77 0.66 0.73 précision moy. 0.68 0.61 0.65 0.64 0.68 0.63 0.75 rappel moy. 0.81 0.89 0.89 0.93 0.88 0.71 0.70 (c) UTE franches

Prop. de termes complexes pour les langues supports Prop. f-score précision rappel

Modèles ara deu eng fra pol tur zho moy. moy. moy. moy.

ara 5.09 14.74 17.30 7.14 2.36 46.11 15.46 0.81 0.71 0.96 deu 5.19 6.11 5.71 4.72 1.33 8.08 5.19 0.59 0.48 0.77 eng 5.70 4.98 11.82 8.88 3.98 37.21 12.09 0.58 0.52 0.66 fra 8.00 3.30 15.50 6.27 5.24 29.75 11.34 0.61 0.56 0.68 pol 9.00 5.12 11.21 9.63 6.41 25.53 11.15 0.56 0.48 0.70 tur 6.46 5.84 17.82 19.54 9.44 17.20 12.72 0.84 0.74 0.98 zho 9.35 12.44 18.30 18.07 21.59 20.98 16.79 0.54 0.46 0.68 Prop. moy 7.28 6.13 13.95 13.68 9.67 6.72 27.31 f-score moy 0.51 0.69 0.73 0.71 0.75 0.57 0.56 précision moy. 0.47 0.56 0.60 0.58 0.64 0.53 0.57 rappel moy. 0.58 0.90 0.94 0.94 0.90 0.63 0.55

156 CHAPITRE 8. RÉSULTATS

langues de notre échantillon de tests des f-scores équivalents en utilisant des modèles entraî- nés sur d’autres langues. En chinois par exemple, le modèle contre-épreuve entraînée sur l’arabe obtient un score similaire au meilleur modèle entraîné sur le chinois, bien que ce modèle fa- vorise le rappel sur la précision, à l’inverse du modèle chinois. En allemand, il existe même huit modèles, dans quatre langues différentes qui surpassent le meilleur modèle entraîné sur l’allemand.

Pour la langue support arabe (fig. 8.3), les deux seuls modèles à dépasser l’iso-ligne de f-score 0.95ont été obtenus pour le turc (modèle calque et contre-épreuve). Le modèle contre-épreuve turc surpasse même le f-score du meilleur modèle arabe. Il est intéressant de noter que la pro- portion de termes complexes extraits par ces deux modèles est de 6, 82%, largement inférieure à la proportion moyenne de termes complexes extraites par l’ensemble des modèles non sous- spécifiés appliqués sur l’arabe (18, 82%).

Concernant l’allemand (fig. 8.4), les meilleurs modèles sont issus du turc, de l’arabe, du polonais et de l’anglais. Parmi ces derniers, quatre sont des modèles calques et trois sont des mo- dèles contre-épreuves. Ils obtiennent globalement un f-score plus élevé que celui du meilleur modèle allemand. À l’instar de l’arabe, les modèles non sous-spécifiés du turc et de l’arabe extraient très peu de termes complexes au regard des autres modèles. Les modèles polonais et anglais produisent plus de termes complexes.

Les différentes expériences menées sur l’anglais (fig. 8.5) semblent indiquer qu’il est difficile de dépasser la barre de 0, 9 points de f-score dans cette langue avec notre approche : le meilleur modèle reste celui entraîné sur l’anglais. Puis viennent les modèles polonais, allemand, turc et français (au total, autant de modèles calques que de modèles contre-épreuve). Tous ces mo- dèles extraient en moyenne 23, 29% de termes complexes, ce qui représente, en proportions, près de 3 fois le nombre de termes complexes extrait par le meilleur modèle anglais non sous- spécifié.

Pour le français (fig. 8.6), quatre modèles calques obtiennent des scores très comparables au meilleur f-score obtenu par le modèle entraîné sur le français : le polonais, le turc, l’allemand et le chinois. Ces modèles sont ceux qui proposent le plus de candidats termes complexes, exception faite du chinois.

L’ensemble des modèles des autres langues entraînés sur des tokens pour être appliqués sur le polonais produisent en moyenne moins de termes complexes que lorsque ces modèles sont appliqués sur d’autres langues (fig. 8.7). Les expériences dont la langue support est le polonais ont permis de déterminer que le meilleur modèle entraîné sur le polonais était également difficile à égaler ou surpasser en termes de f-score : seuls un modèle turc et un modèle français y parviennent.

8.2. TEST SUR LA PORTABILITÉ DES MODÈLES ENTRE LANGUES 157 cun modèle entraîné sur une autre langue n’a permis de surpasser celui obtenu par le meilleur modèle entraîné sur le turc. Toutefois, parmi les modèles issus d’autres langues appliquées au turc, celui du chinois (contre-épreuve), du français (contre-épreuve) et les modèles calques et contre-épreuves du polonais et de l’arabe parviennent à un f-score supérieur à 0, 95. Fait re- marquable, les modèles entraînés sur le turc étant issus de sous-spécification franche (f-score moyen : 0, 84) et modérée (f-score moyen : 0, 85) obtiennent des f-scores comparables à ceux des modèles non sous-spécifiés obtenus pour des langues images comme l’allemand ou l’anglais.

Enfin, pour le chinois (fig. 8.9), seul le modèle contre-épreuve non sous-spécifié de l’arabe obtient un f-score comparable à celui originairement obtenu par le meilleur modèle chinois. Contrairement aux autres langues pour lesquelles on observait un regroupement des modèles en fonction de leur degré de sous spécification et, éventuellement, de leur langue image, on constate ici que les modèles exhibent des écarts de rappel et de précision plus important. On note une tendance des modèles non sous-spécifiés à favoriser la précision plutôt que de le rappel, comme c’est globalement le cas pour le reste des modèles sous spécifié dans les autres langues. De façon intéressante, deux modèles issus de sous-spécification modérée (contre- épreuve turc et français) surpassent, en termes de f-score, des modèles non sous-spécifié. En moyenne, le chinois est la seule langue à bénéficier de modèles calques et contre épreuves mo- dérément sous-spécifiés. Cette différence peut s’observer entre les tableaux 8.9 (a) et (b) : de 0, 54à 0, 73 points de f-score, la sous-spécification semble faire gagner près de 20 points de f- score à la moyenne des modèles. Cette différence est causée par des modèles non sous-spécifiés ne produisant aucun candidat terme (f-score nul). En revanche, cette différence est à nuancer, car les modèles non sous-spécifiés produisant des scores non nuls sont en moyenne meilleurs que les modèles calques et contre-épreuve sous-spécifiés modérément. Le chinois est la langue qui, quels que soient les cadres expérimentaux, produit la plus grande quantité de candidats termes complexes.

En observant pour chaque langue les trois meilleurs modèles calques et contre-épreuves on constate en ce qui concerne les modèles calques, que ceux obtenant les meilleurs f-scores sont majoritairement issus du turc, et dans une moindre mesure du polonais, de l’arabe et de l’anglais. Le chinois et le français arrivent rarement à produire des modèles compétitifs. Pour les modèles contre-épreuves, il n’y a pas de langue en particulier qui soit favorisée comme le turc l’était pour les modèles calques. Néanmoins, le turc, l’arabe et le français produisent la plupart des meilleurs modèles contre-épreuve. Plus globalement, les f-scores moyens présentés dans les tableaux 8.9) indiquent que les modèles entraînés sur le turc (et dans une moindre mesure, sur l’arabe) surpassent globalement l’ensemble des autres modèles, quel que soient les cadre expérimentaux.

158 CHAPITRE 8. RÉSULTATS

Figure 8.3 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

8.2. TEST SUR LA PORTABILITÉ DES MODÈLES ENTRE LANGUES 159

Figure 8.4 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

160 CHAPITRE 8. RÉSULTATS

Figure 8.5 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

8.2. TEST SUR LA PORTABILITÉ DES MODÈLES ENTRE LANGUES 161

Figure 8.6 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

162 CHAPITRE 8. RÉSULTATS

Figure 8.7 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

8.2. TEST SUR LA PORTABILITÉ DES MODÈLES ENTRE LANGUES 163

Figure 8.8 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

164 CHAPITRE 8. RÉSULTATS

Figure 8.9 – Comparaison des meilleurs modèlescalqu et contre-épreuve sur la langue sup-

Dans le document Extraction et Complétion de Terminologies Multilingues (Page 179-190)