2.3 Une repr´esentation de l’homog´en´eit´e
2.3.2 Repr´esentation sous forme de distribution de coefficients de
Ecart-type ang. 0,014 0,031 0,053 0,063 0,075
´
Ecart-type jpn. 0,008 0,160 0,022 0,031 0,037
Tableau 2.5: Corr´elation et ´ecart-type pour un nombre croissant de parties.
valeur la plus proche en terme de d´ecoupe renvoie ainsi aux meilleures corr´elations.
Cette corr´elation ne peut exc´eder un certain seuil maximal, du fait des diff´erences
inh´erentes `a la structure des langues examin´ees, ainsi que d’une division arbitraire :
en effet, le corpus BTEC ´etant constitu´e d’une juxtaposition de lignes tir´ees de
re-cueils de phrases utiles pour voyageurs, on peut imaginer qu’il y ait d’importantes
diff´erences en terme de style dans les diff´erents recueils. En revanche l’´ecart-type,
qui montre la variation interne moyenne du coefficient de similarit´e, nous fournit
une quantification int´eressante de l’homog´en´eit´e globale. L’´ecart-type augmente `a
mesure que le nombre de parties en lesquelles est divis´e le corpus BTEC augmente :
en effet, `a mesure qu’on augmente la r´esolution, les irr´egularit´es locales apparaissent
de fa¸con moins liss´ee.
Nous montrons dans la section suivante qu’il est possible de repr´esenter
l’homo-g´en´eit´e sous la forme d’une distribution de coefficients de similarit´e.
2.3.2 Repr´esentation sous forme de distribution de coefficients de
similarit´e
Intuition de d´epart et motivation
Une ressource linguistique est bien souvent compos´ee de documents provenant de
diff´erentes sources. L’homog´en´eit´e d’une telle ressource est ainsi rarement accessible
au del`a de la simple connaissance de l’origine des documents la constituant. La
diversit´e des sources, ainsi que le fait de rassembler un grand nombre de documents
en un corpus entraine que son contenu pr´esente des irr´egularit´es. Ces irr´egularit´es
ayant un caract`ere multidimensionnel30, on ne peut affirmer trivialement qu’une
ressource est homog`ene ou h´et´erog`ene : des sous-langages diff´erents exhiberont des
variations aux niveaux lexical, syntaxique, s´emantique et structurel31.
Peu de travaux ont ´et´e men´es auparavant sur l’homog´en´eit´e des ressources
lin-guistiques, et sur ses applications ´eventuelles dans le TAL. Cependant, on rel`evera
ceux de Cavagli`a et Rose :
• Cavagli`a32 reprend des mesures fond´ees sur des comptages de mots ou de
lex`emes, et fait l’hypoth`ese que l’utilisation de ressources homog`enes am`ene
g´en´eralement `a de meilleures performances des syst`emes de traitement
auto-matique des langues, mais ses exp´eriences sur un cat´egoriseur autoauto-matique de
textes sont peu probantes. Cela nous incite `a v´erifier puis mettre en doute la
validit´e d’une telle hypoth`ese dans la suite de cette ´etude (section 2.3.3).
30
VoirBiber,Variation across speech and writing, 1988, etBiber,Dimensions in register
vari-ation, 1995.
31Kittredge&Lehrberger,Sublanguage. Studies of language in restricted semantic domains,
1982.
32Cavagli`a,Measuring corpus homogeneity using a range of measures for inter-document
• Rose et Tucker33examinent la performance d’un syst`eme de reconnaissance de
parole en fonction de la taille et du type des donn´ees utilis´ees pour construire
le mod`ele de langue qui entre en jeu. Ils utilisent dans cette ´etude une petite
ressource de d´epart, `a laquelle ils rajoutent progressivement des donn´ees du
mˆeme type `a l’aide d’un crit`ere de similarit´e fond´e sur une corr´elation de
Spearman, crit`ere propos´e par Kilgarriff34, et le logarithme de la vraisemblance
G2, d´efini par Dunning35.
Comme on l’a vu au cours de l’exp´erience pr´ec´edente, nous ´etudions l’homog´en´eit´e
en fonction de deux sous-langages de r´ef´erence, qui calibrent en quelque sorte la
simi-larit´e associ´ee. En cela il n’y a donc pas une, mais bien des homog´en´eit´es selon qu’on
consid`ere des axes born´es par des sous-langages diff´erents (par exemple registre de
politesse, domaine, etc.), car elles correspondent `a des irr´egularit´es diff´erentes en
fonction des donn´ees de r´ef´erence utilis´ees. Par la suite et comme dans le
proto-cole exp´erimental pr´ec´edent, nous nous int´eressons `a l’homog´en´eit´e en termes de
r´egularit´e et d’irr´egularit´e entre registres de la langue orale et de la langue ´ecrite.
La connaissance permettant de d´etecter ces variations est ainsi incluse implicitement
dans les donn´ees de r´ef´erence.
Puisqu’on consid`ere l’homog´en´eit´e d’une ressource comme la variation de la
similarit´e de ses parties par rapport au tout, on peut imaginer la repr´esenter par
la distribution des coefficients de similarit´e de chacune de ses parties. Nous allons
donc visualiser l’homog´en´eit´e du corpus BTEC sous forme de distribution. Nous
examinerons ensuite l’influence de l’homog´en´eit´e des donn´ees sur un syst`eme de
TAL en termes de perplexit´e, et de qualit´e des sorties dans le cas d’un syst`eme de
traduction automatique, dans une exp´erience d’adaptation des donn´ees `a une tˆache
`a traiter.
L’homog´en´eit´e du BTEC sous forme de distribution de coefficients de
similarit´e
Le corpus BTEC ´etant constitu´e d’une juxtaposition de recueils de phrases dans le
domaine du tourisme, nous examinons la distribution de ses coefficients de similarit´e
selon deux d´ecoupes intuitives : tout d’abord en conservant l’int´egrit´e de chacun
des recueils (`a chaque recueil est associ´e un coefficient); puis phrase par phrase (`a
chaque phrase sera associ´e un coefficient). La figure 2.9 montre les distributions des
coefficients de similarit´e en japonais et en anglais, `a l’´echelle du recueil et de la
phrase, et le tableau 2.6 leurs valeurs moyennes et ´ecart-type.
Tableau 2.6: Valeurs moyennes ±´ecarts-types des distributions des coefficients de
similarit´e pour le japonais et pour l’anglais.
Coefficient japonais anglais
Recueil 0,330±0,020 0,288±0,027
Phrase 0,315±0,118 0,313±0,156
33
TonyRose&Tucker,The effects of corpus size and homogeneity on language model quality,
1997.
34
Kilgarriff,Using word frequency lists to measure corpus homogeneity and similarity between
corpora, 1997.
350 0.2 0.4 0.6 0.8 1
0
100
200
300
400
500
600
700
800
Coefficients du BTEC japonais
Occurrences (phrases)
0 0.2 0.4 0.6 0.8 1
0
100
200
300
400
500
600
700
800
Coefficients du BTEC anglais
Occurrences (phrases)
Phrases
Recueils
Phrases
Recueils
Figure 2.9: Distributions des coefficients de similarit´e en langue japonaise (gauche)
et anglaise (droite), `a l’´echelle du recueil (trait gras pointill´e) et de la phrase (trait
fin continu).
Ces distributions donnent un aper¸cu de l’homog´en´eit´e du BTEC en terme de
litt´erarit´e : elles font apparaitre les r´egularit´es et irr´egularit´es entre registre oral et
´ecrit au sein de la ressource. Alors que la moyenne apporte une information globale,
l’´ecart-type des distributions renseigne sur la quantit´e de variations internes entre
oral et ´ecrit. On peut expliquer les diff´erences de valeurs moyennes et d’´ecarts-types
entre les deux d´ecoupes par le fait que tous les recueils ne contiennent pas le mˆeme
nombre de phrases36. Bien que les distributions `a l’´echelle de la phrase et du recueil
aient globalement la mˆeme allure gaussienne, les irr´egularit´es au niveau de la phrase
encouragent `a utiliser une unit´e plus grande pour estimer les entropies crois´ees. Il
est int´eressant de noter qu’`a l’´echelle du recueil, la corr´elation entre coefficients de
similarit´e et longueur moyenne du recueil, ainsi qu’entre coefficients de similarit´e
et longueur moyenne de la phrase de chaque recueil, est faible (0,178 et 0,278,
respectivement) : les irr´egularit´es ainsi d´etect´ees ne sont pas fortement li´ees `a des
param`etres de surface triviaux. En revanche, il est satisfaisant de constater que la
corr´elation est forte37 entre les coefficients en japonais et en anglais (0,781).
La mise en ´evidence dans les donn´ees d’irr´egularit´es internes importantes en
terme de registre oral ou ´ecrit peut en outre permettre de les utiliser dans un syst`eme
de traitement automatique des langues. En s´electionnant certaines donn´ees, on a
la possibilit´e de modifier l’homog´en´eit´e du corpus : on peut par exemple choisir
d’´eliminer certaines irr´egularit´es (ce qui revient `a garder la mˆeme moyenne, mais `a
modifier l’´ecart-type). La section suivante pr´esente une exp´erience d’adaptation des
donn´ees utilisant les r´esultats obtenus ci-dessus.
36
Les recueils du BTEC sont en effet longs en moyenne de 824 phrases, avec un ´ecart-type
important de 594 phrases.
37
Il est en effet attendu que cette corr´elation soit forte puisque les parties japonaises et anglaises
sont simplement traductions l’une de l’autre.
2.3.3 Exp´erience : influence de l’homog´en´eit´e des donn´ees sur la
Dans le document
Méthodes en caractères pour le traitement automatique des langues
(Page 93-96)