• Aucun résultat trouvé

Repr´esentation sous forme de distribution de coefficients de

2.3 Une repr´esentation de l’homog´en´eit´e

2.3.2 Repr´esentation sous forme de distribution de coefficients de

Ecart-type ang. 0,014 0,031 0,053 0,063 0,075

´

Ecart-type jpn. 0,008 0,160 0,022 0,031 0,037

Tableau 2.5: Corr´elation et ´ecart-type pour un nombre croissant de parties.

valeur la plus proche en terme de d´ecoupe renvoie ainsi aux meilleures corr´elations.

Cette corr´elation ne peut exc´eder un certain seuil maximal, du fait des diff´erences

inh´erentes `a la structure des langues examin´ees, ainsi que d’une division arbitraire :

en effet, le corpus BTEC ´etant constitu´e d’une juxtaposition de lignes tir´ees de

re-cueils de phrases utiles pour voyageurs, on peut imaginer qu’il y ait d’importantes

diff´erences en terme de style dans les diff´erents recueils. En revanche l’´ecart-type,

qui montre la variation interne moyenne du coefficient de similarit´e, nous fournit

une quantification int´eressante de l’homog´en´eit´e globale. L’´ecart-type augmente `a

mesure que le nombre de parties en lesquelles est divis´e le corpus BTEC augmente :

en effet, `a mesure qu’on augmente la r´esolution, les irr´egularit´es locales apparaissent

de fa¸con moins liss´ee.

Nous montrons dans la section suivante qu’il est possible de repr´esenter

l’homo-g´en´eit´e sous la forme d’une distribution de coefficients de similarit´e.

2.3.2 Repr´esentation sous forme de distribution de coefficients de

similarit´e

Intuition de d´epart et motivation

Une ressource linguistique est bien souvent compos´ee de documents provenant de

diff´erentes sources. L’homog´en´eit´e d’une telle ressource est ainsi rarement accessible

au del`a de la simple connaissance de l’origine des documents la constituant. La

diversit´e des sources, ainsi que le fait de rassembler un grand nombre de documents

en un corpus entraine que son contenu pr´esente des irr´egularit´es. Ces irr´egularit´es

ayant un caract`ere multidimensionnel30, on ne peut affirmer trivialement qu’une

ressource est homog`ene ou h´et´erog`ene : des sous-langages diff´erents exhiberont des

variations aux niveaux lexical, syntaxique, s´emantique et structurel31.

Peu de travaux ont ´et´e men´es auparavant sur l’homog´en´eit´e des ressources

lin-guistiques, et sur ses applications ´eventuelles dans le TAL. Cependant, on rel`evera

ceux de Cavagli`a et Rose :

• Cavagli`a32 reprend des mesures fond´ees sur des comptages de mots ou de

lex`emes, et fait l’hypoth`ese que l’utilisation de ressources homog`enes am`ene

g´en´eralement `a de meilleures performances des syst`emes de traitement

auto-matique des langues, mais ses exp´eriences sur un cat´egoriseur autoauto-matique de

textes sont peu probantes. Cela nous incite `a v´erifier puis mettre en doute la

validit´e d’une telle hypoth`ese dans la suite de cette ´etude (section 2.3.3).

30

VoirBiber,Variation across speech and writing, 1988, etBiber,Dimensions in register

vari-ation, 1995.

31

Kittredge&Lehrberger,Sublanguage. Studies of language in restricted semantic domains,

1982.

32

Cavagli`a,Measuring corpus homogeneity using a range of measures for inter-document

• Rose et Tucker33examinent la performance d’un syst`eme de reconnaissance de

parole en fonction de la taille et du type des donn´ees utilis´ees pour construire

le mod`ele de langue qui entre en jeu. Ils utilisent dans cette ´etude une petite

ressource de d´epart, `a laquelle ils rajoutent progressivement des donn´ees du

mˆeme type `a l’aide d’un crit`ere de similarit´e fond´e sur une corr´elation de

Spearman, crit`ere propos´e par Kilgarriff34, et le logarithme de la vraisemblance

G2, d´efini par Dunning35.

Comme on l’a vu au cours de l’exp´erience pr´ec´edente, nous ´etudions l’homog´en´eit´e

en fonction de deux sous-langages de r´ef´erence, qui calibrent en quelque sorte la

simi-larit´e associ´ee. En cela il n’y a donc pas une, mais bien des homog´en´eit´es selon qu’on

consid`ere des axes born´es par des sous-langages diff´erents (par exemple registre de

politesse, domaine, etc.), car elles correspondent `a des irr´egularit´es diff´erentes en

fonction des donn´ees de r´ef´erence utilis´ees. Par la suite et comme dans le

proto-cole exp´erimental pr´ec´edent, nous nous int´eressons `a l’homog´en´eit´e en termes de

r´egularit´e et d’irr´egularit´e entre registres de la langue orale et de la langue ´ecrite.

La connaissance permettant de d´etecter ces variations est ainsi incluse implicitement

dans les donn´ees de r´ef´erence.

Puisqu’on consid`ere l’homog´en´eit´e d’une ressource comme la variation de la

similarit´e de ses parties par rapport au tout, on peut imaginer la repr´esenter par

la distribution des coefficients de similarit´e de chacune de ses parties. Nous allons

donc visualiser l’homog´en´eit´e du corpus BTEC sous forme de distribution. Nous

examinerons ensuite l’influence de l’homog´en´eit´e des donn´ees sur un syst`eme de

TAL en termes de perplexit´e, et de qualit´e des sorties dans le cas d’un syst`eme de

traduction automatique, dans une exp´erience d’adaptation des donn´ees `a une tˆache

`a traiter.

L’homog´en´eit´e du BTEC sous forme de distribution de coefficients de

similarit´e

Le corpus BTEC ´etant constitu´e d’une juxtaposition de recueils de phrases dans le

domaine du tourisme, nous examinons la distribution de ses coefficients de similarit´e

selon deux d´ecoupes intuitives : tout d’abord en conservant l’int´egrit´e de chacun

des recueils (`a chaque recueil est associ´e un coefficient); puis phrase par phrase (`a

chaque phrase sera associ´e un coefficient). La figure 2.9 montre les distributions des

coefficients de similarit´e en japonais et en anglais, `a l’´echelle du recueil et de la

phrase, et le tableau 2.6 leurs valeurs moyennes et ´ecart-type.

Tableau 2.6: Valeurs moyennes ±´ecarts-types des distributions des coefficients de

similarit´e pour le japonais et pour l’anglais.

Coefficient japonais anglais

Recueil 0,330±0,020 0,288±0,027

Phrase 0,315±0,118 0,313±0,156

33

TonyRose&Tucker,The effects of corpus size and homogeneity on language model quality,

1997.

34

Kilgarriff,Using word frequency lists to measure corpus homogeneity and similarity between

corpora, 1997.

35

0 0.2 0.4 0.6 0.8 1

0

100

200

300

400

500

600

700

800

Coefficients du BTEC japonais

Occurrences (phrases)

0 0.2 0.4 0.6 0.8 1

0

100

200

300

400

500

600

700

800

Coefficients du BTEC anglais

Occurrences (phrases)

Phrases

Recueils

Phrases

Recueils

Figure 2.9: Distributions des coefficients de similarit´e en langue japonaise (gauche)

et anglaise (droite), `a l’´echelle du recueil (trait gras pointill´e) et de la phrase (trait

fin continu).

Ces distributions donnent un aper¸cu de l’homog´en´eit´e du BTEC en terme de

litt´erarit´e : elles font apparaitre les r´egularit´es et irr´egularit´es entre registre oral et

´ecrit au sein de la ressource. Alors que la moyenne apporte une information globale,

l’´ecart-type des distributions renseigne sur la quantit´e de variations internes entre

oral et ´ecrit. On peut expliquer les diff´erences de valeurs moyennes et d’´ecarts-types

entre les deux d´ecoupes par le fait que tous les recueils ne contiennent pas le mˆeme

nombre de phrases36. Bien que les distributions `a l’´echelle de la phrase et du recueil

aient globalement la mˆeme allure gaussienne, les irr´egularit´es au niveau de la phrase

encouragent `a utiliser une unit´e plus grande pour estimer les entropies crois´ees. Il

est int´eressant de noter qu’`a l’´echelle du recueil, la corr´elation entre coefficients de

similarit´e et longueur moyenne du recueil, ainsi qu’entre coefficients de similarit´e

et longueur moyenne de la phrase de chaque recueil, est faible (0,178 et 0,278,

respectivement) : les irr´egularit´es ainsi d´etect´ees ne sont pas fortement li´ees `a des

param`etres de surface triviaux. En revanche, il est satisfaisant de constater que la

corr´elation est forte37 entre les coefficients en japonais et en anglais (0,781).

La mise en ´evidence dans les donn´ees d’irr´egularit´es internes importantes en

terme de registre oral ou ´ecrit peut en outre permettre de les utiliser dans un syst`eme

de traitement automatique des langues. En s´electionnant certaines donn´ees, on a

la possibilit´e de modifier l’homog´en´eit´e du corpus : on peut par exemple choisir

d’´eliminer certaines irr´egularit´es (ce qui revient `a garder la mˆeme moyenne, mais `a

modifier l’´ecart-type). La section suivante pr´esente une exp´erience d’adaptation des

donn´ees utilisant les r´esultats obtenus ci-dessus.

36

Les recueils du BTEC sont en effet longs en moyenne de 824 phrases, avec un ´ecart-type

important de 594 phrases.

37

Il est en effet attendu que cette corr´elation soit forte puisque les parties japonaises et anglaises

sont simplement traductions l’une de l’autre.

2.3.3 Exp´erience : influence de l’homog´en´eit´e des donn´ees sur la