Utilisation de termes complexes - Adaptation thématique non supervisée d'un système de reconnai

Les termes complexes permettent de lever des ambiguités d'interprétation inhérentes à certains termes simples. Par exemple, les termes ^port et ^voile peuvent faire référence au domaine du nautisme tout comme à celui de la religion alors que le terme complexe

31Pour un évènement donné, une possibilité égale à 0signie que l'evènement n'est pas possible alors qu'une possibilité à1signie simplement que la réalisation de l'évènement ne serait pas surprenante, mais juste normale. Ceci distingue une possibilité d'une probabilité pour laquelle la valeur 1 signie qu'un évènement sera systèmatique en comparaison des autres évènements. Le cadre possibiliste n'entretient pas ce phénomène de concurrence entre évènements dans la mesure où aucune contrainte de somme à 1 des possibilités d'un ensemble d'évènements n'est considérée.

Utilisation de termes complexes

port du voile ne laisse aucun doute possible quant au thème dont il est question. Par ailleurs, la recherche de termes complexes peut faire émerger des séquences de mots propres à un thème sans toutefois qu'aucun de ces mots ne puisse être considéré comme un terme simple on dit de ces séquences particulières qu'elles ont une opacité sémantique³².

Cette section vise donc à étudier si, à travers ces propriétés, l'utilisation de termes complexes peut conduire à une adaptation du modèle de langue de meilleure qualité que celle que nous obtenons en ne considérant que des termes simples. Nous présentons tout d'abord le procédé d'extraction de termes complexes que nous avons utilisé, puis nous exposons nos diérentes expériences concernant leur intégration au sein d'une adaptation thématique fondée sur MDI.

6.4.1 Extraction de termes complexes

Comme nous l'avons vu en 6.2.2, l'extraction en corpus de termes complexes est une tâche ardue, notamment en raison du grand nombre de variantes linguistiques sous les-quelles peut se présenter une même notion du thème. Nous avons choisi de déléguer cette tâche au logiciel Acabit (Daille, 1994). Ce logiciel s'appuie sur une première phase de re-pérage et de regroupement de termes-candidats présentant des patrons syntaxiques donnés puis sur une étape de ltrage de ces candidats d'après des critères statistiques. Acabit produit alors en sortie une liste de classes de termes complexes nominaux auxquels sont associés des scores reétant leur importance dans le corpus traité. Comme le montre un exemple de ces classes dans le tableau6.9, ce logiciel gère bien le phénomène de variation et, malgré le bruit émanant de nos corpora thématiques, les premiers termes complexes renvoyés, c'est-à-dire ceux auxquels Acabit associe les scores les plus élevés, sont globale-ment pertinents pour le thème considéré. Dans cette mesure, il est envisageable d'utiliser ses résultats pour adapter thématiquement notre modèle de langue généraliste.

6.4.2 Utilisation dans MDI

De la même manière que pour les termes simples, diérentes stratégies ont été expéri-mentées pour l'intégration des termes complexes. Nous avons cherché à savoir si ces termes sont à privilégier par rapport aux termes simples, s'ils les complètent ou si, au contraire, ils n'apportent rien. Pour cela, étant donné un ensemble X de termes, nous avons testé deux stratégies d'utilisation des termes complexes : l'une où aucun regroupement n'est fait entre les termestde X :

f_X^t(hw) =

(1 sihw termine par le terme t∈X,

0 sinon , (6.25)

et l'autre où les variantes d'un terme complexe sont regroupées au sein d'une même carac-téristiqueτ :

f_X^τ(hw) =

(1 sihw termine par un terme de τ ⊂X,

0 sinon . (6.26)

Ces deux stratégies ont été expérimentées sur diérents ensembles X. Dans un premier cas,X correspond à l'ensembleTcdes termes complexes fournis par Acabit à partir d'un

32Une séquence de mots présente une opacité sémantique lorsque le sens de cette séquence dière de celui résultant de la composition des sens de chaque mot qui la compose. Par exemple, l'expression ^{casser sa} pipe n'a rien à voir avec le fait de détruire un instrument servant à fumer.

signes visibles religieux

principes de la république et de la laïcité principes de la laïcité

les services et les lieux publics services publiques

TABLE 6.9 Exemple de premiers 50 termes complexes fournis par Acabit à partir d'un corpus traitant du port du voile et le la laïcité.

corpus thématique, soit, en moyenne, 57 000 variantes de termes complexes représentant 52 000 formes normales diérentes³³. Dans un second cas, cet ensemble est restreint aux seuls termes complexes qui contiennent un terme simple issu d'une extraction préalable de 5000 termes simples, ce qui ramène le nombre moyen de variantes de termes complexes par segment thématique à environ44 000. Nous notons cet ensemble de termes complexes X =Tc∩Ts où Ts désigne une terminologie de termes simples. Enn, dans un troisième cas, nous avons considéré l'union des termes simples et de tous les termes complexes. Nous notons alors X=T_c∪T_s.

La table6.10présente les résultats obtenus pour les 6 congurations possibles à partir de ces paramètres en terme de perplexité et de WER sur notre ensemble de développement.

Ces résultats sont comparés à ceux obtenus à partir de5000termes simples seuls sans aucun regroupement particulier (fonction fwˆ). Principalement, il apparaît alors que, quelle que soit l'utilisation faite des termes complexes, ceux-ci ne permettent jamais de produire une meilleure adaptation que celle fondée sur la seule utilisation de termes simples. Dans le dé-tail, nous constatons que les termes complexes utilisés seuls (fonctions f_T^∗_c) ne produisent

33Le faible écart entre ces deux nombre s'explique par le fait des variantes de termes ne sont généralement observées que pour les seuls termes complexes les plus fréquents dans le corpus. Les autres termes complexes se présentent alors généralement sous une forme unique.

Utilisation de termes complexes

Termes simples Termes complexes

T5000+f_w_ˆ f_T^t_c f_T^t_c_∩T_s f_T^t_c_∪T_s f_T^τ_c f_T^τ_c_∩T_s f_T^τ_c_∪T_s

Perplexité 75,5 91,1 84,5 78,4 90,7 80,5 77,5

(−20 %) (−5 %) (−12 %) (−17 %) (−6 %) (−15 %) (−18 %)

WER 21,2 22,0 21,8 21,5 22,0 21,6 21,4

(−0,9) (−0,1) (−0,3) (−0,6) (−0,1) (−0,5) (−0,7) TABLE6.10Perplexité et WER mesurés sur l'ensemble de développement sans adaptation (généraliste) et avec diérentes stratégies d'utilisation des termes complexes au sein de l'adaptation MDI. Entre parenthèses, les variations relatives moyennes de la perplexité et les variations absolues moyennes des taux d'erreur.

quasi aucun eet que ce soit en terme de perplexité ou de WER. Nous expliquons ces résultats décevants par le fait que les terminologies renvoyées par Acabit recensent énor-mément de termes complexes et que certains d'entre eux, notamment ceux qui présentent les scores les plus faibles, sont décorrélés du thème. Nous devrions probablement restreindre les terminologies complexes à un nombre maximum de termes. Les résultats obtenus en ltrant les termes complexes par des termes simples vont d'ailleurs dans ce sens puisque de meilleurs résultats sont reportés dans ce cas (fonctionsf_T^∗_c_∩T_s). Assez logiquement, nous nous apercevons que ces résultats sont encore améliorés dès lors que les termes simples sont introduits en complément des termes complexes (fonctionsf_T^∗

c∪T_s). Malgré tout, cette dernière conguration reste moins performante que la seule utilisation de termes simples.

Ces diérentes expériences montrent donc dans l'ensemble que, contrairement à notre hypothèse, les termes complexes en tant que séquences de mots n'apportent rien à la ca-ractérisation linguistique d'un thème oerte par les termes simples et, au contraire, qu'ils la dégradent. Ce résultat peut paraître décevant mais il nous apparaît en partie logique.

Tout d'abord, bien que le logiciel Acabit renvoie globalement des termes complexes de qua-lité, ces derniers sont uniquement de type nominal. Ainsi, des expressions comme ^{porter le} voile et notamment ses variantes exionnelles porte le voile, portent le voile ou ^porte un voile ne sont pas prises en compte lors de l'adaptation alors qu'elles l'étaient implicite-ment lors de l'utilisation du terme simple^voile. Le choix d'un autre logiciel retournant des termes complexes d'autres types pourrait être expérimenté (Cabré Castellví et al., 2003).

Ensuite, bien que le logiciel Acabit soit capable de regrouper les variantes d'un terme complexe, nos terminologies complexes restent toujours limitées par le contenu des corpora thématiques. Or, il est évident que ces corpora ne pourront jamais contenir l'ensemble des variantes possibles. Une solution serait d'être capable de générer celles-ci automatiquement.

Malheureusement, les diérentes typologies de variation proposées dans la littérature ne permettent pas ce genre d'opération car les diérentes règles qu'elles rassemblent ne sont pas systématiques, c'est-à-dire que certains termes peuvent tolérer certains types de varia-tion alors que d'autres termes ne le peuvent pas. Enn, beaucoup de termes complexes ne correspondent pas à des n-grammes recensés par le modèle de langue généraliste car ceux-ci n'ont pas été rencontrés ou ont été élagués lors de son apprentissage. Ainsi, bien qu'une adaptation soit souhaitée pour certains termes, rien n'est fait en pratique car les n-gramme correspondant à ces termes ne sont pas ajoutés dans le modèle de langue par l'adaptation MDI. C'est un inconvénient à souligner concernant cette technique par rap-port à l'utilisation d'une interpolation linéaire. Pour dépasser cette imrap-portante limite, une solution pourrait être de repartir du modèle généraliste non élagué et d'eectuer un élagage

en fonction du thème ciblé. Cette solution n'est toutefois pas complètement satisfaisante car l'absence de certains n-grammes dans le modèle généraliste n'est pas forcément due à l'élagage mais simplement au fait qu'ils n'ont jamais été observés précédemment. Il faudrait alors plutôt rééchir à une technique d'ajout de n-grammes, problème que nous traitons au chapitre 7.

Finalement, il ressort de l'ensemble de nos expériences visant l'utilisation d'une ter-minologie pour eectuer une adaptation thématique que la solution la plus performante est une technique d'unigram rescaling fondée sur quelques centaines ou milliers de termes simples sans chercher à regrouper ceux-ci via des propriétés linguistiques. Pourtant, malgré une diminuation signicative du WER, nous avons observé que notre méthode ne parvenait pas toujours à corriger certains termes simples initialement mal transcrits par le modèle généraliste. La prochaine section s'intéresse à ce problème en donnant quelques éléments de diagnostics quant aux freins et faiblesses liés à notre technique pour obtenir de gains supplémentaires sur le WER, notamment sur mots spéciques au thème.

Dans le document Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 108-112)