Récapitulatif des paramètres évalués - Nombre de contextes partagés

B.4 Nombre de contextes partagés

5.1 Récapitulatif des paramètres évalués

Contextes

En ce qui concerne la définition du contexte, nous avons choisi d’avoir recours aux fenêtres graphiques, c’est-à-dire un nombre de mots situés dans les contextes droite et gauche du mot cible (cf. section 2.1.2). Nous testons deux tailles de fenêtres : une fenêtre large de 21 mots (±10 mots, centrée sur le mot cible) et une fenêtre restreinte de 5 mots (±2 mots, centrée sur le mot cible).

La fenêtre la plus large est définie de manière à prendre en compte le plus grand nombre de contextes possibles. Nous l’avons ainsi définie à 21 mots, car dans nos corpus de travail, nous avons au maximum 19,15 mots en moyenne par phrase. De plus, nous conservons dans les contextes uniquement les mots qui sont étiquetés comme des verbes, des noms ou des adjectifs, ainsi que les termes identifiés automatiquement.

En ce qui concerne la fenêtre restreinte, nous avons choisi d’utiliser une taille de 5 mots de part et d’autre du mot cible, car il s’agit d’une taille adaptée aux textes de spécialité [Généreux et Hamon, 2013, Rapp, 2003].

Nous n’évaluons pas la taille de la fenêtre indépendamment, mais en combinaison à d’autres paramètres.

Mesures de similarité et de pondération

Pour chaque taille de fenêtre et chaque ensemble de mots cibles, nous testons les quatre mesures de similarité décrites dans la section 3.1.3, c’est-à-dire, l’indice de Jaccard (Jacc), le Cosinus (Cos), la Fréquence des Contextes Partagés (FreqCtxt) et le Nombre de Contextes Partagés (NbCtxt). Nous testons ces mesures utilisées seules, et pour les deux mesures acceptant une pondération (i.e. Cosinus et Jaccard), nous évaluons l’apport de deux mesures de pondération ; la fréquence relative pour l’indice de Jaccard (Jacc-Freq), et l’Information Mutuelle pour la mesure du Cosinus (Cos-IM).

Seuils

Afin de limiter le nombre de relations proposées et d’écarter les relations potentielle-ment fausses, nous avons défini plusieurs seuils (cf. section 3.1.3) : nous utilisons la combinaison de trois seuils sur les mots cibles et contextes. Ces seuils sont calculés au-tomatiquement et correspondent à la moyenne des valeurs prises par chaque paramètre sur l’ensemble du corpus. Nous évaluons également l’apport de ces seuils.

Sélection des contextes

Enfin, nous évaluons l’apport de la suppression des contextes les moins discriminants à l’aide du Cf-Itf utilisé en amont du calcul de similarité (cf. section 3.1).

Dans la suite de cette section, nous décrivons les résultats obtenus pour les mesures de similarité et de pondération (section 5.1.2), avec et sans l’application des différents seuils (section 5.1.3) et enfin avec et sans sélection des contextes les plus discriminants (section 5.1.3.3).

5.1.2 Mesures de similarité et de pondération

Nous étudions à présent les mesures de similarité et de pondération, décrites en section 3.1.3, à travers l’analyse des résultats obtenus avec les seuils sur les mots cibles et les contextes. En effet, l’utilisation des seuils sur les mots cibles et les contextes ne faisant pas varier le comportement des mesures de similarité par rapport aux résultats, nous avons choisi de présenter et de discuter ici les résultats obtenus avec l’utilisation des seuils.

Nous procédons à l’analyse des résultats en fonction de la taille de nos corpus de travail. Dans un premier temps, nous décrivons les résultats obtenus pour les corpus de petite taille, les deux corpus médicaux, et ensuite nous détaillerons le comportement des mesures de similarité et des pondérations avec les corpus de grande taille.

5.1 Définition de paramètres distributionnels adaptés aux textes de spécialité

Indépendamment de la taille des corpus, nous avons observé que le Cosinus utilisé sans pondération obtient dans toutes les configurations des résultats similaires ou légèrement inférieurs à ceux obtenus par le Cosinus pondéré avec l’Information Mutuelle. Nous présentons donc uniquement ces derniers résultats.

5.1.2.1 Corpus de petite taille

Nous présentons dans un premier temps les résultats obtenus avec les corpus de petite taille, c’est-à-dire le corpus Menelas et les Textes Cliniques. Pour les deux corpus, la fenêtre restreinte offre de meilleurs résultats, aussi bien avec les termes complexes (TC) que pour la combinaison des termes simples et des termes complexes (TS+TC). Les résultats obtenus avec les seuils sur les mots cibles et les contextes, pour les corpus de petite taille, sont présentés dans le tableau 5.2 pour la fenêtre restreinte (5 mots) et dans le tableau 5.3 pour la fenêtre large (21 mots).

Fenêtre restreinte (5 mots)

Pour les deux corpus, quand les termes complexes sont utilisés comme mots cibles, la mesure de similarité la plus adaptée est l’indice de Jaccard pondéré (Jacc-Freq), quelle que soit la métrique d’évaluation, dont notamment une MAP égale à 0,119 pour le corpus Menelas et de 0,052 pour les Textes Cliniques.

Quand les mots cibles sont les termes simples et complexes, pour le corpus Menelas, les résultats obtenus avec NbCtxt, FreqCtxt et JaccFreq sont assez proches, voire identiques (la R-précision est de 0,010 avec ces trois mesures). Malgré tout, l’indice de Jaccard pondéré obtient généralement de meilleures valeurs avec la MAP (0,08), la P@5 (0,029) et la P@10 (0,029). Pour les Textes Cliniques et les termes simples et complexes en mots cibles, l’indice de Jaccard pondéré obtient également les valeurs les plus élevées avec toutes les métriques d’évaluation.

Le Cosinus semble peu adapté aux petites fréquences, et obtient dans l’ensemble des valeurs nulles ou proches de zéro, avec les plus faibles valeurs quand les termes complexes sont les mots cibles. Il est donc préférable de ne pas utiliser le Cosinus si l’on fait le choix d’utiliser la fenêtre graphique restreinte. Malgré tout, le nombre de relations acquises et le nombre de relations retrouvées dans la référence sont identiques pour toutes les mesures de similarité.

Fenêtre large (21 mots)

Les résultats obtenus pour les petits corpus avec la fenêtre large sont présentés dans le tableau 5.3.

Menelas

COS-IM FREQCTXT JACC JACC-FREQ NBCTXT

Rel Acq1 Ts+TC 274 447 274 447 274 447 274 447 274 447

TC 8 118 8 118 8 118 8 118 8 118

Rel dans Ref2 Ts+TC 60 60 60 60 60

TC 96 96 96 96 96 Rprec ^TS+TC ^0,066 ^0,105 ^0,053 ^0,079 ^0,222 TC 0 0,045 0,036 0,080 0,036 MAP ^TS+TC ^0,086 ^0,171 ^0,159 ^0,121 ^0,188 TC 0,014 0,091 0,066 0,119 0,084 P@1 ^TS+TC ^0,053 ^0,105 ⁰ ^0,053 ^0,158 TC 0 0,036 0,036 0,107 0,036 P@5 ^TS+TC ^0,021 ^0,042 ^0,042 ^0,042 ^0,053 TC 0,007 0,029 0,029 0,029 0,021 P@10 ^TS+TC ^0,016 ^0,026 ^0,037 ^0,037 ^0,037 TC 0,004 0,021 0,018 0,025 0,025 Textes Cliniques

COS-IM FREQCTXT JACC JACC-FREQ NBCTXT

Rel Acq ^TS+TC ^{2 722 289} ^{2 722 289} ^{2 722 289} ^{2 722 289} ^{2 722 289}

TC 1 696 871 1 696 871 1 696 871 1 696 871 1 696 871

Rel dans Ref ^TS+TC ^{13 372} ^{13 372} ^{13 372} ^{13 372} ^{13 372}

TC 11 896 11 896 11 896 11 896 11 896 Rprec ^TS+TC ^0,001 ^0,027 ^0,022 ^0,034 ^0,028 TC 0,001 0,039 0,026 0,046 0,037 MAP ^TS+TC ^0,005 ^0,035 ^0,027 ^0,045 ^0,035 TC 0,007 0,046 0,031 0,052 0,046 P@1 ^TS+TC ⁰ ^0,017 ^0,030 ^0,054 ^0,017 TC 0 0,018 0,035 0,061 0,020 P@5 ^TS+TC ^0,001 ^0,035 ^0,024 ^0,041 ^0,038 TC 0 0,046 0,032 0,048 0,048 P@10 ^TS+TC ^0,002 ^0,030 ^0,020 ^0,033 ^0,031 TC 0,001 0,040 0,024 0,041 0,042

Ta b l e au 5 . 2 : Scores de similarité pour les corpus de petite taille, avec la fenêtre

Dans le document Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes (Page 82-85)