Étude préliminaire - Méthodologie et étude préliminaire

Méthodologie et étude préliminaire

5.3 Étude préliminaire

5.3.1 Objectifs

Comme nous l’avons dit au début de ce chapitre, pour tester et ajuster un algo-rithme de classification, nous avons besoin d’un critère de désambiguïsation lexicale relativement performant. D’un autre coté, pour évaluer et affiner un critère de désam-biguïsation lexicale, nous avons besoin d’un ou de plusieurs algorithmes de classification efficaces.

De nombreuses études montrent que les cooccurrences constituent un bon critère pour identifier le sens d’un mot. Nous allons donc utiliser un algorithme de classifica-tion simple, de type liste de décisions, pour évaluer et affiner un critère basé sur les cooccurrences.

Les objectifs de cette étude préliminaire sont :

– de valider notre approche et nos outils par une première série de résultats positifs ; – d’énoncer un premier critère sur lequel nous pourrons nous appuyer pour mettre

au point nos diﬀérents algorithmes de classiﬁcation dans le chapitre 6.

Dans le cadre de cette étude préliminaire, nous ne traitons pas l’ensemble des 60 vocables prévus pour l’étude complète, nous nous limitons simplement aux 20 noms de cette étude.

5.3.2 Critères étudiés

La série de critères que nous nous proposons d’étudier peut s’énoncer de la manière suivante :

Requête :

cible:[lemme="@(1)" & lexie~"^[0-9]"]

([ems!~"(^N|ÂDV|^V|ÂDJ)"]* [ems~"(^N|ÂDV|^V|ÂDJ)"]){1,@(2)} Apparence :

[P:cible.fichier]-[P:cible.paragraphe]-[P:cible.position] Référence : [P:end.lemme]

Discriminant : [P:cible.lexie]

Figure 5.4 – Règle correspondant à l’énoncé : « lemme des n mots pleins qui suivent le mot cible ».

Requête :

([ems~"(^N|ÂDV|^V|ÂDJ)"][ems!~"(^N|ÂDV|^V|ÂDJ)"]*){1,@(2)} <cible:[lemme="@(1)" & lexie~"^[0-9]"]>

Apparence :

[P:cible.fichier]-[P:cible.paragraphe]-[P:cible.position] Référence : [P:begin.lemme]

Discriminant : [P:cible.lexie]

Figure 5.5 – Règle correspondant à l’énoncé « lemme des n mots pleins qui précèdent le mot cible ».

Nous faisons varier la taille n de la demi-fenêtre aﬁn d’observer l’impact de cette variation sur les performances du critère.

Pour simplifier et clarifier la modélisation de ce critère, nous avons choisi d’utiliser deux règles. La première permet de modéliser les demi-critères « lemme des n mots pleins qui suivent le mot cible » et la deuxième les demi-critères « lemme des n mots pleins qui précèdent le mot cible. ». C’est l’utilisation simultanée de ces deux règles qui constitue une modélisation fidèle du critère énoncé. Chaque règle aura deux paramètres. Le premier,@(1), correspond au lemme du vocable étudié. Le second,@(2), correspond à la taille de la demi-fenêtre. Ces paramètres permettent d’écrire une règle générique pour modéliser toute une famille de critères au lieu d’écrire une règle (deux demi-règles en l’occurrence) par vocable et par taille de demi-fenêtre.

Les ﬁgures 5.4 et 5.5 représentent les deux règles en question.

Prenons, par exemple, n = 2 (i.e. @(2)= 2), et intéressons-nous au occurrences du vocable constitution (i.e.@(1)=constitution). La ﬁgure 5.6 représente un extrait du ﬁchier résultant de l’application du critère lemme des deux mots pleins qui suivent ou qui précèdent le mot constitution.

5.3.3 Algorithme de classification

L’algorithme de classification utilisé est du type liste de décisions pour sa simplicité de mise en œuvre (nous nous étendons plus amplement sur ce type d’algorithme dans la section 6.5). Comme nous ne possédons pas encore de données pour mettre au point un algorithme de classification, nous utilisons un algorithme existant présenté par Golding (1995) dans la section Hybrid method 1 : decision lists de son article. Il s’agit en fait du même algorithme que celui utilisé par Yarowsky (1994b) mais étendu aux classifications à plus de deux classes (nous détaillons et affinons cet algorithme dans la section 6.5.4). La mesure utilisée par cet algorithme pour ordonner les indices dans la liste de décisions est :

f iabilit´e(indice) = max

A-8386-84 1 admirer aïeul retour être

A-8969-36 1 débat esprit intéresser ne

A-14036-230 1.1 civil clergé janséniste rédiger

A-22-18 4 anné ordinaire taille tempérament

A-24392-128 3 corps lumière nature transparent

A-24486-2 2 esprit profond théorie tout

A-24497-8 2 esprit imaginatif physique théorie

A-24560-72 2 anglais esprit science usage

P-997-265 3 complet permettre relativement roche

A-24866-29 2 admettre physique théorie être

O-5837-79 5 civil partie plainte tribunal

O-5851-25 5 civil forme partie respectif

. .._. .._. .._. .._. .._.

Figure 5.6 – Résultat de l’application des règles des ﬁgures 5.4 et 5.5 avec @(1)=

constitutionet@(2)=2.

Conformément à ce que fait Golding2, pour garantir que p(lexie/indice) > 0, nous lissons les données d’apprentissage en ajoutant un au nombre de fois que chaque indice est observé pour chaque lexie.

p(lexie/indice) est estimé par la fraction nlexie,indice/nlexie où nlexie,indice est le nombre de fois que l’indice indice a été rencontré pour un vocable de lexie lexie et nlexie est le nombre d’instances de lexie lexie du vocable.

Pour éviter d’effectuer trop de mauvaises classifications, nous n’effectuons une clas-sification que si fiabilité(indice) > 0,5

Les algorithmes 5.1 et 5.2 résument le fonctionnement de l’algorithme de classiﬁca-tion pour l’étude préliminaire.

5.3.4 Résultats de l’étude préliminaire

La série des critères étudiés a été énoncée section 5.3.2 de la manière suivante : lemme des n mots pleins qui suivent ou qui précèdent le mot cible.

La ﬁgure 5.7 représente les variations du gain et du rappel moyen pour les 20 noms en fonction de la taille n de la demi-fenêtre.

Plus la taille de la fenêtre croît, plus le rappel augmente et plus la précision, donc le gain, diminue. En eﬀet, pour une fenêtre de deux mots pleins (donc un mot pour la taille de la demi-fenêtre) le gain est de plus de 80% et il tombe à 34% pour une taille de fenêtre de 40 mots pleins. À l’inverse, pour les mêmes tailles de fenêtre, le rappel passe respectivement de 32% à plus de 61%. Ce phénomène s’explique facilement. Plus la taille de la fenêtre croît et plus le nombre d’indices générés est grand et donc plus le nombre d’exemples sur lesquels l’algorithme peut prendre une décision est grand. Cependant, plus la taille de la fenêtre croît et plus la pertinence des indices diminue (généralement une cooccurrence éloignée du mot à désambiguïser apporte moins d’informations qu’une cooccurrence proche) et plus la précision, donc le gain, de la classiﬁcation décroît.

Quelle taille de fenêtre choisir? Tout dépend du besoin. Si l’objectif est de maximiser le gain, le plus avantageux est de ne regarder que le mot plein qui précède et celui qui suit (soit une fenêtre de plus ou moins un mot plein), si c’est le rappel qui compte, il vaut mieux augmenter la taille de la fenêtre. Pour obtenir un compromis entre gain et

Algorithme 5.1 – Phase d’apprentissage du classiﬁeur de l’étude préliminaire.

1: Mesurer la répartition suivant les lexies de chacun des indices des descriptions des exemples d’apprentissage. Cette étape génère un tableau à deux dimensions où une case est notée nlexie,indice

2: Lissage : ∀lexie,∀indice, nlexie,indice← nlexie,indice+ 1.

3: Ordonner les attributs en fonction de leur ﬁabilité pour former une liste de décisions : f iabilit´e(indice) = max

lexie p(lexie/indice)

4: Supprimer les indices trop peu ﬁables (fiabilit´e(indice) ≤ 0,5).

Algorithme 5.2 – Phase d’exploitation du classiﬁeur de l’étude préliminaire.

1: Parmi l’ensemble des indices de la description dont nous cherchons la classe, cher-cher celui qui se trouve le plus haut dans la liste de décisions.

2: Si aucun indice n’est trouvé Alors

3: Aucune classiﬁcation n’est eﬀectuée.

4: Sinon

5: La classiﬁcation est obtenue en choisissant la classe la plus probable désignée par l’indice trouvé.

Figure 5.7 – Gain et Rappel moyen pour les 20 noms de l’étude préliminaire en fonction de la taille n de la demi-fenêtre.

Figure 5.8 – Performance globale en fonction de la taille de la demi-fenêtre. rappel, il faut se reporter au graphique de la mesure de performance de l’algorithme ﬁgure 5.8.

La mesure de performance combine le gain et le rappel de l’algorithme. Selon cette mesure, la taille optimale de la demi-fenêtre est de cinq mots pleins. Cependant, la performance décroît brusquement pour une taille de fenêtre plus grande. Les demi-fenêtres de trois, quatre et cinq mots pleins donnent les meilleurs résultats et constituent une sorte de palier sur le graphique. Une demi-fenêtre de quatre mots pleins semble constituer un bon compromis entre performance et robustesse.

5.3.5 Conclusion

Pour la recherche et la mise au point de nos algorithmes de classiﬁcation nous choisissons donc cette taille de demi-fenêtre de quatre mots pleins. Le critère commun qui va nous permettre de comparer les algorithmes de classiﬁcation dans le chapitre 6 est donc :

lemme des quatre mots pleins qui suivent ou qui précèdent le mot cible.

En plus d’énoncer un premier critère sur lequel nous pouvons nous appuyer pour mettre au point nos différents algorithmes de classification, l’objectif de cette étude préliminaire était de valider notre approche et nos outils par une première série de résultats positifs. Nous pouvons considérer que cet objectif est également rempli. Par exemple, pour une taille de demi-fenêtre de quatre mots pleins, ce premier critère et ce premier algorithme de classification permettent d’aboutir à une précision de 83% alors que la précision de l’algorithme majoritaire n’est que de 57%, ce qui correspond à un gain de 60%. Le rappel n’est cependant que de 50%. En utilisant l’algorithme majoritaire pour classer tous les exemples non classés par notre algorithme, la précision est de 69% (tout comme le rappel puisque tous les exemples sont classés) et le gain est de 27%. Ces résultats sont comparables, bien qu’en retrait, à ceux obtenus par d’autres équipes sur des corpus de langue anglaise et devraient être améliorés après la recherche d’une meilleure classification (chapitre 6) et l’étude approfondie de différents critères (chapitre 7).

Chapitre 6

Classification supervisée, théorie

Dans le document Outils d'exploration de corpus et désambiguïsation lexicale automatique (Page 109-114)