• Aucun résultat trouvé

2.6 Amélioration des résultats par combinaison avec d’autres méthodes

2.6.2 Expérience 1 : SVM, sur corpus Parlementaire

Les listes de classification produites par SVM59ont été réutilisées telles quelles. Les détails de son

développement ne seront par conséquent pas exposés dans ces pages. Il est cependant intéressant de

57

L’ordre n’est pas intéressant en tant que tel, mais prend toute son importance lorsque la réorganisation des catégories a lieu avant la réduction de la liste par application d’un seuil.

58

Par meilleur résultat, nous entendons celui qui maximise la f-mesure (F).

59

2.6 Amélioration des résultats par combinaison avec d’autres méthodes 85

préciser que l’algorithme SVM a été entraîné sur l’ensemble des mots simples, moins les mots vides (stopwords). Les termes ont été racinisés (à l’aide de Snowball). La classification multiclasse est en fait constituée par un ensemble de classificateurs un-contre-un. Pour N classes, le système apprend N*(N-1)/2 modèles (par exemple pour 4 classes, il y a 6 modèles à exécuter ; pour les 47 classes du cas d’étude, il y en a donc 1081). Le poids attribué au final à chaque classe est le nombre de duels gagnés. Une présentation plus précise est consultable dans Kevers et al. [2010].

La combinaison de SVM à MLE est née suite à l’observation des résultats obtenus pour ces deux méthodes. Globalement, les performances sont assez similaires60, mais celles-ci sont obtenues sur la base de listes de classification partiellement différentes. En plus de leur contenu, elles varient également sur deux caractéristiques : leur longueur et la distribution des poids. En ce qui concerne le nombre d’éléments des listes, SVM renvoie toujours une liste contenant l’ensemble des catégories tandis que MLE livre un résultat de longueur variable. Pour la répartition des poids dans les listes, la méthode SVM génère une pondération qui décroît de manière très progressive, alors que la méthode MLE donne parfois lieu à des sauts brusques. Les premières catégories ont ainsi souvent un poids beaucoup plus élevé que le reste de la liste.

Cette expérience de combinaison a été menée sur le corpus Parlementaire. Les catégories utilisées ont été restreintes aux 47 microthésaurus61.

La synthèse des résultats obtenus pour les méthodes MLE et SVM, ainsi que pour les différentes approches et modes de combinaison de ces deux méthodes, est reprise au tableau 2.3. Nous ne rap- portons que le meilleur résultat parmi les combinaisons possibles de multiplicateurs (α,1 − α). On constate que, à l’exception de l’intersection des listes réduites par application d’un seuil (Mix4), les autres combinaisons débouchent sur des résultats supérieurs. La meilleure performance en termes de f-mesure est 66,08 (pour un rappel de 67,70% et une précision de 73,70%) et est atteinte en réalisant l’union des listes complètes fournies par les deux méthodes avant application de la fonction de seuil (Mix1). Cela représente une augmentation de 5,06 par rapport à la méthode MLE et de 6,93 par rapport à SVM.

La détérioration des résultats observés pour Mix4 peut s’expliquer par le faible nombre de catégories fournies par MLE (1,61) et SVM (1,05), qui lors de l’intersection, atteint un niveau très bas (0,67). Certains documents ne reçoivent donc pas de suggestion de catégorie ce qui pénalise fortement le rappel. Le choix d’une unique mauvaise catégorie affecte aussi fortement la précision.

Mix3, avec une augmentation du rappel (à 76,16%) par rapport aux deux méthodes de base et une précision se stabilisant (à 64,96%) légèrement en dessous de MLE, se comporte comme prévu et permet d’atteindre une f-mesure plus élevée (65,13). La forte augmentation du rappel prouve que les catégories correctes comprises dans les deux listes sont en partie différentes.

Avec Mix1 et Mix2, la pondération différente des deux méthodes, modifie les poids initiaux des ca-

60La méthode MLE a donné des résultats légèrement plus élevés que ceux obtenus avec SVM (voir tableau 2.3). 61

La quantité de données à notre disposition n’était pas suffisante pour effectuer un apprentissage satisfaisant sur l’ensemble des 2.514 catégories.

86 2 Indexation semi-automatique, une approche symbolique de classification de textes

tégories et donne l’opportunité à celles-ci de se réorganiser avant application du seuil. On remarque que les meilleurs résultats sont obtenus à l’aide d’une pondération forte de la méthode SVM. L’ordre et les poids attribués par cette méthode ont donc une grande importance sur le résultat final. L’union (Mix1) et l’intersection (Mix2) atteignent un niveau similaire de f-mesure, supérieur aux méthodes de base. C’est une nouvelle fois l’union qui réalise la meilleure performance (66,08), alors que l’in- tersection suit de très près (66,01). Les résultats présentent un bon niveau de précision, ce qui est dû à la forte pondération de SVM. Comme prévu, l’union favorise plutôt le rappel (ici, peu élevé en raison du faible nombre de catégories présentées, soit 1,48) et l’intersection, la précision (en partie grâce à l’effet filtre de MLE).

Rapport Rappel Précision F-mesure Nbr. de MLE/SVM (R) (P) (F) catégories Méthodes de base

MLE (Max F) n/a 64,79 66,05 61,02 1,61 SVM (Max F) n/a 53,93 72,90 59,15 1,05 Mix1 : Seuil(MLE∪ SVM) Max F 0,1 / 0,9 67,70 73,70 66,08 1,48 F≈0,5 & Max R 0,3 / 0,7 87,16 50,06 63,59 3,46 F≈0,3 & Max R 0,6 / 0,4 91,72 33,50 49,07 4,77 Mix2 : Seuil(MLE∩ SVM) Max F 0,1 / 0,9 70,20 71,31 66,01 1,62 Mix3 : Seuil(MLE)∪ Seuil(SVM)

n/a n/a 76,16 64,96 65,13 1,99

Mix4 : Seuil(MLE)∩ Seuil(SVM)

n/a n/a 42,57 57,24 46,81 0,67

Tableau 2.3 : Synthèse des résultats obtenus pour les méthodes MLE et SVM, ainsi que pour les différents approches et modes de combinaison.

Dans l’optique de l’indexation semi-automatique, nous pourrions augmenter le nombre de catégories proposées au documentaliste afin d’améliorer le rappel. Avec la meilleure méthode combinée (Mix1), nous pourrions ainsi proposer en moyenne 3,46 catégories pour atteindre un rappel de 87,16% (pré- cision de 50,06%). En acceptant de laisser chuter la précision à 33,50%, et en suggérant en moyenne 4,77 catégories, le rappel pourrait même augmenter jusqu’à 91,72%. La mise en avant du rappel s’accompagne d’un renversement progressif de la pondération vers la méthode MLE (0,3/0,7 dans un premier temps et 0,6/0,4 ensuite), qui démontre donc son apport sur ce point.

Nous avons également évalué, document par document, dans quelle proportion la meilleure méthode combinée (Mix1) offre une f-mesure plus élevée que les deux méthodes de base. Pour MLE, on constate au tableau 2.4 que les résultats restent inchangés pour 56,31% des documents, et que 15,03% subissent une détérioration de la f-mesure (en moyenne -39,21) alors que 28,65% bénéficient d’une meilleure analyse (en moyenne +38,26). Le résultat est donc meilleur ou inchangé pour 84,96% des documents. En ce qui concerne la méthode SVM (voir tableau 2.5), le nombre et la répartition des documents concernés par des variations sont assez semblables. On note cependant une proportion un peu plus grande de documents sans changement (61,78%). Les variations de performances sont un

2.6 Amélioration des résultats par combinaison avec d’autres méthodes 87

peu plus importantes, surtout à la hausse (+49,86 dans 24,74% des cas) mais aussi à la baisse (-40,06 dans 13,48% des cas). Au total, les résultats sont meilleurs ou inchangés pour 86,52% des textes.

On constate que par rapport à MLE, l’augmentation des performances apportée par Mix1 vient prin- cipalement d’une amélioration de la précision. La même comparaison effectuée par rapport à SVM montre au contraire un gain au point de vue rappel. Ces résultats confirment que les deux méthodes présentent des caractéristiques en partie différentes. Par conséquent, leur combinaison permet d’amé- liorer la performance finale du système. Nous avons en effet obtenu des gains significatifs en attei- gnant une f-mesure de 66,08 (+5,06 pour MLE et +6,93 pour SVM).

8 8 2 In d ex a tio n se m i- a u to m a tiq u e, u n e a p p ro ch e sy m b o liq u e d e cl a ss ifi ca tio n d e te xt es

Variation F-mesure Amélioration (>) Egal (=) Déterioration (<) Variation Rappel > = < > = < > = <

Variation Précision > = < > > < = > < < > = < Nb. docs. 1.116 243 47 1.781 10 3 6.257 23 1 541 136 446 553

% 10,00 2,18 0,42 15,96 0,09 0,03 56,08 0,21 0,01 4,85 1,22 4,00 4,96 Total 3.197 (28,65%) 6.283 (56,31%) 1.677 (15,03%)

Variation moyenne 58,09 31,27 14,15 27,57 10,90 n/a n/a n/a 9,53 27,98 15,22 31,00 63,06 f-mesure 38,26 n/a 39,31

Tableau 2.4 : Analyse des variations de performance (> : amélioration, < : déterioration, = : égal) entre la méthode MLE et l’approche Mix1.

Variation F-mesure Amélioration (>) Egal (=) Déterioration (<) Variation Rappel > = < > = < > = <

Variation Précision > = < > > < = > < < > = < Nb. docs. 1.551 880 199 130 0 11 6.882 0 1 1.193 9 36 265

% 13,90 7,89 1,78 1,16 0 0,10 61,68 0 0,01 10,69 0,08 0,32 2,37 Total 2.760 (24,74%) 6.893 (61,78%) 1.504 (13,48%)

Variation moyenne 65,96 32,47 14,56 29,37 0 n/a n/a n/a 5,00 30,81 14,55 31,55 83,85 f-mesure 49,86 n/a 40,06

2.6 Amélioration des résultats par combinaison avec d’autres méthodes 89