Création des classifieurs et protocole d’évaluation

B.1 Cinquante premiers mots les plus fréquents dans le corpus [DIAB_CP], utilisés dans le

4.3 Élaboration d’un système de classification des types de discours scientifique et vulgarisé

4.3.3 Création des classifieurs et protocole d’évaluation

4.3.3.1 Indexation des documents

Nous avons présenté dans la section 4.3.1.4 la phase d’indexation, créant pour chaque document sa représentation vectorielle. Les systèmesC4.5etSVMlightnécessitent un format particulier, présenté dans le tableau 4.10.

Le format requis pour le systèmeSVMlightnécessite : d’indiquer en début de vecteur la classe à laquelle appartient le document, précéder chaque poids de l’indice correspondant au critère. Le dernier élément du vecteur est facultatif, nous avons choisi d’y indiquer le numéro de fichier. Si certains critères ont un poids nul ou que leur calcul n’est pas pertinent, il suffit de les omettre.

Le format requis pour le systèmeC4.5nécessite : d’indiquer en fin de vecteur la classe à laquelle appartient le document, donner les poids de chaque critère (0 si non pertinent), séparés par des virgules. Document d’apprentissage scientifique di +1 1 : w1i2 : w2i. . . n: wni#nomfichier

SVMlight Document d’apprentissage vulgarisé dj −1 1 : w1j 2 : w2j . . . , n: wnj#nomfichier

Document d’évaluation dk 0 1 : w1k 2 : w2k. . . n: wnk#nomfichier

Document d’apprentissage scientifique di w1i, w2i, . . . wni, S

C4.5 Document d’apprentissage vulgarisé dj w1j, w2j, . . . , wnj, V

Document d’évaluation dk w1k, w2k, . . . , wnk, S ou V

Table 4.10 – Formats d’indexation pourSVMlightetC4.5

Exemple :

Le document correspondant au vecteur suivant : sera représenté par la chaîne Fichier Classe Critère 1 Critère 2 Critère 3 Critère 4

filename SC 0.556 0.7 21 2.8 +1 1 : 0.556 2 : 0.7 3 : 21 4 : 2.8#f ilename pourSVMlightet 0.556, 0.7, 21, 2.8, S 4 http://www.rulequest.com/Personal/c4.5r8.tar.gz

pourC4.5.

Pour ces deux systèmes, les vecteurs doivent être stockés dans des fichiers : un fichier pour le corpus d’apprentissage, un pour le corpus de test. Le systèmeC4.5a de plus besoin d’un fichier de description, dans lequel les critères sont succinctement décrits. Le fichier doit débuter par les différentes classes à apprendre :

Scientifique, Vulgarisé

Puis doit suivre la description des critères, où seule la nature (continu ou discret) de chaque critère est nécessaire, par exemple :

format-fichier : html, pdf, ps compte-images : continuous

Une fois les fichiers de description des vecteurs définis, ils peuvent être utilisés afin d’apprendre les classifieurs et les tester.

4.3.3.2 Application des systèmes d’apprentissage

Deux systèmes d’apprentissage sont utilisés :SVMlightetC4.5. Ne disposant au départ que d’un corpus, le corpus [DIAB_CP], nous avons décidé d’utiliser la méthode dite « par validation croisée » (N-

fold cross validation) (Cornuéjols et Miclet, 2002, p. 113). Cette méthode consiste à :

1. Partitionner le corpus en N sous-corpus de tailles égales ;

2. Retenir le iemesous-corpus, apprendre le classifieur sur les N− 1 autres sous-corpus ;

3. Évaluer le classifieur avec le iemesous corpus ; 4. Réitérer les étapes 2 et 3 avec i allant de1 à N .

Nous choisissons N = 5. Les résultats sont alors présentés sous la forme de moyenne sur les cinq classi-

fieurs et le meilleur classifieur (meilleurs rappel et précision) est sélectionné pour la phase d’évaluation. Pour apprendre un classifieur avecSVMlight, il faut utiliser la commande :

./svm_learn [options]fichier-apprentissage svm-classifieur

Les options de la commandesvm_learnsont nombreuses, elles permettent de paramétrer le classifieur. Joachims (2002) a mis en place un réglage de ces paramètres par défaut permettant à de nombreux cas de fonctionner sans paramétrage. Cependant, il arrive que les classifieurs, si les classes sont de taille inégale, classent tous les documents dans la classe la plus importante en taille. Ce problème peut être réglé en paramétrant l’option j. Cette option permet de faire varier le coût des erreurs lors de l’apprentis- sage. Plus de détails sur ces options sont disponibles dans (Joachims, 2002, p. 197).

Le fichier svm-classifieur correspond au classifieur créé, qui peut être par la suite testé en utilisant la commande :

./svm_classify [options]fichier-test svm-classifieur fichier-resultat

Le systèmeC4.5permet d’apprendre un classifieur (et générer un arbre de décision) grâce à la commande :

c4.5 -ffile-id

L’option-fpermet de spécifier un identifiant de fichierfile-id, auquel doivent correspondre : le fichier de description des critères,file-id.names, le fichier d’apprentissagefile-id.data. À partir de ces fichiers sont générés :file-id.unprunedl’arbre de décision non-élagué et

4.3.3.3 Évaluation des classifieurs

Nous choisissons d’évaluer nos classifieurs à l’aide des métriques de rappel et de précision (voir section 4.2.4). Nous souhaitons évaluer nos classifieurs sous différents angles. Dans un premier temps, afin de mettre en œuvre la méthode par validation croisée, chaque sous-corpus doit être testé avec le classifieur correspondant. Dans un second temps, nous souhaitons « mettre à l’épreuve » notre système de classification en le soumettant à un corpus portant sur une autre thématique. Enfin, nous souhaitons utiliser ces systèmes de classification afin de mesurer la pertinence de chacune de nos catégories de critères.

Le chapitre 5 porte sur la phase d’évaluation, les résultats de la classification et leur analyse.

4.4 Conclusion

Nous avons présenté dans la première partie de ce chapitre la méthode d’élaboration d’un système de classification automatique. Celle-ci se déroule en trois étapes : l’indexation des documents, l’apprentissage du classifieur et l’évaluation du classifieur. L’indexation des documents consiste à générer pour chaque document une représentation vectorielle, chaque élément des vecteurs correspondant à la valeur d’un critère. Ces critères peuvent être des fréquences de termes, de patrons lexico-syntaxiques. . . Ces représentations vectorielles sont ensuite utilisées afin qu’un système d’apprentissage automatique ap- prenne à reproduire la classification souhaitée à partir des valeurs des critères. Enfin, le classifieur généré est évalué à l’aide de documents n’ayant pas servi à l’apprentissage. La seconde partie de ce chapitre est consacrée à la mise en œuvre de cette méthode aux classes scientifiques et vulgarisées de domaines spécialisés. Dans un premier temps nous avons présenté la création des représentations vectorielles des documents de notre corpus d’apprentissage ([DIAB_CP]) à l’aide des critères de la typologie présentée

dans le chapitre 3. Ces vecteurs sont ensuite utilisés afin d’apprendre les modèles de classification à l’aide des systèmesSVMlight(machines à vecteurs de support) etC4.5(arbres de décision). Les résultats obtenus par ces classifieurs sont présentés dans le chapitre 5.

CHAPITRE

5

Résultats et évaluation

de la classification

5.1 Introduction

Nous présentons dans ce chapitre l’évaluation des classifieurs dont l’élaboration a été décrite dans le chapitre 4. Nous souhaitons les évaluer d’un point de vue technique : résultats obtenus par chaque classifieurs, mais aussi évaluer quelle influence ont les critères de la typologie sur la classification. Leur apprentissage a été effectué sur le corpus d’apprentissage[DIAB_CP], portant sur le diabète et l’alimen-

tation. Nous les évaluons sur un second corpus, appelé[BC_CP] et portant sur le cancer du sein (décrit

dans la section 5.2). Les résultats de cette évaluation figurent dans la section 5.3. Dans un second temps nous testons la pertinence de chacune des catégories de critères de la typologie dans la section 5.4, ce qui nous permet d’améliorer nos classifieurs en ne conservant que les catégories de critères les plus dis- criminantes. Nous analysons ensuite plus en détails les classifieurs obtenus et l’influence des critères sur la classification (section 5.5). Afin de prouver l’efficacité de notre classification, nous la comparons à une méthode classifique de catégorisation textuelle : la méthode par vecteurs de termes (section 5.6. Nous terminons ce chapitre par une discussion sur l’aspect binaire de la distinction des types de discours scientifique et vulgarisé, dans laquelle nous montrons qu’il existe un continuum entre ces deux classes (section 5.7).

Dans le document Découverte et caractérisation des corpus comparables spécialisés (Page 92-96)