• Aucun résultat trouvé

Chapitre IV. Représentations de corpus documentaires et techniques de classification

2. Les techniques de classification

2.8. Mesure de performance

Afin de valider correctement la procédure de classification, nous utilisons des mesures de performances sur les résultats de la classification.

L’efficacité peut se définir selon plusieurs critères. Les deux critères généralement utilisés pour évaluer un processus de catégorisation sont : la précision et le rappel.

Nous allons donner une définition formelle de ces deux mesures. Pour cela nous allons définir les quatre notions suivantes pour une classe i :

- VPi est l’ensemble des textes de la classe i bien classés ;

- FPi est l’ensemble des textes assignés par erreur à la classe i ;

- FNi est l’ensemble des textes de la classe i non classés i par le classifieur ;

- VNi est l’ensemble des textes n’appartenant pas à la classe i et identifiés comme tels.

On peut visualiser ces notions sur le tableau suivant :

Classement de l’Expert Classe i

VRAI FAUX

POSITIF VPi FPi

Classement

du Système NEGATIF FNi VNi Tableau IV-1 : les quatre possibilités d’un classifieur

Chapitre IV - Représentations de corpus documentaires et techniques de classification

2.8.1. Précision

La précision est, pour une classe, parmi tous les documents que le système a attribués à cette classe ceux que l’expert a confirmé appartenir à cette classe. Dit autrement cette mesure indique la capacité du classifieur à classer correctement les documents.

Formellement la précision s’exprime de la façon suivante : = +

i

VPi P

VPi FPi IV-10

Ce ratio permet de savoir en particulier si le classifieur, quand il classifie des documents, n’affecte pas trop de documents à une classe par erreur.

2.8.2. Rappel

Le rappel est, pour une classe, le rapport entre le nombre de documents attribués à la classe par le système sur le nombre de documents que l’expert a attribués à la classe. Dit autrement cette mesure indique la capacité du classifieur à classer correctement l'intégralité des documents.

Formellement le rappel s’exprime de la façon suivante : = +

i

VPi R

VPi FNi IV-11

Le rappel permet de savoir si le classifieur est performant dans sa capacité à extraire de l’ensemble des documents ceux qui sont attribués à la classe en cours d’analyse tout en ayant peu d’oublis.

2.8.3. Notion de pertinence

La pertinence est la capacité du classifieur à bien classer les éléments qui lui sont soumis. C’est la somme du nombre de documents attribués à chaque classe par le système sur le nombre de documents que l’expert a attribués à chaque classe.

Formellement la pertinence s’exprime de la façon suivante : + = + + + i VPi VNi Pt

VPi FNi FPi VNi IV-12

2.8.4. F-Mesure

Une fois définie les deux notions de rappel et de précision, plusieurs indicateurs de synthèse ont été imaginés. Le plus couramment employé est la F-Mesure ou F-beta de [Rijsbergen, 1979] : β (β22 1) β + = + i i i i i PR F P R IV-13

Cette mesure fusionne précision et rappel et donne une évaluation de synthèse de la classification. Le coefficient β indique le poids que l’on souhaite donner à la précision par rapport au rappel.

2.8.5. F score

Le Fscore est la mesure F-beta vue au paragraphe précédent en attribuant 1 au paramètre β, soit la mesure suivante [Rijsbergen, 1979] :

1 2 i i i i i PR F P R = + IV-14

Chapitre IV - Représentations de corpus documentaires et techniques de classification Lorsque β vaut 1, le F-score est la moyenne harmonique de la précision et du rappel. Pour que le F-score soit important les deux composantes doivent être importantes. Cette mesure est fréquemment utilisée quand il est important d’avoir un équilibre entre précision et rappel. Dans notre problématique, nous aurons souvent des classifieurs à deux classes comme nous le verrons dans le chapitre suivant. Ainsi, un candidat sera affecté à l’une ou l’autre classe. De ce fait, une faible précision sur l’une des classes donnera un faible rappel sur l’autre classe et réciproquement. Il est donc important dans notre cas d’avoir une mesure qui donne une égale importance à la précision et au rappel. Nous retiendrons donc la valeur β =1 pour évaluer la performance de nos classifieurs.

Des aménagements à la mesure F-score peuvent être envisagés pour affiner et augmenter l’exigence de résultat de la classification [Nakache et al., 2005]. Le F-score est une mesure largement employée qui permet de comparer les approches sur des benchmarks.

3. Conclusion

L’objectif que nous nous sommes fixés à la fin du chapitre précédent consiste à extraire d’un corpus documentaire des connaissances actionnables. Ces CAs sont structurées conformément à une grille d’évaluation multicritère : une CA est donc indexée par l’alternative ϕet le critère d’évaluation

α

auxquels elle se rapporte. Par ailleurs, la CA est porteuse d’un score ρ qui n’est autre que la transcription numérique du commentaire de la CA, lui-même exprimant un jugement de valeur quant à la satisfaction du critère

α

par l’alternative ϕ : il s’agit donc de mettre en correspondance un jugement de valeur en langage naturel avec une échelle numérique (discrète). Ces deux points peuvent être interprétés comme des problèmes de classification dans le domaine du traitement automatique du langage naturel (TALN). Nous aurons donc recours aux outils de ce chapitre pour résoudre les problèmes de TALN que soulève notre problématique. Finalement, les classifieurs permettront d’indexer le corpus des connaissances utiles à la décision par ces caractéristiques (ϕ,

α

, ρ) et il sera alors possible d’avoir un accès direct aux CAs pour raisonner un choix, justifier d’une préférence.

Dans le chapitre qui suit nous revenons plus en détail sur les choix retenus tant pour la représentation des connaissances que pour la classification. La représentation vectorielle des documents dans un espace de mots-clés est le modèle de base que nous avons retenu. Comme nous l’avons signalé, les espaces engendrés par les mots-clés ne sont généralement pas viables de par leur dimension excessive. La spécificité de notre problématique nous a permis de construire les filtres adéquats pour diminuer significativement l’espace de représentation du corpus documentaire.

Si l’on prend l’exemple de la classification de dépêches selon des rubriques comme le cinéma, le sport ou l’économie, les catégories thématiques sont « très éloignées », les méthodes SMART, LSA, les vecteurs conceptuels se prêtent bien à la résolution d’un tel problème [Jaillet et al., 2004]. Dans notre problématique, les catégories ne sont pas aussi démarquées les unes des autres. Les critères d’évaluation (si l’on reprend l’exemple du cinéma : scénario, réalisation, etc.) sont des concepts qui peuvent être sémantiquement beaucoup plus proches que ne le sont « cinéma » et « économie » ; ce qui demande une granularité de description plus fine que le thésaurus des vecteurs conceptuels. Aucune des méthodes que nous avons exposées dans ce chapitre n’a donné de résultats concluants sur notre problématique. Dans le chapitre qui suit, nous nous efforçons donc de montrer quels ont été les compromis retenus pour borner l’espace de représentation tout en proposant une granularité de description suffisamment fine pour modéliser des notions thématiques voisines (nos critères).

Chapitre V.

Extraction automatisée de CAs dans un processus