Classification supervis´ee de documents - Regroupement de mots pour la classification de docume

5.4 Regroupement de mots pour la classification de documents

5.4.2 Classification supervis´ee de documents

L’élaboration d’un classifieur pour la tâche de classification automatique de documents, nécessite un processus en trois étapes :

1. l’extraction d’attributs pertinents,

2. la phase d’apprentissage `a partir du corpus d’entraˆınement, 3. l’´evaluation du classifieur.

Ces trois étapes, que nous précisons par la suite, constituent chacune un sous-domaine de recherche à part entière [1].

L’extraction d’attributs pertinents

C’est l’étape du processus que nous visons dans cette étude. Vu que l’on cherche à trai-ter des documents relativement à leur contenu (thématique), il est naturel de considérer, comme descripteur de ce contenu, l’unité de base d’un document, à savoir le mot. Ainsi, dans les systèmes de classification automatique de documents, utilisés dans un contexte

14Ce type de procédé est utilisé, par exemple, dans le moteur de recherche www.vivisimo.com. 15En anglais document categorization.

de recherche d’information, chaque document est généralement représenté par un “sac de mots”. Il est évident que beaucoup de mots apparaˆıssant dans un document ne décrivent pas son contenu (e.g. le, a, est, pour, que, etc.), ces mots sont appelés communément “mots vides”. L’extraction des mots pertinents (ou porteurs de sens) constitue alors un premier traitement indispensable et généralement réalisé à l’aide de mesures de fréquences [159] (term frequency, tf×idf, tfc, etc.). Ces mesures se fondent sur les deux principes suivants : – Plus un mot est fréquent dans un document, plus il est pertinent pour décrire la

th´ematique de ce document.

– Plus un mot est fr´equent dans l’ensemble des documents d’une collection, moins il est pertinent pour discriminer les documents entre eux.

On estime que le filtrage, décrit précédemment, revient à réduire de 40 à 50% le voca-bulaire utilisé dans une collection de documents. Malgré tout, l’ensemble des descripteurs reste très grand (souvent plusieurs milliers de mots), ce qui constitue un inconvénient majeur pour les techniques standard de classification (e.g. arbres de décision, algorithmes génétiques, etc.). Ainsi, à partir du constat que la matrice documents×mots est très éparse (beaucoup de 0), différentes stratégies complémentaires ont été envisagées pour réduire la dimension de l’espace de représentation des documents. Les trois principales stratégies utilisées sont :

– La s´election d’attributs : par l’utilisation de mesures de gain d’information ou tests statistiques,

– Le reparam´etrage : par construction de nouveaux attributs obtenus par combinaisons et/ou transformations des attributs initiaux,

– Le regroupement : par utilisation de techniques de clustering pour générer des groupes d’attributs “corrélés”.

Ces trois principes seront précisés dans la section suivante, en nous intéressant plus par-ticulièrement au troisième principe, faisant appel à des méthodes de classification non-supervisées, proches de nos préoccupations.

Les diff´erents classifieurs

Il existe deux types de classifications : automatique ou semi-automatique. On parle de classification automatique lorsque, étant donnés un document d et une classe c, le classi-fieur renvoie une décision binaire sur l’appartenance de d à la classe c (d ∈ c ou d /∈ c). En revanche, une classification semi-automatique revient à apprendre, pour un document d, une liste de scores correspondant, en quelque sorte, aux indices de confiance des faits {d ∈ ci}. Dans les deux cas, on peut résumer le problème de classification à l’apprentissage des fonctions CSV_i (categorization status value) telles que, pour une classe cible c_i :

CSV_i : D → {V rai, F aux} (classification automatique), CSV_i : D → [0, 1] (classification semi-automatique).

Parmi les méthodes de classification automatique de documents, on peut citer, entre autre, les arbres de décision avec l’utilisation, par exemple, de l’algorithme C4.5 [32], les règles de décision avec le système CHARADE [130] ou encore les Machines à Support Vectoriel16

(SVM) [93].

En ce qui concerne les systèmes de classification semi-automatiques, des fonctions CSV de différents types peuvent être apprises :

– Les fonctions probabilistes apprises, par exemple, à l’aide du classifieur na¨ıf de Bayes [156]. Les valeurs obtenues correspondent aux probabilités a priori qu’un document appartienne à une classe donnée.

– Les fonctions basées sur des distances, en utilisant la méthode Rocchio [87] ou d’autres approches du type : classification par “plus proches voisins”. Dans ce cas, la fonction CSV est relative à la “distance” entre un document test, et le(s) représentant(s) de la classe cible.

– Les fonctions de poids issues de méthodes de régression linéaire [188] ou de réseaux de neurones [33]. Dans le premier cas, le problème consiste à apprendre, pour un document d, un vecteur de poids dans lequel chaque composante est associée à une classe, à partir des vecteurs binaires issus des documents d’entraˆınement. Dans la seconde méthode, les mots contenus dans le document d à classer, sont “propagés” dans un réseau pour lequel chaque mot représente un neurone d’entrée et chaque classe, un neurone de sortie. Abusivement, on peut parler de “propagation” du do-cument dans le réseau, suite à laquelle, les valeurs obtenues sur les neurones de sortie déterminent les décisions du classifieurs.

Dans ce tavail, nous étudierons la classification “automatique” des documents par le classifieur na¨ıf de Bayes. Pour simplifier, nous poserons la convention suivante : étant donnés un document test d, et une classe cible c_k, d est classé dans c_k si et seulement si CV S_i(d) est maximale pour i = k. Un document est donc classé dans une seule classe, correspondant à celle dont la probabilité d’appartenance a priori de d est la plus élevée. Le problème de l’évaluation

L’existence de nombreuses mesures d’évaluation pour les classifieurs est révélatrice de la difficulté de cette tâche. En effet, différents cas de figures sont envisageables :

Classification binaire simple : On considère que chaque document est étiqueté par une seule classe, et que le classifieur décide de “la” classe d’appartenance. Dans ce cas, la mesure traditionnelle de justesse¹⁷, déjà utilisée dans le chapitre 3, permet d’évaluer simplement, l’efficacité du classifieur. Rappelons que cette mesure est définie par

J = ^{vp + vn}

vp + vn + f p + f n

où les notations vp, vn, f p et f n désignent respectivement le nombre de “vrais po-sitifs”, de “vrais négatifs”, de “faux positifs” et de “faux négatifs”, définis dans les tables de contingence présentées dans les tableaux 5.7. C’est dans cette situation de classification binaire simple que se placeront nos expérimentations (section 5.4.8). Classification binaire multiple : Chaque document d’entraˆınement est étiqueté par

une ou plusieurs classes, et le classifieur peut décider de l’appartenance d’un docu-ment test à une ou plusieurs classes. On fait alors appel aux mesures de précision et de rappel, traditionnelles en RI. Pour une classe c_i donnée, la précision (P_i) mesure la proportion de documents bien classés parmi ceux classés dans c_i, tandis que le

17Nous utilisons ici le terme “justesse”(en anglais “accuracy”), pour éviter la confusion avec le terme “précision” qui sera utilisé par la suite pour désigner une autre mesure.

Appartenance `a Jugement expert

la Classe ci OUI NON

Jugement OUI vp_i f p_i

classifieur NON f ni vni

Appartenance aux Jugement expert

classes{ci}i=1...m OUI NON

Jugement OUI vp = m X i=1 vpi f p = m X i=1 f pi classifieur NON f n = m X i=1 f ni vn = m X i=1 vni Tab. 5.7 – Tables de contingence pour la classe c_i (gauche) et globale (droite).

rappel (R_i) mesure la proportion de documents classés dans c_i, parmi ceux qui sont effectivement étiquetés c_i.

Pi = ^vpⁱ

vp_i+ f p_i ^; ^Rⁱ ⁼ vp_i vp_i+ f n_i

La précision et le rappel peuvent ensuite être évalués sur l’ensemble des classes c₁, . . . , c_m par l’une ou l’autre des méthodes suivantes :

• micro-pr´ecision/rappel : ˜ P^µ= ^vp vp + f p ^; ^R^˜ µ= ^vp vp + f n • macro-pr´ecision/rappel : ˜ P^M = Pm i=1Pi m ^; ^R^˜ M = Pm i=1Ri m

D’autres critères combinant les notions de précision et de rappel sont proposés ; il s’agit par exemple de la recherche du point d’équilibre (Break-even point) [6] ou de la F_β-mesure [181].

Classification semi-automatique : Chaque document est étiqueté par une ou plusieurs classes et le classifieur renvoie, pour un document test donné, une liste de scores. Pour tenir compte de ces valeurs, [189] propose la mesure de précision moyenne sur 11 points (Eleven-point average precision). Cette mesure considère 11 “seuils” (0.0, 0.1, . . . , 1.0) et calcule pour chacun de ces seuils, la précision et le rappel des classifications binaires, issues des listes de scores seuillées.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 156-159)