• Aucun résultat trouvé

5.4 Regroupement de mots pour la classification de documents

5.4.2 Classification supervis´ee de documents

L’´elaboration d’un classifieur pour la tˆache de classification automatique de documents, n´ecessite un processus en trois ´etapes :

1. l’extraction d’attributs pertinents,

2. la phase d’apprentissage `a partir du corpus d’entraˆınement, 3. l’´evaluation du classifieur.

Ces trois ´etapes, que nous pr´ecisons par la suite, constituent chacune un sous-domaine de recherche `a part enti`ere [1].

L’extraction d’attributs pertinents

C’est l’´etape du processus que nous visons dans cette ´etude. Vu que l’on cherche `a trai-ter des documents relativement `a leur contenu (th´ematique), il est naturel de consid´erer, comme descripteur de ce contenu, l’unit´e de base d’un document, `a savoir le mot. Ainsi, dans les syst`emes de classification automatique de documents, utilis´es dans un contexte

14Ce type de proc´ed´e est utilis´e, par exemple, dans le moteur de recherche www.vivisimo.com. 15En anglais document categorization.

de recherche d’information, chaque document est g´en´eralement repr´esent´e par un “sac de mots”. Il est ´evident que beaucoup de mots apparaˆıssant dans un document ne d´ecrivent pas son contenu (e.g. le, a, est, pour, que, etc.), ces mots sont appel´es commun´ement “mots vides”. L’extraction des mots pertinents (ou porteurs de sens) constitue alors un premier traitement indispensable et g´en´eralement r´ealis´e `a l’aide de mesures de fr´equences [159] (term frequency, tf×idf, tfc, etc.). Ces mesures se fondent sur les deux principes suivants : – Plus un mot est fr´equent dans un document, plus il est pertinent pour d´ecrire la

th´ematique de ce document.

– Plus un mot est fr´equent dans l’ensemble des documents d’une collection, moins il est pertinent pour discriminer les documents entre eux.

On estime que le filtrage, d´ecrit pr´ec´edemment, revient `a r´eduire de 40 `a 50% le voca-bulaire utilis´e dans une collection de documents. Malgr´e tout, l’ensemble des descripteurs reste tr`es grand (souvent plusieurs milliers de mots), ce qui constitue un inconv´enient majeur pour les techniques standard de classification (e.g. arbres de d´ecision, algorithmes g´en´etiques, etc.). Ainsi, `a partir du constat que la matrice documents×mots est tr`es ´eparse (beaucoup de 0), diff´erentes strat´egies compl´ementaires ont ´et´e envisag´ees pour r´eduire la dimension de l’espace de repr´esentation des documents. Les trois principales strat´egies utilis´ees sont :

– La s´election d’attributs : par l’utilisation de mesures de gain d’information ou tests statistiques,

– Le reparam´etrage : par construction de nouveaux attributs obtenus par combinaisons et/ou transformations des attributs initiaux,

– Le regroupement : par utilisation de techniques de clustering pour g´en´erer des groupes d’attributs “corr´el´es”.

Ces trois principes seront pr´ecis´es dans la section suivante, en nous int´eressant plus par-ticuli`erement au troisi`eme principe, faisant appel `a des m´ethodes de classification non-supervis´ees, proches de nos pr´eoccupations.

Les diff´erents classifieurs

Il existe deux types de classifications : automatique ou semi-automatique. On parle de classification automatique lorsque, ´etant donn´es un document d et une classe c, le classi-fieur renvoie une d´ecision binaire sur l’appartenance de d `a la classe c (d ∈ c ou d /∈ c). En revanche, une classification semi-automatique revient `a apprendre, pour un document d, une liste de scores correspondant, en quelque sorte, aux indices de confiance des faits {d ∈ ci}. Dans les deux cas, on peut r´esumer le probl`eme de classification `a l’apprentissage des fonctions CSVi (categorization status value) telles que, pour une classe cible ci :

CSVi : D → {V rai, F aux} (classification automatique), CSVi : D → [0, 1] (classification semi-automatique).

Parmi les m´ethodes de classification automatique de documents, on peut citer, entre autre, les arbres de d´ecision avec l’utilisation, par exemple, de l’algorithme C4.5 [32], les r`egles de d´ecision avec le syst`eme CHARADE [130] ou encore les Machines `a Support Vectoriel16

(SVM) [93].

En ce qui concerne les syst`emes de classification semi-automatiques, des fonctions CSV de diff´erents types peuvent ˆetre apprises :

– Les fonctions probabilistes apprises, par exemple, `a l’aide du classifieur na¨ıf de Bayes [156]. Les valeurs obtenues correspondent aux probabilit´es a priori qu’un document appartienne `a une classe donn´ee.

– Les fonctions bas´ees sur des distances, en utilisant la m´ethode Rocchio [87] ou d’autres approches du type : classification par “plus proches voisins”. Dans ce cas, la fonction CSV est relative `a la “distance” entre un document test, et le(s) repr´esentant(s) de la classe cible.

– Les fonctions de poids issues de m´ethodes de r´egression lin´eaire [188] ou de r´eseaux de neurones [33]. Dans le premier cas, le probl`eme consiste `a apprendre, pour un document d, un vecteur de poids dans lequel chaque composante est associ´ee `a une classe, `a partir des vecteurs binaires issus des documents d’entraˆınement. Dans la seconde m´ethode, les mots contenus dans le document d `a classer, sont “propag´es” dans un r´eseau pour lequel chaque mot repr´esente un neurone d’entr´ee et chaque classe, un neurone de sortie. Abusivement, on peut parler de “propagation” du do-cument dans le r´eseau, suite `a laquelle, les valeurs obtenues sur les neurones de sortie d´eterminent les d´ecisions du classifieurs.

Dans ce tavail, nous ´etudierons la classification “automatique” des documents par le classifieur na¨ıf de Bayes. Pour simplifier, nous poserons la convention suivante : ´etant donn´es un document test d, et une classe cible ck, d est class´e dans ck si et seulement si CV Si(d) est maximale pour i = k. Un document est donc class´e dans une seule classe, correspondant `a celle dont la probabilit´e d’appartenance a priori de d est la plus ´elev´ee. Le probl`eme de l’´evaluation

L’existence de nombreuses mesures d’´evaluation pour les classifieurs est r´ev´elatrice de la difficult´e de cette tˆache. En effet, diff´erents cas de figures sont envisageables :

Classification binaire simple : On consid`ere que chaque document est ´etiquet´e par une seule classe, et que le classifieur d´ecide de “la” classe d’appartenance. Dans ce cas, la mesure traditionnelle de justesse17, d´ej`a utilis´ee dans le chapitre 3, permet d’´evaluer simplement, l’efficacit´e du classifieur. Rappelons que cette mesure est d´efinie par

J = vp + vn

vp + vn + f p + f n

o`u les notations vp, vn, f p et f n d´esignent respectivement le nombre de “vrais po-sitifs”, de “vrais n´egatifs”, de “faux positifs” et de “faux n´egatifs”, d´efinis dans les tables de contingence pr´esent´ees dans les tableaux 5.7. C’est dans cette situation de classification binaire simple que se placeront nos exp´erimentations (section 5.4.8). Classification binaire multiple : Chaque document d’entraˆınement est ´etiquet´e par

une ou plusieurs classes, et le classifieur peut d´ecider de l’appartenance d’un docu-ment test `a une ou plusieurs classes. On fait alors appel aux mesures de pr´ecision et de rappel, traditionnelles en RI. Pour une classe ci donn´ee, la pr´ecision (Pi) mesure la proportion de documents bien class´es parmi ceux class´es dans ci, tandis que le

17Nous utilisons ici le terme “justesse”(en anglais “accuracy”), pour ´eviter la confusion avec le terme “pr´ecision” qui sera utilis´e par la suite pour d´esigner une autre mesure.

Appartenance `a Jugement expert

la Classe ci OUI NON

Jugement OUI vpi f pi

classifieur NON f ni vni

Appartenance aux Jugement expert

classes{ci}i=1...m OUI NON

Jugement OUI vp = m X i=1 vpi f p = m X i=1 f pi classifieur NON f n = m X i=1 f ni vn = m X i=1 vni Tab. 5.7 – Tables de contingence pour la classe ci (gauche) et globale (droite).

rappel (Ri) mesure la proportion de documents class´es dans ci, parmi ceux qui sont effectivement ´etiquet´es ci.

Pi = vpi

vpi+ f pi ; Ri = vpi vpi+ f ni

La pr´ecision et le rappel peuvent ensuite ˆetre ´evalu´es sur l’ensemble des classes c1, . . . , cm par l’une ou l’autre des m´ethodes suivantes :

• micro-pr´ecision/rappel : ˜ Pµ= vp vp + f p ; R˜ µ= vp vp + f n • macro-pr´ecision/rappel : ˜ PM = Pm i=1Pi m ; R˜ M = Pm i=1Ri m

D’autres crit`eres combinant les notions de pr´ecision et de rappel sont propos´es ; il s’agit par exemple de la recherche du point d’´equilibre (Break-even point) [6] ou de la Fβ-mesure [181].

Classification semi-automatique : Chaque document est ´etiquet´e par une ou plusieurs classes et le classifieur renvoie, pour un document test donn´e, une liste de scores. Pour tenir compte de ces valeurs, [189] propose la mesure de pr´ecision moyenne sur 11 points (Eleven-point average precision). Cette mesure consid`ere 11 “seuils” (0.0, 0.1, . . . , 1.0) et calcule pour chacun de ces seuils, la pr´ecision et le rappel des classifications binaires, issues des listes de scores seuill´ees.