• Aucun résultat trouvé

Depuis de nombreuses ann´ees, les techniques de fouilles de donn´ees ont montr´e qu’elles ´etaient tout `a fait adapt´ees `a des donn´ees textuelles, i.e. Text Mining. Plusieurs tˆaches de fouille de textes existent telles que la recherche d’information, l’extraction d’information ... [IS07]. Dans ce m´emoire, nous nous int´eressons plus particuli`erement aux tˆaches de classification de textes. Dans ce cadre, l’objectif est de classer de fa¸con automatique les documents dans des cat´egories pr´ealablement d´efinies soit par un ex- pert, il s’agit alors de classification supervis´ee ou cat´egorisation, soit de fa¸con automa- tique, il s’agit alors de classification non supervis´ee ou encore clustering [SM83, IT95]. Mˆeme si les premiers travaux sur la classification automatique de textes datent des ann´ees 60 [Mar61], l’explosion du nombre de documents ´electroniques disponibles a mis en ´evidence le besoin de nouvelles m´ethodes efficaces pour traiter de gros volumes de donn´ees [Seb02, Yan99, JAM03]. Les r´esultats obtenus sont utiles pour d’autres tˆaches de fouille de textes.

Dans ce chapitre, nous nous int´eressons plus particuli`erement `a la cat´egorisation de documents c’est-`a-dire aux approches de classifications supervis´ees. La plupart des ap- proches de cat´egorisation existantes reposent sur des m´ethodes consid´er´ees comme des approches statistiques [Seb02] telles que les SVM (Support Vector Machines) [SV95, Joa98]. N´eanmoins, mˆeme si leurs performances, en terme de classification, sont int´eressantes, aucune de ces m´ethodes ne fournit un r´esultat compr´ehensible de la connaissance extraite et surtout r´e-utilisable. Pour r´esoudre ce probl`eme, une approche de classification bas´ee sur les r`egles d’association a ´et´e initialement pro- pos´ee par Bing Liu (CBA) [LHM98]. Cependant, les performances comme classi- fieur n’´etaient pas tr`es satisfaisantes et de nouvelles extensions ont ´et´e propos´ees [WZH00, LHP01, JWB+03, BG03].

Bas´ees sur des itemsets, ces m´ethodes consid`erent les textes comme des sacs de mots o`u aucun ordre n’est pris en compte lors du processus de classification. Dans ce chapitre, nous nous posons la question de l’utilisation des motifs s´equentiels obtenus `a partir de bases de documents de type textuel et en particulier dans un objectif de classification automatique. Nous souhaitons ainsi r´epondre aux questions suivantes : Quelles sont les avantages offerts en adoptant les motifs s´equentiels dans un objectif de cat´egorisation ? Quelles sont les limites inh´erentes `a une telle approche ?

Ce chapitre est organis´e de la fa¸con suivante. La section 6.2 pr´esente les princi- pales techniques de recherche de motifs par cat´egorisation. Nous pr´esentons dans la section 6.3, une nouvelle approche pour la cat´egorisation de documents appel´ee SPac (Sequential PAtterns for Categorization). Au cours de la section 6.4, nous revenons sur le double probl`eme de repr´esentations des donn´ees qui sont d’une part celle des documents et d’autre part celles des cat´egories qui sont associ´ees. L’id´ee dans ce cas est de pouvoir comparer la ”s´emantique” des textes et des cat´egories (d´eduite des ou de la m´ethode(s) d’apprentissage utilis´ee(s)). Nous concluons cette partie par une discussion.

6.2

Le point

La fouille de textes a ´et´e tr`es ´etudi´ee [LAS97, AMS97, AJS00, Seb02]. Notre objectif dans cette section est de se focaliser sur la classification de textes et les motifs fr´equents.

6.2. LE POINT 59

Classification bas´ee sur les r`egles d’association : la m´ethode CBA

Dans [LHM98], la m´ethode CBA bas´ee sur les r`egles d’association est propos´ee. CBA est compos´ee de deux modules, un g´en´erateur de r`egles (CBA-RG) bas´e sur l’algorithme Apriori et un constructeur de classifieur bas´e sur les r`egles pr´ec´edemment obtenues (CBA-CB).

Le g´en´erateur de r`egles CBA-RG

Il s’agit de trouver toutes les paires ρ =< conset, Ci>, avec conset une liste d’items

et Ci une cat´egorie, dont le support est sup´erieur au support minimum. Chaque paire

ρ correspond `a une r`egle condset → Cidont le support et la confiance sont d´efinis par :

supp(ρ) = #textes de Ci supportant condset

#textes de la base

conf (ρ) = #textes de Ci supportant condset

#textes de la base supportant condset

Les paires dont le support est sup´erieur au support minimum sont des paires fr´equentes. Si deux paires ont le mˆeme ensemble d’items, alors la paire ayant la confiance la plus ´elev´ee sera choisie comme r`egle. L’ensemble des r`egles d’association pour les cat´egories (CARs) est constitu´e de toutes les r`egles dont le support et la confiance sont sup´erieurs au support minimum et `a la confiance minimum sp´ecifi´es par l’utilisateur.

Les motifs fr´equents sont extraits en utilisant une unique valeur pour le support mi- nimum quelle que soit la cat´egorie. Or, toutes les cat´egories ne contiennent pas le mˆeme nombre de documents. Un support minimum ´elev´e ne permettra pas de trouver de mo- tifs fr´equents pour les petites cat´egories et `a l’oppos´e, un support trop ´elev´e va conduire `a la g´en´eration d’un nombre trop important de r`egles pour les cat´egories contenant de nombreux textes. C’est pourquoi d’autres travaux ont propos´e d’utiliser des va- leurs de support minimum adapt´ees `a chaque cat´egorie (msCBA) [JWB+03, LMW00].

Les r`egles sont alors extraites en adoptant une strat´egie de supports minimums mul- tiples d´efinis en ad´equation avec la fr´equence de distribution de chaque cat´egorie et un support minimum initial donn´e par l’utilisateur :

minSupCi= minSupintial∗ f requenceDistribution(Ci)

Le constructeur de classifieur CBA-CB

Soit R l’ensemble des r`egles CARs obtenues lors de l’´etape pr´ec´edente et TT rainle

jeu d’entraˆınement, le cat´egoriseur est construit `a partir de la liste des r`egles ri ∈ R

ordonn´ees suivant leur confiance. Chaque r`egle est ensuite test´ee sur TT rain. Si la r`egle

n’am´eliore pas le taux d’apprentissage du classifieur, alors la r`egle est ´elimin´ee de la liste des r`egles pour la cat´egorie examin´ee. L’algorithme 7 d´etaille le processus de construction du cat´egoriseur.

Le cat´egoriseur obtenu est une liste du type : < (r1, r2, ..., rk), Ci>

o`u Ci est la cat´egorie cible et rj une des r`egles associ´ees.

Une fois le cat´egoriseur obtenu, pour tout nouveau texte `a classer, les r`egles de classification sont ´evalu´ees sur le document tant qu’aucune r`egle n’est support´ee. La cat´egorie affect´ee est alors la cat´egorie cible de la r`egle de classification ayant ´et´e valid´ee pour le texte.

60 CHAPITRE 6. DONN ´EES TEXTUELLES begin R=tri(R); foreach r`egle r ∈ R do temp ← ∅ ; foreach texte d ∈ D do if d valide r then

temp ← tempS d.id et marquer r si d a ´et´e bien class´e ; if r est marqu´e then

ajouter r dans C ; D ← D\temp ;

choisir une cat´egorie pour C ; calculer le taux d’erreur de C ;

trouver la 1`ere r`egle p ∈ C minimisant le taux d’erreur et effacer toutes les r`egles apr`es p;

retourner C; end

Algorithme 7:Construction du cat´egoriseur CBA-CB

Am´eliorations et autres approches

Dans [JWB+03], les auteurs proposent de remplacer la mesure de confiance par

l’intensit´e d’implication comme crit`ere de tri des r`egles lors de la construction du classifieur. Dans [ea01], le classifieur est am´elior´e en lui adjoignant des arbres de d´ecision afin d’am´eliorer le taux d’apprentissage. Dans [AMS97], les r`egles d’associa- tion sont utilis´ees pour permettre une classification partielle, c’est-`a-dire que le syst`eme ne permet pas de classer pour toutes les cat´egories. En particulier, cette approche est int´eressante dans le cas de valeurs manquantes. [BG03] propose ´egalement une m´ethode de classification bas´ee sur les r`egles d’association mais contrairement `a CBA-CB qui ne tient compte d’une seule r`egle pour prendre la d´ecision d’affectation d’un texte `a une cat´egorie, les auteurs proposent de consid´erer plusieurs r`egles puis d’adopter la cat´egorie majoritaire. Cette m´ethode int`egre une ´etape d’´elagage de r`egles bas´ee sur le χ2, comme dans [LHP01]. De plus, un param`etre maxrules d´efinit le nombre maximal

de r`egles `a v´erifier lors de l’´etape de classification de nouveaux textes. Pour am´eliorer les performances, les r`egles sont class´ees par niveau, le syst`eme ´etudiera les r`egles du niveau sup´erieur si et seulement si aucune r`egle de classification n’a pu ˆetre mise en œuvre au niveau inf´erieur. Le syst`eme a ´et´e am´elior´e dans [BCG04] en consid´erant une strat´egie de supports minimums multiples.

Nous pouvons ´egalement citer d’autres travaux connexes. [Had03] propose une m´ethode bas´ee sur les r`egles d’association dans le cadre de l’extraction de syntagmes nominaux. Dans ses travaux, l’auteur montre que les r`egles d’association sont tr`es int´eressantes pour rendre compte de la structure linguistique des textes. Cependant, les r´egles obtenues ne sont pas utilis´ees pour cat´egoriser les textes. [Mas03] propose une m´ethode de cat´egorisation pour l’analyse de comportements d’utilisateur de sites web (web usage mining) `a l’aide de motifs s´equentiels et de r´eseaux de neurones. Les motifs s´equentiels sont utilis´es pour diviser it´erativement la base de donn´ees (logs) en sous-logs (eux-mˆemes redivis´es) repr´esentant chacun un comportement diff´erent. Les r´eseaux de neurones permettent de composer les groupes selon les motifs s´equentiels trouv´es. Cette m´ethode, bien qu’int´eressante, n’est pas bas´ee sur les motifs s´equentiels

6.3. VERS UNE CAT ´EGORISATION PAR MOTIF S ´EQUENTIELS : SPAC 61

Dans le document Autour et alentours des motifs séquentiels (Page 59-62)