• Aucun résultat trouvé

4.6 Vue g´en´erale de la m´ethode

4.6.2 Complexit´e de la m´ethode globale

On peut distinguer deux types de complexit´es : la complexit´e en temps et la complexit´e en espace. Cette derni`ere correspond `a l’espace de stockage n´ecessaire `a l’algorithme. Complexit´e en temps

La complexit´e en temps, de la m´ethode, d´epend des trois principales ´etapes de l’algo-rithme :

Similarit´e : pour calculer la matrice de similarit´e, nous devons d’abord tester si chaque exemple est couvert ou non par chaque clause du langageL. Cette ´evaluation n´ecessite donc (|E+| + |E|) ∗ |L| tests de couverture ; la similarit´e est ensuite calcul´ee pour chaque paire d’exemples positifs, ce qui n´ecessite|E+|2∗ |L| op´erations.

Clustering : l’utilisation de l’algorithme PoBOC d´etermine la complexit´e de cette ´etape, n´ecessitant alors au plus k.|E+|2 op´erations, o`u k est le nombre de groupes obtenus. Construction des clauses : la complexit´e de l’approche gloutonne est r´eduite par la

restriction de l’espace de recherche.

Complexit´e en espace

La complexit´e en espace est d´etermin´ee par le nombre d’exemples positifs, puisque nous devons calculer une matrice de similarit´e de taille|E+| × |E+|. Si |E+| est trop important (plus de 1000 exemples), on peut utiliser un ´echantillon de cet ensemble : le nombre d’exemples positifs n´ecessaires d´epend principalement du nombre de clauses apprises. Par exemple, supposons que le concept cible puisse ˆetre caract´eris´e par 10 clauses, avec 1000 exemples positifs, nous avons encore une moyenne de 100 exemples par groupe.

4.6.3 Exp´erimentations

Nous proposons, dans cette section, quelques exp´erimentations de notre approche : nous testons la m´ethode d’apprentissage par d´ecomposition avec PoBOC, sur des exemples pour lesquels une d´ecomposition “naturelle” en sous-concepts est connue.

Exemple 1 : sous-concepts non-disjoints I (suite)

La premi`ere exp´erimentation concerne l’exemple 4.4.3. Si on utilise la matrice de simi-larit´e w simα par rapport au langage L propos´e dans l’exemple 4.4.3, nous obtenons des matrices de similarit´e proches de celles pr´esent´ees dans l’exemple. Avec la premi`ere ma-trice nous obtenons les deux sous-concepts attendus{p(a), p(b)} et {p(c), p(d)} ; la seconde matrice donne ´egalement les 2 sous-concepts attendus{p(a), p(b), p(e)} et {p(e), p(c), p(d)} (p(e) appartient aux deux sous-concepts).

Or, comme nous l’avons d´ej`a montr´e, ces deux sous-concepts sont facilement ca-ract´eris´es par un algorithme glouton. Les deux clauses obtenues sont celles attendues :

C1 : p(X)← r(X), s(X), C2 : p(X)← t(X), u(X).

Exemple 2 : description num´erique (suite)

La seconde exp´erimentation concerne l’exemple 4.4.4. Si on consid`ere la similarit´e associ´ee au langage L1 = [ v=1...6 (p(X)← x(X, Y ), ≥ (Y, v)) ∪ [ v=1...6 (p(X)← y(X, Y ), ≥ (Y, v)),

on obtient les sous-concepts attendus : {p(a), p(b), . . . , p(d)} et {p(e), p(f), . . . , p(j)}. Si on consid`ere `a pr´esent la similarit´e associ´ee au langage L2 contenant toutes les clauses ayant p(X) comme tˆete et au plus deux litt´eraux dans le corps, l’algorithme de clustering renvoie un r´esultat diff´erent ; les groupes obtenus sont :

G1={p(a), p(b), p(c), p(d)} G2 ={p(e), p(f), p(g), p(i)} G3={p(g), p(h), p(i), p(j)} L’explication est bas´ee sur la diff´erence entre les deux langages L1 et L2 : la clause p(X)← x(X, Y ), y(X, Y ) appartient `a L2 mais non `a L1. Cette clause est correcte puis-qu’elle couvre 4 exemples positifs : {p(a), p(d), p(h), p(i)} et aucun exemple n´egatif. Elle est donc pond´er´ee par 1 dans L2. La cons´equence est que la similarit´e entre p(h) et p(i) est augment´ee et que, par exemple, la similarit´e entre p(e) et p(h) est r´eduite.

Cet exemple montre que lorsque diff´erentes d´ecompositions peuvent exister, cela peut induire une fragmentation de certains sous-concepts (particuli`erement quand le nombre d’exemples est faible). Pour cette raison, le r´esultat de notre algorithme de pseudo-partitionnement est compl´et´e par une ´etape de hi´erarchisation des clusters obtenus, avant d’apprendre une d´efinition. Dans cet exemple, G2et G3 sont les groupes les plus similaires, le r´esultat de la hi´erarchisation est alors :

E+ divis´e en G1 et G2,3, G2,3 divis´e en G2 et G3

Exemple 3 : Ancˆetres (suite)

Sur l’ensemble complet, constitu´e de 56 exemples positifs, notre algorithme de cluste-ring produit trois groupes disjoints :

G1 : ce groupe correspond `a l’ensemble{ancˆetre(Xi, Yi)|Xi est le p`ere de Yi} G2 : ce groupe correspond `a l’ensemble{ancˆetre(Xi, Yi)|Xi est la m`ere de Yi} G3 : ce groupe contient tous les autres exemples.

Les groupes les plus similaires sont G2 et G3, mais aucune clause caract´erisant G2∪ G3 ne peut ˆetre trouv´ee. L’algorithme tente alors de construire une caract´erisation pour G1, G2 et G3. Une clause est apprise pour G1et pour G2, mais non pour G3. Ensuite, l’algorithme de clustering est appliqu´e sur le groupe G3, produisant deux groupes disjoints associ´es aux d´efinitions r´ecursives suivantes :

ancˆetre(X, Y )← p`ere(X, Z), ancˆetre(Z, Y ), ancˆetre(X, Y )← m`ere(X, Z), ancˆetre(Z, Y ).

Finalement, la d´ecomposition aura produit 4 groupes, correspondant `a la d´efinition usuelle d’ancˆetre.

Exemple 5 : sous-concepts non-disjoints II

Le dernier exemple est introduit pour tester la capacit´e de l’algorithme `a construire des groupes non-disjoints. Consid´erons un graphe contenant deux types d’arˆetes r et s. Dans la base de connaissances, l’atome clos r(a, b) (resp. s(a, b)), exprime le fait qu’une arˆete de type r (resp. s), existe entre a et b. Cette base de connaissances contient l’ensemble suivant d’atomes clos, list´es et repr´esent´es graphiquement dans la figure 4.10.

base de connaissance : {r(b, f), r(b, g), r(f, l), r(g, m), r(k, r), r(l, o), r(m, p), r(m, o), r(j, n),

r(a, f ), r(e, k), s(a, f ), s(e, k), s(j, n), s(c, g), s(c, h), s(c, i), s(d, i), s(d, j), s(h, m), s(h, n), s(i, n), s(n, q), s(h, l)} f g l o b m h c d j i n q a p e k r liaisons de type r liaisons de type s

Fig. 4.10 – base de connaissance (`a gauche) et repr´esentation graphique (`a droite). Le concept cible est le concept li´es, tel que li´es(X, Y ) est vrai si un chemin existe de X `a Y (quelque soit la nature des arcs). Pour calculer la similarit´e entre deux exemples, on

consid`ere le langage contenant toutes les clauses ayant li´es(X, Y ) comme tˆete, et au plus deux litt´eraux dans le corps. Dans cet exemple, il existe des sommets li´es par diff´erents chemins. A partir de l’ensemble des 44 exemples positifs, l’algorithme de clustering produit 5 groupes G1, G2, G3, G4 et G5.

– G1 et G2 ont trois exemples en commun : G1 est d´efini par li´es(X, Y ) ← r(X, Y ), et G2 est d´efini par li´es(X, Y )← s(X, Y ). Il existe exactement trois exemples reli´es directement par les deux types d’arˆetes r et s (li´es(a, f ),li´es(e, k) et li´es(j, n)). G1

et G2 ne partagent pas d’autres objets avec les autres groupes.

– G4et G5 ont un exemple en commun, et ces groupes sont les plus similaires. G4∪ G5

est caract´eris´e par la clause li´es(X, Y )← s(X, Z), li´es(Z, Y ).

– G3 ne partage aucun exemple avec d’autres groupes. Il est d´efini par la clause r´ecursive li´es(X, Y )← r(X, Z), li´es(Z, Y ) et G3 contient tous les exemples couverts par cette clause, `a l’exception de certains exemples, qui sont ´egalement couverts par la clause r´ecursive li´es(X, Y )← s(X, Z), li´es(Z, Y ).

Dans cet exemple, les intersections entre les groupes ne sont pas aussi importantes que l’on pourrait s’y attendre. Ceci est dˆu, principalement, aux sp´ecificit´es qui augmentent la similarit´e entre certains exemples et r´eduisent la possibilit´e pour certains exemples d’ˆetre affect´es (dans l’algorithme PoBOC) `a plusieurs pˆoles, puisque cette fonction d’affectation est bas´ee sur les similarit´es relatives. Cependant, il est pr´ef´erable d’obtenir des groupes “in-complets” puisque pour chaque groupe, on tente d’apprendre une unique clause. Ainsi, la d´ecomposition obtenue sur cet exemple est pertinente et permet de produire une d´efinition satisfaisante du concept li´es.

4.7 Conclusion

Dans ce chapitre, nous avons montr´e qu’il ´etait possible d’´etendre le syst`eme RuLe-Clust, `a l’apprentissage de r`egles logiques. Cette extension n´ecessite cependant de sp´ecifier un langage de description adapt´e pour d´efinir une mesure de similarit´e pertinente sur ce type d’objets. Cette mesure a ´et´e ´evalu´ee et valid´ee sur la base Mutag´en`ese, faisant r´ef´erence dans le domaine de la programmation logique inductive.

La phase de d´ecomposition utilise l’algorithme PoBOC, qui a pu ˆetre ´evalu´e sur quatre exemples pour lesquels une organisation naturelle des exemples positifs du concept cible, ´etait connue. Sur chacun des exemples, PoBOC s’est r´ev´el´e ˆetre performant, tant du point de vue du nombre de groupes retourn´es, que de la constitution mˆeme de ces groupes et des intersections propos´ees.

Sur la base Mutag´en`ese, PoBOC n’a pu ˆetre test´e, en l’absence d’une strat´egie efficace de construction de r`egles. En effet, la r´eduction de l’espace de recherche, engendr´ee par notre approche de d´ecomposition, n’est pas suffisante pour permettre le test d’existence d’une clause caract´eristique en temps raisonnable. Contrairement au cas propositionnel, on ne peut pas tester `a l’avance l’existence d’une clause caract´eristique pour un sous-concept donn´e, et la recherche d’une telle clause est coˆuteuse. Nous envisageons alors une strat´egie bas´ee sur le test de couverture des exemples n´egatifs par un plus petit g´en´eralis´e d’exemples d’un groupe.

5

Classification de donn´ees

textuelles pour la Recherche

d’Information

Sommaire

5.1 Introduction `a la Recherche d’Information . . . 128 5.2 Mesure de similarit´e et donn´ees textuelles . . . 129 5.2.1 Evaluer la similarit´e entre les mots . . . 129´ 5.2.2 Les mesures bas´ees sur les cooccurrences . . . 129 5.2.3 Les mesure bas´ees sur des distributions . . . 130 5.2.4 Les mesures utilisant les connaissances ext´erieures . . . 130 5.2.5 Un nouvel indice de proximit´e bas´e sur le Web . . . 131 5.2.6 Exp´erimentations sur l’indice de proximit´e contextuelle . . . 134 5.3 Classification de mots . . . 137 5.3.1 Travaux ant´erieurs . . . 137 5.3.2 PoBOC : un algorithme appropri´e ? . . . 138 5.3.3 Exp´erimentation . . . 139

5.4 Regroupement de mots pour la classification de documents . . 143

5.4.1 Introduction `a la classification de documents . . . 143 5.4.2 Classification supervis´ee de documents . . . 143 5.4.3 R´eduction de la dimension de l’espace de description des documents146 5.4.4 Le classifieur na¨ıf de Bayes pour la classification de documents . 149 5.4.5 Regroupement distributionnel agglom´eratif . . . 150 5.4.6 Partitionnement par optimisation d’une fonction de qualit´e, issue

de la th´eorie de l’information . . . 152 5.4.7 R´eduction de l’espace par pseudo-partitionnement du vocabulaire 152 5.4.8 Etude exp´erimentale . . . 158´ 5.5 Etude prospective : application `´ a l’analyse des genres . . . 161

5.1 Introduction `a la Recherche d’Information

Le domaine de la recherche d’information (Information Retrieval) englobe toutes les op´erations `a mettre en œuvre pour satisfaire des demandes d’information d’un utilisa-teur. Pour revenir sur une distinction classique dans le domaine, on oppose la recherche d’information `a la recherche de documents sur des crit`eres qui ont trait `a la nature de l’information `a traiter. L’information peut en effet ˆetre primaire ou secondaire.

L’information primaire est l’information d’origine issue des documents initiaux, qu’ils soient papier ou ´electronique, qu’il s’agisse de donn´ees textuelles ou non-textuelles (photo-graphies, graphiques, sch´emas, vid´eo, son, multim´edia, etc.). Actuellement on a de plus en plus acc`es `a des textes int´egraux, mis `a disposition par des bases de textes r´eglementaires, des bases de textes scientifiques, des sources de documentation technique de produits, des journaux (agence de presse), des pages Web, des informations portant sur la m´emoire d’entreprise, etc.

L’information secondaire, quant `a elle, s’applique aux ouvrages de r´ef´erence qui sont des documents ´elabor´es `a partir des documents primaires. Ils ne contiennent pas de connais-sances nouvelles. Rel`event de cette cat´egorie, les bibliographies, les bulletins d’analyse, les catalogues, les r´epertoires, etc. qui fournissent une description signal´etique des documents primaires assortie d’une description de leur contenu.

De cette typologie r´esulte la distinction entre recherche documentaire et recherche d’in-formation [109]. La recherche documentaire s’effectue dans des bases de donn´ees factuelles (bases de donn´ees bibliographiques par exemple) et s’applique `a des donn´ees structur´ees num´eriques ou alphanum´eriques. La recherche d’information s’applique `a des donn´ees pri-maires consign´ees dans des bases de donn´ees en texte int´egral ou accessibles sur le Web. Les informations peuvent ˆetre structur´ees ou non.

On s’int´eresse dans ce travail `a la recherche d’information qui porte sur des gisements d’information contenant majoritairement du texte.

Deux op´erations parall`eles et compl´ementaires sont constitutives du processus de re-cherche d’information : l’indexation et l’interrogation.

L’indexation consiste `a repr´esenter le contenu des documents `a partir de deux sources d’information : le document lui-mˆeme et le fonds auquel il appartient. Le r´esultat de l’in-dexation est une repr´esentation des connaissances contenues dans les documents qui le constituent [103]. Cette repr´esentation peut ˆetre plus ou moins ´elabor´ee. Les deux pˆoles extrˆemes sont, au niveau le plus bas, une repr´esentation `a base de chaˆınes de caract`eres issues des documents. C’est par exemple, le cas des index constitu´es de mani`ere automa-tique par les moteurs de recherche (`a l’exclusion des mots vides entre autres). Au niveau le plus ´elev´e, une repr´esentation des connaissances plus ´elabor´ee permet par exemple, de produire des inf´erences sur des index conceptuels [146].

De l’autre cˆot´e, l’interrogation doit s’exprimer `a travers la repr´esentation des docu-ments. L’expression des demandes est li´ee au degr´e d’interactivit´e des syst`emes ; elle est prise en charge par une interface.

L’´etude que nous abordons dans ce chapitre, porte sur la phase d’indexation. Nous nous focalisons dans un premier temps sur une repr´esentation `a partir de chaˆınes de caract`eres contenues dans les documents. Plus pr´ecis´ement nous nous int´eressons successivement aux mesures permettant d’´evaluer la proximit´e contextuelle de deux mots, puis aux m´ethodes de regroupement aboutissant `a la formation de classes s´emantiques, enfin nous utilisons

ces derniers ´el´ements pour indexer les documents dans un processus de classification su-pervis´ee.

Pour terminer, nous tentons d’apporter quelques justifications aux travaux r´ecents, qui consistent `a repr´esenter les informations textuelles `a un niveau sup´erieur, en utilisant l’information morpho-syntaxique contenue dans les documents.