• Aucun résultat trouvé

Plus pr´ecis´ement, sur la fouille de donn´ees

Dans le document Autour et alentours des motifs séquentiels (Page 91-93)

Concernant les aspects Fouille de donn´ees, j’ai men´e des travaux sur la recherche de motifs s´equentiels et sur la prise en compte des donn´ees semi-structur´ees. De plus, avec l’int´egration d’Anne Laurent en 2003, nous avons initi´e des recherches sur les m´ethodes approximatives et le traitement des donn´ees multidimensionnelles. Ces tra- vaux se d´eclinent, selon les doctorants, de la fa¸con suivante :

Dans le cadre de la th`ese de Florent Masseglia, nous avons propos´e une approche originale et incr´ementale de recherche de motifs s´equentiels, une prise en compte des contraintes temporelles lors du processus de fouille ainsi qu’une architecture autorisant une extraction de connaissance en temps r´eel. Un nouvel algorithme, appel´e Ise, a ´et´e d´evelopp´e pour permettre d’optimiser la recherche de connaissances en ne calculant que le minimum d’information, i.e. les informations n´ecessaires pour que la connaissance extraite soit repr´esentative de la nouvelle base de donn´ees. Les ´evaluations ont montr´e qu’avec Ise, dans certains cas, la recherche de motifs s´equentiels pouvait ˆetre nettement optimis´ee en consid´erant les donn´ees d’origine comme ´etant d´ecompos´ees en une base et son incr´ement. (Ouvrage Encyclop´edie 2005, ACM Sigweb 1999, Congr`es RIDE’02, WISE’01, PKDD’00, EGC’02, BDA’01, BDA’00, BDA’99)

8.1. UN BREF HISTORIQUE 91 1. dans une collaboration avec Florent Masseglia actuellement chercheur `a l’In- ria Nice - Sophia Antipolis. Ces travaux ´etendent les propositions pr´ec´edentes par la prise en compte de contraintes temporelles, la recherche de motifs dans un contexte distribu´e, l’extraction de p´eriodes dans lesquelles les s´equences ap- paraissent fr´equemment (Ouvrage Encyclop´edie 2006, Revue DMKD 2007, KAIS 2003, DKE 2003, ISI 2006, congr`es AINA’06, TIME’04, EGC’06, Ateliers TDM’05) 2. par la d´efinition d’une nouvelle approche, nomm´ee SPEED, permettant de cher-

cher les motifs s´equentiels dans les flots de donn´ees dans le cadre du DEA de Chedy Raissi. (Congr`es IS’06, BDA’05)

Dans le cadre de la th`ese de Pierre Alain Laur, nous nous sommes int´eress´es `a la prise en charge des donn´ees semi-structur´ees et deux algorithmes (PSPtree) et (PSPtreegeneralise) ont ´et´e d´efinis. Le premier correspond `a un algorithme bas´e sur une structure pr´efix´ee qui offre la possibilit´e de rechercher des structures typiques en conservant la topologie des structures. Pour le second, diff´erentes contraintes ont ´et´e relˆach´ees notamment sur l’utilisation de niveaux. L’approche globale propos´ee, appel´ee AUSMS-Web, permet l’analyse de structures mais est ´egalement adapt´ee `a la prise en compte du comportement des usagers du web. De plus nous avons ´etendu la proposition en int´egrant une composante incr´ementale mais cette fois-ci bas´ee sur la notion de bordure n´egative et avons propos´e une nouvelle m´ethode d’analyse de tendances des usagers originale. (Revue ISI 2003, Congr`es IICAI’03,DEXA’03, AIMSA’00)

Ces travaux se poursuivent actuellement avec la th`ese de Federico Del Razo Lopez dans le cadre de la m´ediation `a large ´echelle. Nous avons d´efini un nouvel algorithme RSF de recherche de structure arborescente bas´ee sur une repr´esentation optimis´ee des arbres. Cette repr´esentation offre de tr`es nombreuses propri´et´es permettant d’optimiser l’ensemble des ´etapes de la fouille de donn´ees : g´en´eration de candidats, ´elagage et validation des fr´equents. De plus nous nous int´eressons `a la d´efinition de diff´erents types d’inclusion (induite, incrust´ee, floue) afin d’affiner la recherche. L’objectif final est d’utiliser les sous-structures obtenues afin de proposer une construction automatique de sch´ema m´ediateur. Les exp´erimentations r´ealis´ees sont tr`es prometteuses. (Ouvrage Semantic Web 2006, Revue RNTI 2005, Congr`es EUSFLAT’05, EGC’06, IDEAS’04, Ateliers EGC’05)

La th`ese de Simon Jaillet s’est int´eress´ee au traitement de donn´ees de type tex- tuel. Nous avons d´efini un mod`ele de r´ef´erence pour les cat´egoriseurs : le mod`ele de cat´egorisation textuelle g´en´eral (MCT). `A partir du MCT, nous avons ´evalu´e diff´erentes m´ethodes de repr´esentation de documents (vecteurs conceptuels et/ou sta- tistiques) ainsi que diff´erentes m´ethodes de classification. Une nouvelle approche de cat´egorisation bas´ee sur les motifs s´equentiels a ´et´e d´efinie et a donn´e lieu `a l’algo- rithme SPaC. Il permet une classification supervis´ee de grosses bases de documents `a l’aide de r`egles de cat´egorisation bas´ee sur des motifs s´equentiels extraits. Cette ap- proche est r´eellement efficace pour des jeux de donn´ees o`u les classifieurs classiques sont moins performants. (Revue IDA 2006, RNTI 2005, Congr`es IPMU’04, ICCI’03, BDA’04, TALN’03, INFORSID’03, Ateliers TDM’04)

Dans le cadre de la th`ese de C´eline Fiot, nous nous int´eressons `a l’int´egration d’une m´ethode approximative lors de la recherche de motifs s´equentiels. Trois algorithmes ont ´et´e propos´es (SpeedyFuzzy, MiniFuzzy et TotallyFuzzy qui proposent diff´erents niveaux d’approximation selon les souhaits de l’utilisateur final. Le challenge ici est de fournir des algorithmes passant `a l’´echelle tout en conservant de tr`es bonnes propri´et´es de flexibilit´e face au traitement de donn´ees num´eriques. A terme, ces travaux nous per- mettront de g´erer les donn´ees manquantes (i) en vue de leur compl´etion `a l’aide des motifs s´equentiels flous obtenus ou (ii) lors de la g´en´eration des motifs s´equentiels. De nombreuses applications sont offertes grˆace `a ces travaux li´ees notamment au traitement de donn´ees num´eriques historis´ees (capteurs). (Congr`es FUZZ-IEEE 06,

92 CHAPITRE 8. CONCLUSIONS ET PERSPECTIVES FLINS’06, EGC’06, EGC’05, LFA’04)

Dans le cadre de la th`ese de Marc Plantevit, nous nous pr´eoccupons de la re- cherche de motifs au sein de donn´ees multidimensionnelles. Une premi`ere proposition, M2SP , a ´et´e r´ealis´ee. Il s’agit d’une g´en´eralisation des travaux existants permettant

d’extraire des motifs dans lesquels plusieurs attributs apparaissent. Nous ´etudions de plus l’utilisation de caract`eres jockers afin de ne pas p´enaliser la recherche quand cer- tains attributs sont tr`es disparates. Nos solutions sont de plus envisag´ees par rapport au traitement des hi´erarchies, ce qui est tr`es novateur par rapport `a la litt´erature. (Congr`es DOLAP’06, EDA’06, PKDD’05, BDA’05)

Ces diff´erents travaux ont ´egalement donn´e lieu `a des collaborations internationales (Italie, Malaisie, Pakistan, Indon´esie, USA) qui ont d´ebouch´ees en particulier sur l’or- ganisation d’un challenge associ´e au congr`es ECML/PKDD 2007, l’animation d’un workshop Mining Spatio-Temporal Data (MSTD) associ´e aux congr`es ECML/PKDD 2005, le co-encadrement de th`eses ainsi qu’un projet STIC-ASIA Expedo.

Dans le document Autour et alentours des motifs séquentiels (Page 91-93)