• Aucun résultat trouvé

1.2 Etat de l’art de la fouille de donn´ees spatiales et temporelles ´

1.2.3 Fouille de donn´ees spatio-temporelles FDS-T

10 CHAPITRE 1. L’EXTRACTION DE CONNAISSANCES `A PARTIR DES DONN ´EES

De nos jours, la soci´et´e humaine est le t´emoin d’un d´eveloppement sans pr´ec´edent du volume et de la diversit´e des informations ´economiques, scientifiques et techniques. En revanche l’ac-quisition de ces informations, mˆeme concentr´ees par des outils informatiques dans des bases de donn´ees sp´ecifiques, n’est pas suffisante ; elles doivent ˆetre converties en connaissances utiles. Ce chemin est devenu progressivement plus difficile en raison de l’explosion de donn´ees en vertu du d´eveloppement technique. Le volume et la complexit´e de ces donn´ees exige l’aide de m´ethodes automatis´ees pour que des connaissances pertinentes puissent ˆetre obtenues.

Un domaine caract´eristique de cette probl´ematique est la t´el´ed´etection satellitaire avec ses applications en surveillance environnementale, m´et´eorologique, climatique ou militaire. Le d´eveloppement continu des techniques d’acquisition de donn´ees satellitaires (augmentation de la r´esolution, du nombre de canaux spectraux, de la fr´equence de revisite, etc.) alimentent les bases de donn´ees avec une ´enorme quantit´e de donn´ees de divers types et attributs. L’automatisation du processus d’extraction de l’information devient une n´ecessit´e.

1.1 Le processus d’Extraction de Connaissances `a partir des

Donn´ees

Donner un sens `a toute l’information contenue dans les donn´ees est illusoire voire inutile pour les chercheurs en informatique, mais ´egalement pour tous les utilisateurs. On suppose que ces donn´ees contiennent peut ˆetre des connaissances d’une grande valeur commerciale ou scientifique [111]. C’est en fait le postulat principal qui motive l’extraction de connaissances `a partir des donn´ees. Une fois ce postulat admis, la question se pose de savoir comment des connaissances peuvent ˆetre extraites de ces donn´ees. L’op´erateur humain ne peut pas traiter une telle quantit´e de donn´ees mais seul un expert humain peut ´evaluer les r´esultats d’une extraction. Le processus d’extraction de connaissances ne se limite donc pas `a une extraction automatique. Il comporte plusieurs ´etapes pendant lesquelles l’expert humain doit faire des choix et ´evaluer les r´esultats en fonction de ses objectifs. Il peut passer `a une ´etape suivante ou recommencer les ´etapes pr´ec´edentes en utilisant une technique diff´erente. De l`a d´ecoule la nature it´erative et interactive de ce processus d’extraction.

L’ECD a pour objet l’extraction d’un savoir ou d’une connaissance `a partir de grandes quantit´es de donn´ees, par des m´ethodes automatiques ou semi-automatiques. Elle a ´et´e d´efinie comme l’extraction d’une information implicite, non triviale, inconnue auparavant et potentiel-lement utile [77].

L’ECD est une discipline r´ecente qui recoupe les domaines des bases de donn´ees, des statis-tiques, de l’intelligence artificielle et de l’interface homme/machine. Son objectif est de d´ecouvrir automatiquement des informations g´en´eralisables en connaissances nouvelles sous le contrˆole des experts des donn´ees. Cela n´ecessite la conception et la mise au point de m´ethodes pour extraire les informations qui seront interpr´et´ees par les experts afin de les transformer, si possible, en connaissance.

Par rapport `a ses domaines parents, l’ECD est caract´eris´ee par le fait qu’elle extrait des connaissances pertinentes et intelligibles. Une connaissance pertinente a une valeur de v´erit´e assez ´elev´ee ; on sait comment l’utiliser et elle s’accorde bien aux buts de l’utilisateur. Ainsi, la pertinence est presque compl`etement d´efinie par l’utilisateur. Une connaissance est intelligible quand elle est exprim´ee dans le langage de l’utilisateur et avec la s´emantique de celui-ci. Le fait que la connaissance d´ecouverte doive ˆetre auparavant inconnue limite en quelque sorte les buts et l’attente de l’utilisateur qui pourrait, par exemple, ˆetre heureux de retrouver quelque chose qu’il connaissait d´ej`a (ce serait une forme sp´eciale d’intelligibilit´e) [133].

1.1. LE PROCESSUS DE L’ECD 11

Un processus complet d’ECD met en jeu, de mani`ere interactive et it´erative, des multiples m´ethodes pour la pr´eparation des donn´ees (le pr´e-traitement), leur exploration - la fouille de donn´ees, la visualisation et l’interpr´etation des r´esultats lors d’interactions avec l’expert (le post-traitement) [71]. Au coeur du processus se trouve l’´etape de fouille de donn´ees qui consiste en l’application d’algorithmes d’analyse de donn´ees qui, sous les limites acceptables d’efficacit´e computationnelle, extraient, par exemple, les motifs locaux pr´esents au sein des donn´ees. Les m´ethodes de fouille de donn´ees proposent des solutions aux probl`emes de recherche des motifs locaux (r`egles d’association, motifs s´equentiels), de classification supervis´ee et non supervis´ee. Les m´ethodes d´evelopp´ees dans ce m´emoire sont `a base de motifs locaux. Compte tenu de la taille des bases de donn´ees, l’extraction de motifs locaux est un probl`eme algorithmiquement ardu n´ecessitant la conception de m´ethodes efficaces pour parcourir l’espace de recherche.

Ainsi, l’objectif de l’ECD est de d´ecouvrir des motifs cach´es, des tendances inattendues ou d’autres relations subtiles dans les donn´ees en utilisant une combinaison de techniques d’ap-prentissage automatique, des statistiques et des technologies de bases de donn´ees. Cette nou-velle discipline trouve aujourd’hui son application dans une gamme large et vari´ee de sc´enarios d’affaires, scientifiques et techniques.

1.1.1 Donn´ees et pr´e-traitements

Le terme de donn´ees est utilis´e pour d´esigner les faits constat´es qui d´ecrivent les ´etats ou le comportement d’une entit´e, conform´ement `a un ensemble d’attributs, denomm´es aussi champs ou variables, dont chacun correspond `a une valeur particuli`ere. Ces valeurs appartiennent `a des ensembles sp´ecifiques - les domaines d’attribut, qui repr´esentent les valeurs qui peuvent ˆetre prises par l’attribut. En g´en´eral, les domaines d’attribut peuvent appartenir `a l’un des deux types : a) des valeurs r´eelles ou continues, sous-ensembles de nombres r´eels, o`u il y a une quantit´e mesurable dans une plage donn´ee et b) des valeurs cat´egorielles, ensembles finis de valeurs discr`etes.

Il existe deux types d’attributs cat´egoriels : a) nominaux, o`u il n’y a pas d’ordre entre les valeurs, telles que les noms et les couleurs et b) ordinaux, indiquant qu’il existe un ordre parmi les valeurs, comme un attribut qui prend les valeurs basse, moyenne ou ´elev´ee. Lorsqu’il s’agit de transactions, deux types d’analyse peuvent ˆetre effectu´es :

– intra-transactionnelle, o`u l’analyse est effectu´ee entre les donn´ees trait´ees en mˆeme temps. – inter-transactionnelle, o`u l’analyse est effectu´ee entre les donn´ees trait´ees `a des instants

diff´erents.

L’analyse d’un comportement / ´evolution ne peut ˆetre effectu´ee par une analyse intra-transactionnelle, mais une analyse inter-transactionnelle est en mesure de le d´ecrire.

En g´en´eral, l’´etape de pr´e-traitement est vue comme la pr´eparation des donn´ees avant l’ap-plication de la fouille de donn´ees et le post-traitement comme l’´evaluation et la pr´esentation des informations d´ecouvertes `a l’utilisateur final.

L’´etape de pr´e-traitement consiste en un ensemble d’op´erations effectu´ees sur les donn´ees afin d’am´eliorer leur qualit´e (par cons´equent, les r´esultats de la fouille), et de r´ealiser leur mise en forme dans un format exploitable par les algorithmes de fouille de donn´ees. Le temps consacr´e `a ce stade r´ev`ele la mauvaise qualit´e de la majorit´e des donn´ees existantes, et l’importance de ces op´erations lorsqu’il s’agit de grands ensembles de donn´ees. Les op´erations de pr´e-traitement peuvent ˆetre class´ees en quatre grands types de techniques : int´egration de donn´ees, nettoyage des donn´ees, r´eduction des donn´ees [95] et transformation des donn´ees.

12 CHAPITRE 1. L’EXTRACTION DE CONNAISSANCES `A PARTIR DES DONN ´EES

de plusieurs sources de donn´ees, potentiellement h´et´erog`enes. Les principales difficult´es sont li´ees au diff´erents sch´emas de stockage et `a l’existence des doublons.

Une fois que l’int´egration des sources distinctes de donn´ees est atteinte, les op´erations de nettoyage des donn´ees assurent la qualit´e des donn´ees. En g´en´eral, trois situations distinctes sont trait´ees : les valeurs manquantes, les valeurs aberrantes ou le bruit et les incoh´erences dans les donn´ees.

En g´en´eral, les bases de donn´ees contiennent de tr`es grandes quantit´es de donn´ees, fait qui peut en d´ecouler du grand nombre d’enregistrements, du grand nombre d’attributs par enregistrement ou tout simplement de la complexit´e inh´erente aux donn´ees. ´Etant donn´e que ces caract´eristiques peuvent augmenter la difficult´e du processus de fouille, la r´eduction des donn´ees est un besoin r´eel.

La r´eduction des donn´ees essaie d’obtenir une repr´esentation r´eduite du jeu de donn´ees, plus petite en volume, mais qui produit les mˆemes (ou presque) r´esultats analytiques.

La r´eduction des donn´ees comprend des techniques param´etriques et non param´etriques. Les techniques param´etriques supposent un mod`ele pour les donn´ees et tentent estimer les param`etres du mod`ele qui produisent un meilleur ajustement des donn´ees (par exemple, le mod`ele de r´egression), tandis que les techniques non param´etriques repr´esentent, ou cat´egorisent, les donn´ees sans faire aucune hypoth`ese sur le mod`ele de donn´ees. Les principales m´ethodes non param´etriques utilisent les histogrammes, le clustering et l’´echantillonnage des donn´ees.

Les principales strat´egies pour la r´eduction des donn´ees sont la r´eduction de dimension, la r´eduction de num´erosit´e, la discr´etisation et la g´en´eration de hi´erarchies de concepts.

L’analyse en composantes principales (ACP), les techniques de “multidimensional scaling”

(MDS) [51], les cartes adaptatives de Kohonen (en anglais Self Organizing Maps) (SOM) [134] sont des outils classiques dans le contexte de la r´eduction dimensionelle. D’une mani`ere g´en´erale, une fonction de coˆut (loss function) permet de construire les r`egles de projection de l’espace origi-nal des donn´ees vers l’espace cible de dimension plus faible. Pour les probl`emes de classification, la conservation du voisinage apparaˆıt comme un des aspects importants `a maˆıtriser.

La discr´etisation divise l’intervalle de valeurs possibles en sous intervalles. Elle est n´ecessaire dans le cas des algorithmes qui acceptent seulement des attributs cat´egoriels. Ainsi, en r´eduisant le nombre de valeurs d’un attribut, on fait la r´eduction du volume des donn´ees et la pr´eparation pour de futures analyses.

La hi´erarchie de concepts r´eduit les donn´ees en collectant et rempla¸cant les concepts de bas niveau (par exemple, l’amplitude) par des concepts de niveau d’abstraction plus ´elev´e (ampli-tudes basses, moyennes ou ´elev´ees).

Autres techniques utiles dans le pr´e-traitement de donn´ees sont les transformations des donn´ees. Les plus g´en´erales m´ethodes sont le lissage, pour r´eduire le bruit, la construction de nouveaux attributs et la normalisation.

Quand il y a un grand nombre d’attributs, il est possible de s´electionner les plus pertinents. Cependant, parfois, les attributs existants ne sont pas en mesure de refl´eter la structure du domaine et la construction de nouveaux attributs peut aider `a avoir un nouvel aper¸cu de la nature intime du probl`eme (voir l’utilisation de l’IVDN pour la surveillance satellitaire des zones agricoles, chapitre 6). Cette construction est g´en´eralement obtenue par la combinaison d’attributs existants ou par la conjonction d’attributs bool´eens.

La normalisation est faite en ´echelonnant les valeurs possibles pour un attribut, de sorte qu’ils tombent dans un intervalle sp´ecifi´e, habituellement de 0 `a 1 (par exemple, l’IVDN). De

1.1. LE PROCESSUS DE L’ECD 13

cette mani`ere, des similitudes peuvent ˆetre d´etect´ees, en ignorant les diff´erences d’´echelle. Ce genre de transformation est appliqu´e `a des valeurs continues, et il y a plusieurs strat´egies pour r´ealiser la transformation.

D’autres approches utilisent des transformations comme la transformation Fourier discr`ete et la transformation en ondelettes pour compresser les donn´ees (voir l’annexeA).

Ainsi, une approche pour faire face `a des s´eries temporelles est la traduction de la s´equence originale dans une s´equence compos´ee de symboles nominaux. Il y a deux probl`emes li´es `a cette traduction : choisir le domaine des nouveaux symboles - alphabet, et faire la traduction `a partir des ´el´ements `a valeur r´eelle. Cette ´etape de pr´e-traitement est complexe et n´ecessite de faire de nombreux choix. De plus, il est difficile de d´eterminer a priori dans quelle mesure ces choix ont une influence sur le r´esultat des extractions. Une ´etude de l’influence de ce type de param`etre sur le rendement quantitatif et qualitatif de l’extraction de motifs s´equentiels `a partir de donn´ees r´eelles est r´ealis´ee dans ce m´emoire (partie III, chapitre6).

1.1.2 L’´etape de fouille de donn´ees

La fouille de donn´ees est n´ee du besoin d’exploitation de donn´ees produites, import´ees ou accumul´ees par un utilisateur, susceptibles de d´elivrer des informations ou des connaissances par le moyen d’outils exploratoires. Plus pr´ecis´ement, la fouille de donn´ees concerne l’´etape algorithmiquement difficile du processus d’ECD, qui produit des motifs locaux ou des mod`eles globaux potentiellement int´eressants `a partir des donn´ees pr´epar´ees dans l’´etape pr´ec´edente.

Nous choisissons d’utiliser le mot «motif» avec la signification d’une condition sur un sous-ensemble des donn´ees, et utiliser le mot«mod`ele» pour la signification d’une condition sur tout l’ensemble des donn´ees.

Dans la phase de fouille de donn´ees, l’utilisateur doit choisir les mod`eles de repr´esentation des donn´ees qu’il souhaite extraire (itemsets, r`egles d’association, clusters, etc.), d´efinir les contraintes sur ces mod`eles et fixer les param`etres des algorithmes qui sont alors ex´ecut´es.

La fouille de donn´ees, h´eriti`ere naturelle des statistiques, essaie d’aller plus loin, en fournis-sant en outre de mod`eles transformables en connaissances valides et exploitables, et des moyens automatiques pour classer et pr´edire les comportements futurs. Contrairement `a la m´ethode sta-tistique, la fouille de donn´ees ne n´ecessite pas que l’on ´etablisse une hypoth`ese de d´epart qu’il s’agira de v´erifier. C’est des donn´ees elles-mˆemes que se d´egageront les corr´elations int´eressantes, le logiciel n’´etant l`a que pour les d´ecouvrir. La fouille de donn´ees adopte alors une d´emarche sans a priori (donc bien plus pragmatique) et essaie ainsi de faire ´emerger, `a partir des donn´ees brutes, des inf´erences que l’exp´erimentateur peut ne pas soup¸conner et dont il aura `a valider la pertinence. La technique est particuli`erement dynamique, car elle n’exige pas la pr´eparation de requˆetes.

D’apr`es [93], les tˆaches g´en´erales de fouille de donn´ees peuvent ˆetre class´ees en deux cat´egories principales : descriptives (e.g. clustering, motifs locaux) et pr´edictives (e.g. classification non-supervis´ee, r´egression). La premi`ere identifie les motifs ou les relations dans les donn´ees, d´ecrivant tout ou partie des donn´ees, alors que la derni`ere construit des mod`eles pour pr´edire le compor-tement de tout ou partie des futures/nouvelles donn´ees. Contrairement au mod`ele pr´edictif, le mod`ele descriptif sert `a explorer les donn´ees, et non `a pr´evoir de nouvelles donn´ees.

14 CHAPITRE 1. L’EXTRACTION DE CONNAISSANCES `A PARTIR DES DONN ´EES

1.1.3 Le post-traitement

L’´etape de post-traitement vise `a accomplir deux tˆaches essentielles : analyser les r´esultats obtenus et pr´esenter les meilleurs d’entre eux `a l’utilisateur final. En substance, l’´evaluation des motifs et mod`eles concerne trois aspects : la simplicit´e, la certitude et l’int´erˆet. Des motifs simples sont g´en´eralement pr´ef´er´es, car ils sont plus faciles `a comprendre et parce qu’ils sont plus appropri´es pour g´en´eraliser au-del`a des cas connus. La certitude d’un mod`ele peut ˆetre indiqu´ee comme mesure de la confiance que l’utilisateur doit mettre sur le motif. L’int´erˆet d’un motif s’´evalue sur deux aspects : l’utilit´e et la nouveaut´e [17,99,98,95,94]. Un motif est utile s’il est facilement compris par les humains, valide sur de donn´ees nouvelles ou test´ees avec un certain degr´e de certitude et s’il r´epond aux besoins et exigences de l’utilisateur. Les mesures de nouveaut´e d´efinissent la contribution de motifs `a l’am´elioration des connaissances sur le domaine. Les algorithmes d’extraction de motifs ou de construction de mod`eles permettent de d´ecouvrir des propri´et´es des donn´ees. N´eanmoins, ces propri´et´es ne sont pas consid´er´ees comme de nouvelles connaissances tant qu’elles n’ont pas ´et´e interpr´et´ees et valid´ees par un expert humain.

Les techniques de visualisation sont essentielles pour la pr´esentation et l’interpr´etation ef-ficace des r´esultats de l’exploration et mˆeme comme soutien pour le processus de fouille de donn´ees lui-mˆeme [130,22].

La visualisation implique l’utilisation de techniques visuelles et graphiques pour repr´esenter des informations, de donn´ees ou de connaissances. Ces techniques peuvent ˆetre employ´ees dans les cas o`u des ensembles de donn´ees complexes doivent ˆetre expliqu´es ou analys´es. L’id´ee es-sentielle est que les repr´esentations visuelles peuvent aider l’utilisateur `a obtenir une meilleure compr´ehension du contenu des ensembles de donn´ees, puisque le syst`eme visuel humain est plus enclin `a traiter l’information visuelle que textuelle. Ainsi, les techniques de visualisation peuvent agir comme outils d’amplification des capacit´es perceptives, cognitives et analytiques des personnes pour leur permettre de r´esoudre des tˆaches complexes [13,136,112,12].

1.2 Etat de l’art de la fouille de donn´´ ees spatiales et temporelles

On estime que 80 % des ensembles de donn´ees disponibles ont des composantes spatiales [69] et qu’elles sont souvent associ´ees `a des aspects temporels. Une telle quantit´e d’informations exige des techniques d’analyse adapt´ees.

La fouille de donn´ees spatio-temporelles est `a la confluence de plusieurs domaines : les bases de donn´ees, l’apprentissage automatique, les statistiques, la visualisation g´eographique et la th´eorie de l’information. L’exploration de donn´ees de ce type est un nouveau domaine qui en-globe les techniques pour d´ecouvrir des relations spatiales, temporelles ou spatio-temporelles utiles ou des mod`eles qui ne sont pas explicitement stock´es dans des ensembles de donn´ees spatio-temporelles. Ces techniques s’occupent g´en´eralement des objets complexes avec des at-tributs spatiaux, temporels et autres. Les dimensions spatiales et temporelles ajoutent une complexit´e importante pour le processus d’extraction de donn´ees. Il y a une s´eparation tra-ditionnellement appliqu´ee `a l’analyse des dimensions spatiales et temporelle : l’exploration des donn´ees temporelles (Fouille de Donn´ees Temporelles (en anglais Temporal Data Mining) (FDT)) [194], l’exploration de donn´ees spatiales (Fouille de Donn´ees Spatiales (en anglais Spatial Data

Mining) (FDS)) [137, 162] et l’exploration de donn´ees spatio-temporelles (Fouille de Donn´ees

Spatio-Temporelles (en anglais Spatio-Temporal Data Mining) (FDS-T)) [193].

1.2. ´ETAT DE L’ART - FOUILLE DE DONN ´EES SPATIALES ET TEMPORELLES 15

probl`eme cible `a r´esoudre et la mani`ere avec laquelle les ensembles de donn´ees sont collect´ees.

1.2.1 Fouille de donn´ees temporelles FDT

Documents relatifs