• Aucun résultat trouvé

problème dicile aux multiples facettes

2.2 Appréhender les données .1 Introduction.1 Introduction

2.2.2 Fouille de données

2.2.2.1 Introduction

La problématique d'appréhension des données, qui est sous-jacente au concept de synthèse, suggère de s'intéresser au domaine de la fouille de données. En eet, le data mining, ou fouille de données en français, est apparu au début des années 90, pour aider à l'exploitation des données de plus en plus nombreuses stockées par des systèmes informatiques aux capacités de stockage et de traitement de plus en plus importantes. La fouille de données s'est alors structurée en tant que maillon essentiel de la chaîne de traitement de l'extraction de connaissances à partir de données, tel qu'exposé dans [Frawley et al., 1992].

Ce dernier processus d'extraction de connaissances inclut tout d'abord des pré-traitements : construction de corpus de données spéciques ou datamarts, mise en forme des données, nettoyage des données (traitement des données manquantes...), etc. La fouille de données opère alors sur ces datamarts, par le biais de méthodes is-sues de domaines variés : statistiques, analyse de données, reconnaissance des formes, apprentissage automatique... Ces diverses méthodes, dont un aperçu est présenté dans [Fayyad et al., 1996], apportent alors des outils d'analyse descriptive, struc-turelle ou explicative, dans un objectif nal de découverte de sens.

De nos jours, les logiciels dédiés à la fouille de données, aux interfaces attrac-tives, proposant une automatisation poussée des traitements, sont très nombreux : [Goebel and Gruenwald, 1999] le notent dès 1999, en comparant une soixantaine d'outils, et des sites Web sur le thème du data mining comme kdnuggets1 en réper-torient tout autant. Mais le mythe d'une fouille de données presse-bouton

ttant l'extraction d'informations pertinentes sans connaissance, ni des algorithmes sous-jacents aux outils, ni des données à analyser, s'écroule de plus en plus. Dans cet esprit, [Friedman, 1997] suggère que l'engouement pour la fouille de données pourrait s'avérer au nal plus protable pour les vendeurs d'outils que pour leurs utilisateurs. Aussi, la fouille de données est de plus en plus perçue comme un pro-cessus interactif et itératif, dirigé vers un but particulier, résultant de la coopération d'un expert du domaine d'étude, capable de faire la distinction entre information utile et information sans intérêt, et d'un expert en fouille de données qui est à même d'évaluer les outils applicables aux cas analysés.

La question qui doit être résolue pour mener une fouille de données avec succès apparaît donc en dénitive celle de l'adéquation entre le datamart construit pour l'étude et les algorithmes appliqués, la sélection et nettoyage des données et le choix des outils étant deux activités intimement liées. Dans ce contexte, des outils perme-ttant l'appréhension des données, prennent tout leur sens. C'est l'un des objectifs de la synthèse, telle qu'elle est envisagée dans le cadre de mes travaux, ainsi que d'un champ particulier de la fouille de données : l'analyse descriptive de données. Cette dernière fait souvent appel à des représentations graphiques, par l'analyse visuelle des données. La notion de synthèse va donc être replacée dans le cadre de ces deux sous-domaines de la fouille de données dans les prochains paragraphes.

2.2.2.2 Analyse descriptive des données

Les méthodes de fouille de données descriptives visent à fournir à leur utilisateur un aperçu sur les données, tout comme dans le point de vue adopté ici sur la syn-thèse. En eet, une étude sophistiquée d'un ensemble de données est très souvent précédée d'une étude exploratoire, souvent à l'aide d'outils simples mais robustes, dont l'objectif, ainsi qu'il est exposé dans [Besse et al., 2001], est d'éviter de tomber dans des pièges grossiers liés à une mauvaise appréciation du contexte d'utilisation des outils de fouille.

Cette observation de la collection de données permet de se familiariser avec les données et de détecter des problèmes éventuels tels que valeurs manquantes, erronées ou atypiques, modalités trop rares, distributions anormales , incohérences, liaisons non linéaires... Elle permet aussi de guider le choix de pré-traitements des données qui les rendront conformes aux méthodes de modélisation ou d'apprentissage qu'il faudra mettre en ÷uvre pour atteindre les objectifs xés. Dans le cadre de fouille de données scientiques, une telle étude permet enn d'aider le chercheur à replacer ses données dans une démarche expérimentale classique, en lui fournissant une base sur laquelle émettre des hypothèses.

Parmi les méthodes relevant de l'analyse descriptive des données, on peut citer des méthodes statistiques simples, telles que des calculs de moyennes ou écarts-types, etc.

ainsi que des techniques d'analyse de données, telles que l'Analyse en Composantes Principales, qui permettent d'évaluer des tendances ou des dispersions. Parmi ces techniques, beaucoup se basent sur une présentation graphique, thème exploré plus précisément dans le prochain paragraphe.

2.2.2.3 Analyse visuelle des données

L'analyse descriptive des données recourt beaucoup à des représentations graphiques, qui sont souvent plus expressives que des ensembles numériques ou des tableaux de chires. Dans cette approche, l'analyse descriptive des données suit des résultats de sciences cognitives qui tendent à montrer que l'humain se représente mieux le monde sous forme schématique que sous forme discursive [Larkin and Simon, 1987]. Ainsi [Friendly and Kwan, 2003] insistent sur l'importance du choix de présentation des informations en statistiques et fouille de données, une représentation organisée d'une collection pouvant être porteuse d'informations complémentaires par rapport à un ensemble de documents ou de données, alors qu'une présentation inadaptée peut conduire à de fausses interprétations ou à une non détection de faits importants.

Dans le contexte des statistiques, ces représentations prennent la forme de camem-berts, histogrammes, nuages de points, diagrammes en étoile, boîtes à moustaches... Pour la plupart conçues à une époque où l'outil informatique était inexistant ou à ses premiers balbutiements, elles présentent l'indéniable avantage d'une facilité de réalisation, même de façon manuelle, tout en permettant une certaine appropria-tion du jeu de données par le chercheur, en fournissant divers points de vues sur l'information.

Mais, les méthodes graphiques simples sont parfois inadaptées quand les infor-mations à représenter sont complexes, ce qui est souvent le cas pour les données expérimentales. Cette problématique a attiré l'attention tout à la fois des statisti-ciens et des informatistatisti-ciens, conduisant à une évolution du domaine. Des représen-tations permettant de gérer ces informations complexes ont donc vu le jour. Par exemple, [Noirhomme-Fraiture and Rouard, 1997] introduisent le concept de zoom stars, et en particulier les zoom stars 3D, qui combinent diagrammes en étoiles et his-togrammes pour représenter des objets symboliques (classes d'individus représentés par un jeu de variables quantitatives, qualitatives, intervalles ou à valeurs multi-ples...) et permettre des comparaisons entre objets et des évaluations de corrélations entre variables.

De plus, l'augmentation de puissance des ordinateurs, et en particulier les capac-ités graphiques des postes de bureau, ont conduit à l'émergence d'outils tirant parti des performance des systèmes informatiques courants ou expérimentaux, à la marge entre les domaines de la fouille de données et de l'interaction homme/machine : la Visualisation d'Information. La synthèse, qui manipule des données complexes,

pourrait tirer parti de paradigmes issus de cette discipline récente, qui fait l'objet du paragraphe suivant.