• Aucun résultat trouvé

Partie I – Etat de l’art

1. L’Extraction de Connaissances à partir de Données

1.2. Aperçu sur le processus d’ECD

1.2.2. Différentes tâches de l’ECD

La tâche représente le but, ou l’objectif, d’un processus d’ECD. Selon Fayyad et al. (1996b), on distingue dans la pratique deux tâches primaires de haut niveau du data mining : la prédiction et la description. La prédiction consiste à utiliser des variables ou des champs dans la base de données pour prédire des valeurs futures ou inconnues d'autres variables d'intérêt. Alors que la description se concentre sur la recherche de patterns (modèles, schémas ou règles) décrivant les données et interprétables par l’utilisateur. Bien que les limites entre la prédiction et la description ne sont pas nettes (en effet un modèle prédictif peut être descriptif, dans la mesure où il est compréhensibles et donne une idée sur les donnée, et vice-versa), la distinction entre ces deux tâches est utile pour la compréhension de l'objectif global du processus d’ECD.

Les tâches de prédiction et de description peuvent être réalisées en utilisant une grande variété de méthodes de fouille de données. Nous présentons ici un bref aperçu sur quelques unes de ces méthodes ainsi que les dépendances entre elles :

1.2.2.1. Description et synthèse de données

La description et synthèse de données (data description and summarization) est une tâche purement descriptive ayant pour objectif l’identification concise des caractéristiques des données, généralement sous forme élémentaire et agrégée. Elle permet ainsi à un analyste d’avoir une compréhension synthétique de l’ensemble de ses données.

Chapitre 1 – Le processus d’ECD 18

Il s’agit principalement d’outils de synthèse d’information. Cette synthèse peut s’exprimer par des indicateurs statistiques. Par exemple, pour des attributs quantitatifs, les indicateurs les plus utilisés sont la moyenne, l’écart-type, le mode et la médiane. Pour des attributs qualitatifs, on associe généralement la distribution selon les modalités de l’attribut. Ces indicateurs statistiques, qu’ils soient descriptifs de la tendance centrale, des positions ou de la dispersion, nous renseignent pleinement sur une caractéristique particulière des données. Ils sont généralement représentés par des graphiques, car plus faciles à interpréter. La description et la visualisation peuvent être mono- ou multidimensionnelles. Pour l’essentiel, il s’agit de rendre visibles des objets ou des concepts qui se trouvent dans des espaces de description trop riches.

Parfois, la description des données seule peut être la tâche d’un processus d’ECD (par exemple, un distributeur de marchandises peut-être intéressé par le chiffre d'affaires des points de vente répartis par catégories pour une période donnée ainsi que la synthèse de l’évolution des ventes par rapport à une période précédente). Cependant, dans presque tous les projets d’ECD, la description de données constitue une sous tâche dans le processus global, généralement dans les premières étapes de compréhension du domaine d’application et des données. En effet, une analyse exploratoire des données au début du processus d’ECD peut aider l’analyste à comprendre la nature des données en main et de trouver des hypothèses possibles sur les patterns cachés dans les données.

On note enfin que les techniques de description et de synthèse de données sont souvent utilisées pour l’exploration et l'analyse interactive des données et pour la génération automatique de rapports (Fayyad et al., 1996b).

1.2.2.2. Segmentation

La segmentation, ou clustering, est une tâche descriptive commune où on cherche à identifier un ensemble fini de catégories ou clusters pour décrire les données (Jain et Dubes 1988). Les membres de chaque cluster partagent certaines caractéristiques significatives. Les catégories peuvent être mutuellement exclusives et exhaustives, ou bien elles consistent en une représentation plus riche comme les catégories hiérarchiques ou en chevauchement.

La segmentation peut être à elle seule la tâche d’un processus d’ECD. Ainsi, la détection des clusters serait l'objectif principal de l'exploration des données. Cependant, la segmentation est souvent une étape intermédiaire pour la réalisation d’autres tâches d’ECD. Dans ce cas,

Chapitre 1 – Le processus d’ECD 19

l'objectif de la segmentation peut être de garder une taille raisonnable des données ou de détecter des sous-ensembles de données homogènes qui sont plus simples à analyser.

1.2.2.3. Classification

La classification est l’apprentissage d’une fonction (ou d’un modèle) qui permet d’affecter un individu à une classe donnée parmi un ensemble de classes prédéfinies (Weiss et Kulikowski, 1991; Hand, 1981). La classification suppose qu'il existe un ensemble de données d’apprentissage, où chaque donnée (individu) est caractérisée par un ensemble d’attributs et est étiquetée par sa classe (valeur symbolique d’un attribut classifiant). Les modèles de classification sont le plus souvent utilisés comme des modèles prédictifs.

Les étiquettes de classe peuvent être données à l'avance, par exemple définies par l'utilisateur ou provenant de la segmentation. En effet, dans un problème de classification, la segmentation peut servir comme une étapes préliminaire pour détecter les classes (étiquettes) cachées dans les données d’apprentissage, ou pour restreindre le jeu de données de telle sorte à construire des modèle de classification pertinents.

1.2.2.4. Régression

Une autre tâche très répondue de prédiction est la régression. La régression est similaire à la classification. La seule différence est que dans un problème de régression l'attribut cible (la classe) n'est pas un attribut qualitatif discret mais continu. Ainsi la régression vise à expliciter une relation de type linéaire ou non linéaire entre un ensemble de variables dites explicatives (ou exogènes) et une variable réelle continue dite dépendante ou à expliquer (ou encore endogène). On réserve en général le nom de régression multiple au cas où les variables explicatives sont continues. Lorsque celles-ci sont des variables nominales, on parle d’analyse de la variance, et pour un ensemble de variables mixtes, d’analyse de la covariance. Si la régression traite des séries chronologiques, elle est appelée prévision.

1.2.2.5. Analyse de dépendances

L'analyse de dépendances consiste à trouver un modèle qui décrit les dépendances importantes (ou associations) entre les éléments de données ou des événements. Les dépendances peuvent être utilisées pour prédire la valeur d'un nouvel item de données sachant des informations sur d’autres items. Bien que les dépendances soient utiles pour la modélisation prédictive, elles sont principalement utilisées pour la description et la compréhension des données. Les dépendances peuvent être strictes ou probabilistes.

Chapitre 1 – Le processus d’ECD 20

Les associations (Agrawal et al., 1993) forment un cas particulier de dépendances. Elles décrivent les affinités des éléments de données (les éléments de données ou événements qui se produisent fréquemment ensemble). Les motifs séquentiels (sequential patterns) (Agrawal et Srikant, 1995) constituent un type particulier d’associations où l'ordre des événements est pris en compte (l’attribut temps est significatif/pertinent).

L'analyse de dépendances a des liens étroits avec la classification et la segmentation. En effet, les dépendances peuvent être implicitement utilisées pour l'élaboration de modèles prédictifs. La segmentation est parfois utilisée pour détecter des segments de données homogènes sur lesquels il est plus pertinent d’effectuer une analyse de dépendances.

Les différentes tâches d’ECD revisitées ci-dessus sont implémentées dans une grande variété d’outils logiciels, objet de la section suivante.