• Aucun résultat trouvé

Chapitre 2   Outils méthodologiques pour optimiser la gestion des ouvrages existants

3.2   Data mining et analyse de données symboliques (ADS)

3.2.2   Des données classiques aux données symboliques

Les récents progrès techniques et technologiques rendent désormais possible l'acquisition continue d'informations diverses et le stockage de bases de données volumineuses. Cependant, en dépit de la capacité de traitement courante des ordinateurs, les ressources informatiques nécessaires pour manipuler et analyser des grands ensembles de données sont

162

généralement limitées. Par ailleurs, les méthodes traditionnelles d'analyse de données ont été développées à une époque où la quantité d'information disponible était beaucoup plus limitée qu'elle ne l'est actuellement. Plusieurs études liées à l'analyse multivariée, à la reconnaissance des motifs, aux bases de données et à l'intelligence artificielle ont été menées depuis des années. Les méthodologies en cours de développement généralisent les techniques d'analyse des données classiques, comme par exemple la visualisation, les techniques factorielles, les arbres de décision, la discrimination, la régression, la classification ou encore les méthodes de partitionnement de données.

Contrairement à l'analyse classique qui se concentre sur l'étude des individus, l'analyse symbolique manipule des concepts, qui représentent une famille plus riche et moins spécifique de données. Les concepts, considérés comme des nouvelles unités statistiques, sont décrits par des données plus complexes que celles habituellement rencontrées en analyse statistique. Elles sont dites symboliques, car en exprimant la variation interne inhérente aux concepts et en tenant compte des spécificités de la base de données, elles ne peuvent pas être manipulées uniquement par de simples descriptions numériques ou qualitatives. En cela, elles nécessitent une caractérisation plus riche mais aussi plus compacte (Cury 2010). Dans ce contexte, l'extension des méthodes classiques à de telles données représente un enjeu majeur. Le Tableau 3.1 donne un exemple simple d'une comparaison des unités d'étude d'une analyse classique et d'une analyse symbolique.

Données classiques « individus » Données symboliques « concepts »

Joueurs Équipes

Orchidées, roses Fleurs

Pigeons, canards Oiseaux

Tableau 3.1. Exemples d'unités d'étude pour une analyse classique et une analyse symbolique. La première étape de l'ADS est d'assembler et de décrire les concepts. Ceci peut être réalisé par l'utilisation de variables qui permettent non seulement de bien représenter mais aussi de caractériser ces concepts. La seconde étape consiste à analyser le tableau de données symboliques issu de la première étape. Pour cela, il est nécessaire d'élargir les notions du Data Mining et de la statistique classique au cas où les unités sont des concepts décrits par des variables symboliques. Ce type d'analyse est connu sous le nom de Knowledge Mining (Bock & Diday 2000). Ainsi, dans cette seconde étape, l'ADS n'a pas pour but d'analyser une seule sorte de données complexes. Au contraire, le but est d'analyser des concepts décrivant la

163

variation interne de leurs instances, décrites par des données de toutes sortes qui peuvent être plus ou moins complexes. Les tableaux de données symboliques peuvent comporter des objets de différentes natures (par exemple, un ensemble de plusieurs valeurs), pouvant être pondérés et liés entre eux par des règles et/ou des taxonomies. Des exemples de ces représentations sont énumérés ci-dessous :

- une seule valeur quantitative. Par exemple, si « hauteur » est la variable et z est un individu : hauteur(z) = 1,75 m,

- une seule valeur catégorique : ville(z) = Paris,

- des données catégoriques multi-valeurs : prix(z) = {haut, moyen, bas} indiquant que le prix général pour un produit z peut être haut, moyen ou bas,

- des données de type intervalle : poids(z) = [20 ; 180] signifie que le poids de z varie dans l'intervalle [20 ; 180],

- des données de type modal multi-valeurs (histogramme) : hauteur (z) = {[0 ; 1,20] (0,225) ; [1,20 ; 1,50] (0,321) ; [1,50 ; 1,80] (0,335) ; [1,80 ; 2,10] (0,119)} indiquant que 22,5% de la population z a sa hauteur comprise entre 0 et 1,20 m, 32,1% entre 1,20 m et 1,50 m, 33,5% entre 1,50 m et 1,80 m, et 11,9% entre 1,80 m et 2,10 m.

Ce type de représentation permet d'exprimer la variabilité qui entache chacun des concepts. En étendant l'analyse de données traditionnelles aux tableaux de données symboliques, l'ADS permet d'extraire des descriptions symboliques munies d'un opérateur de comparaison et d'une fonction de reconnaissance formant un triplet appelé « objet symbolique ». Ces objets symboliques décrivent les concepts par leurs propriétés communes et leur extension dans l'ensemble des individus qu'ils représentent (Billard & Diday, 2006). Les principaux avantages des descriptions symboliques peuvent se résumer comme suit :

- elles fournissent un résumé de la base de données plus générale que les données agrégées habituelles, tenant compte de la variation interne et permettant de construire un nouveau tableau de données plus riche en information pour lequel une ADS peut être appliquée ;

- afin de modéliser des concepts, elles peuvent aisément exprimer des propriétés des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple,

164

pour construire une description symbolique associée à une ville, il est possible d'utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre décrivant les écoles de chaque ville ;

- plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus pertinent d'extraire d'abord des descriptions symboliques de chaque base puis d'étudier l'ensemble des descriptions symboliques ainsi obtenues.

Afin d’illustrer la différence entre données classiques et symboliques, l'étude de la surveillance dynamique d'une structure est maintenant considérée. Un essai hypothétique E contenant 10000 valeurs mesurées par 10 capteurs accélérométriques est introduit et illustré à la Figure 3.2. Cet essai peut être représenté de manière symbolique. Dans cet exemple, les valeurs mesurées sont les individus et les capteurs sont les variables qui décrivent les essais dynamiques (ici, les concepts). Le signal mesuré par le capteur 7 est maintenant considéré. La Figure 3.3 illustre le passage de la représentation classique à la représentation symbolique. Dans cette transformation, chaque valeur mesurée est projetée sur l'axe des ordonnées. Un histogramme est alors construit, en tenant compte de la proportion de valeurs comprises entre les bornes de chaque division. Ces divisions sont nommées catégories. Le nombre de catégories est défini a priori selon le type d'étude menée et détermine la résolution ou le degré de raffinement pour la description de chaque concept.

Figure 3.2. Exemple d'un essai dynamique.

0 2000 4000 6000 8000 10000 -0.4 -0.25 -0.1 0.05 0.2 0.3 Instant de mesure A cc élé ra tio n [m .s -2 ]

165

(a) Signal enregistré par le capteur 7.

(b) Histogramme à 20 catégories. Figure 3.3. Représentation symbolique d'un signal classique par un histogramme de valeurs.

Une autre manière de représenter symboliquement cet essai est de le transformer en intervalles absolus ou interquartiles. Le premier prend en compte les valeurs minimales et maximales absolues. Le deuxième considère les valeurs correspondantes à 25% et à 75% de la distribution1. Le Tableau 3.2 illustre une description en données symboliques pour l'essai E à partir des intervalles interquartiles et des histogrammes à 20 catégories. Pour ce dernier, les valeurs entre parenthèses indiquent les proportions calculées pour chacune des catégories définies initialement.

Capteur Intervalle interquartile [m s-2] Histogramme

1 [-0,0142 ; 0,0176] [1(0,002), ..., 10(0,31), ..., 20(0,001)] 2 [-0,0517 ; 0,0675] [1(0,001), ..., 10(0,28), ..., 20(0,005)] 10 [-0,0051 ; 0,0056] [1(0,003), ..., 10(0,25), ..., 20(0,004)]

Tableau 3.2. Description symbolique de l'essai E représenté par des capteurs.