Méthodes de classification supervisée - Méthodes de classification des données

Chapitre 2 Outils méthodologiques pour optimiser la gestion des ouvrages existants

3.2 Data mining et analyse de données symboliques (ADS)

3.2.3 Méthodes de classification des données

3.2.3.2 Méthodes de classification supervisée

j i k T k j i j i i x C W x c x c   

 

  (3.20)

Dans ce cas, x_j représente assigné au jème cluster, et c représente le centroïde ou médoïde _i

du ième cluster. Le paramètre optimal k correspond au maximum de la fonction K L k( ).

Indice silhouette

Cette méthode est basée sur la définition d’un indicateur définissant la qualité de chacun des objets i. L’indicateur est défini comme indiqué ci-dessous (Rousseeuw, 1987) :

( ) ( ) ( ) max[ ( ), ( )] i b i a i sil x a i b i   (3.21)

où a i( ) dénote la distance moyenne de l’objet i à tous les objets du même cluster, et b i( ) la distance moyenne de l’objet i aux objets du plus proche cluster.

La notion de silhouette peut-être étendue de l’échelle d’un objet à l’échelle d’un cluster en utilisant la moyenne des silhouettes de chaque objet :

1 ( ) ( ) i j j i x C j sil C sil x C  



, (3.22)

Finalement, l’indice silhouette est une moyenne de l’indice silhouette de chacun des clusters :

1 1 ( ) ^k ( )_r r sil k sil C k  



, (3.23)

L’optimum k étant associé à la valeur maximum de sil k( ).

3.2.3.2 Méthodes de classification supervisée

L'objectif des méthodes basées sur la classification supervisée est de construire un modèle (un classificateur) capable de relier une nouvelle observation à une classe connue après avoir observé un certain nombre d'observations. La première étape d'une classification supervisée consiste à définir des étiquettes connues au préalable pour chaque classe contenant des ensembles d'observations différents. Dans cette étape, souvent nommée entraînement, il est nécessaire que l'algorithme de la méthode apprenne les caractéristiques de chaque classe. L'objectif est de permettre, dans une deuxième étape nommée test, la généralisation (voire même l'extrapolation) de ses connaissances et l'étiquetage correct de nouvelles observations. Plusieurs méthodes de classification supervisée existent dans la littérature (Tableau 3.4). Leur utilisation est très vaste dans les domaines du génie civil, de l'économie, de la biologie, etc.

177

Ce fort intérêt est associé à un développement significatif d'algorithmes robustes pour réaliser des études de discrimination et prédiction de données. Trois méthodes de classification couplées à l’analyse de données symboliques (ADS) sont présentées ci-dessous avec pour objectif la discrimination de différents comportements structuraux.

Familles de Techniques prédictives dites aussi « supervisées »

Types Famille Sous-famille Algorithme

Méthodes Prédictives Modèles à base de règles logiques Arbre de segmentation

Arbres de segmentation (variable à expliquer continue ou catégorielle) Modèles à base de fonctions mathématiques Réseaux de Neurones

Réseau à apprentissage supervisé : Perceptron multicouche.

Modèles paramétriques ou

semi-paramétriques

Régression linéaire ANOVA (ANalysis Of VAriance), MANOVA (Multivariate ANalysis

Of VAriance)

Modèles linéaire général (GLM) Régression des moindres carrés partiels (Partial

Least Square regression – PLS) Analyse discriminante de Fisher Régression logistique classique, PLS pour Programmation linéaire séquentielle (Variable à

expliquer catégorielle)

Modèle log-linéaire (variable à expliquer discrète= comptage)

Modèle linéaire généralisé, modèle additif généralisé (variable à expliquer continue, discrète

ou catégorielle) Prédiction

sans modèle

Détection des

liens ^{K-plus proches voisins}

Tableau 3.4. Présentation des méthodes prédictives (Tuffery 2007).

3.2.3.2.1 Arbres de décision Bayésiens (ADB)

Les ADB consistent en une procédure de décision qui possède une structure similaire à celle décrite pour les divisions hiérarchiques. La principale différence est que les ADB sont construits en tenant compte de groupes (classes) connus au préalable. En cela, les variables discriminantes sont calculées et des nouveaux essais (inconnus) sont classés selon les critères définis. La méthode est détaillée par Diday & Noirhomme-Fraiture (2008). L'extension de cette technique à des variables symboliques est un aspect original.

3.2.3.2.2 Réseaux de neurones

De façon générale, des études sur les réseaux de neurones ont débuté en 1943 avec les travaux de McCulloch & Pitts (1943). Cependant, la notion d'apprentissage n'est introduite qu'en 1958 par Rosenblatt (1958). Quelques années plus tard, Hopfield (1982) propose des réseaux

178

associatifs à plusieurs couches qui ont montré être capables de résoudre des problèmes plus complexes. La dernière amélioration a été apportée par Rumelhart et al. (1986) qui ont proposé un algorithme basé sur la rétropropagation de l'erreur, permettant d'optimiser les paramètres d'un réseau de neurones. De nos jours, cette méthode est appliquée dans de nombreuses études dans le domaine scientifique et aussi industriel.

Un réseau de neurones est un modèle de calcul qui s'inspire du principe de fonctionnement du cerveau humain, en tenant compte de leurs liaisons synaptiques et de leurs règles de propagation du signal électrique. Ainsi, l'objectif des réseaux de neurones artificiels est non seulement de modéliser le fonctionnement des neurones réels, mais aussi de permettre l'apprentissage de nouvelles règles d'association, de décision, de prédiction, etc.

Cette technique a démontré sa capacité à résoudre des problèmes sur la classification linéaire et non linéaire. Généralement, les réseaux de neurones sont « ajustés » ou « entraînés » de sorte qu'une observation connue en entrée mène à un résultat spécifique en sortie. En effet, ceci est l'idée générale des méthodes supervisées en définissant des étiquettes pour chaque donnée d'entrée. Par ailleurs, l'entraînement du réseau est basé sur une comparaison itérative entre sa sortie et l'étiquette donnée jusqu'à ce que le réseau donne le résultat souhaité. Le but de l'entraînement est de permettre au réseau de neurones « d'apprendre » des règles à partir des observations initiales. Si l'entraînement est correctement réalisé, le réseau est capable de fournir des réponses en sortie très proches (voire même identiques) des étiquettes du jeu de données d'entraînement. Ce principe est illustré par la Figure 3.6.

Figure 3.6. Schéma d'entraînement d'un réseau de neurones.

Le fonctionnement des neurones biologiques peut être décrit à partir de modèles mathématiques plus ou moins bien ajustés. Le plus connu a été proposé par McCulloch & Pitts (1943). Dans ce modèle, quatre éléments basiques sont définis : les données d'entrée, représentées par les essais ,( = 1, , )E i_i  n , un biais _j, les poids synaptiques w_jg et les sorties y_j où j indique le neurone étudié et g est l'indice qui relie une entrée à un poids. La

179

première étape, définie par la fonction de combinaison  consiste à sommer les données d'entrée multipliées par les poids synaptiques. Cette étape est suivie d'une autre définie par une fonction d'activation  qui caractérise, à partir du résultat de l'étape précédente, la sortie du neurone. Cette fonction a pour but de vérifier si la somme pondérée des données d'entrée dépasse un certain seuil ou non. Si oui, la sortie du neurone n'est pas propagée dans le réseau. La Figure 3.7 illustre le modèle proposé par McCulloch et Pitts (1943).

Figure 3.7. Modèle mathématique d'un neurone artificiel.

Dans la Figure 3.7, (E_i_,1,E_i_,2, , E_{i g}_, ) dénotent les entrées d'un neurone, où g est le nombre de caractéristiques de chaque essai. L'assemblage des neurones énoncés précédemment forme le réseau de neurones. Schématiquement il est représenté par un graphe orienté où les neurones et les synapses (les connexions) sont symbolisés par des cercles et des flèches, respectivement (Figure 3.7). Le réseau utilisé a une architecture composée de plusieurs neurones et de différentes couches. Ce type de réseau, souvent nommé MLP (Multilayer

Perceptron) est constitué d'une couche d'entrées, d'une couche de sorties et d'un nombre

variable de couches cachées (qui dépend de la complexité du problème). En effet, c'est l'existence des couches cachées qui permet au réseau de neurones de résoudre des problèmes non linéaires.

Par ailleurs, il y a trois topologies de réseaux MLP qui déterminent comment l'information est transmise d'un neurone à un autre. La première, utilisée dans ce paragraphe, est la propagation vers l'avant (feed-forward propagation). Dans ce cas, chaque neurone d'une couche se connecte avec tous les autres de la couche suivante. Toutefois, il n'existe pas de connections entre neurones d'une même couche. L'information provient de la couche d'entrées et ensuite

180

est transmise aux couches cachées, qui finalement la transmettent à la couche de sorties. La Figure 3.8 illustre cette classe de MLP avec deux couches cachées.

Figure 3.8. Réseau de neurones du type MLP.

Les deux autres topologies de MLP considèrent une propagation vers l'arrière (feed-backward

propagation) où les neurones se communiquent entre eux dans tous les sens, et une

propagation concurrente, où les meilleurs neurones d'une couche sont choisis (d'après un critère pré-défini) pour transmettre l'information. Un exemple de cette dernière topologie est le réseau de Kohonen, aussi connu sous le nom de cartes auto-organisatrices.

L'apprentissage d'un réseau de neurones MLP est un procédé itératif, souvent appelé « apprentissage par expérience ». Le principal algorithme utilisé pour l'entraînement d'un réseau est basé sur la technique de rétropropagation du gradient ou propagation de l'erreur (backpropagation). Cette technique a pour objectif de trouver les poids des connexions qui minimisent l'erreur quadratique moyenne (EQM) commise par le réseau sur l'ensemble de l'apprentissage. De façon itérative, les valeurs de sortie du réseau sont comparées aux étiquettes définies au préalable et les différences sont évaluées par une fonction erreur (comme l'EQM, par exemple). Ensuite, l'erreur est rétropropagée dans le réseau et l'algorithme ajuste les poids de chaque connexion inter-neurones afin de diminuer les différences entre les valeurs de sortie et les étiquettes. Après avoir répété cette procédure un certain nombre de fois, le réseau converge généralement vers un certain état où l'erreur des calculs est négligeable. Dans ce cas, le réseau est considéré « entraîné ».

181

3.2.3.2.3 Machines à vecteurs support

Une machine à vecteurs supports (Support Vector Machine ou SVM) est une méthode de classification supervisée, introduite par Vapnik (1995). Elle repose sur l'existence d'un classificateur dans un espace approprié, le but étant de séparer des données en deux classes distinctes. Pour cela, il est nécessaire d'utiliser un jeu de données d'entraînement pour apprendre les paramètres du modèle.

Considérons un ensemble de données d'entraînement représentées dans un espace d'une certaine dimension et distribuées selon deux classes. Le but des SVM est de trouver un séparateur linéaire ou non entre ces deux classes de données qui maximise la distance entre ces dernières. Dans le cas des SVM, ce séparateur est souvent appelé hyperplan. Un hyperplan est une généralisation à v dimensions (v étant le nombre de variables) d'une ligne (1 dimension) séparant un espace à 2 dimensions, ou d'un plan (2 dimensions) séparant un espace à 3 dimensions. Une fois cet hyperplan déterminé, il est utilisé pour déterminer la classe à laquelle appartient une donnée différente de celles de l'ensemble d'entraînement. Les points des deux classes les plus proches de l'hyperplan les séparant sont appelés vecteurs

supports, comme illustré à la Figure 3.9.

Figure 3.9. Séparation de deux classes de données par un hyperplan H .

3.2.3.3 Utilisation de l’analyse de données symboliques pour la fusion de données

Dans le document Gestion des ouvrages d'art sur leur cycle de vie - Approche transversale de la modélisation à la prise de décision (Page 189-194)