• Aucun résultat trouvé

7 1 Classification par l’algorithme des K-means à centres mobiles

Chapitre II Caractérisation de l’endommagement, durées de vie et performances résiduelles de l’UD en

II. 7 1 Classification par l’algorithme des K-means à centres mobiles

Une première méthode de classification de nos données a été faite par l’algorithme K-means : cette méthode recherche une partition en K<N classes CK d’un ensemble D de N données, D = {xi ∈

Rd}

i=1…N , qui font partie d’un espace à d dimension. Les classes générées par cet algorithme ont une

distribution gaussienne autour du centre de la classe, µK. Un critère de partitionnement vise à minimiser

52

Équation 4

L’inertie intra-classe telle qu’elle est définie dans l’Équation 4 est similaire à la notion de distance euclidienne entre les points. Chaque point est affecté à la classe dont le centre est plus proche au point. Tout d’abord, il faut initialiser les centres µK aléatoirement dans l’intervalle de définition des xi. Ensuite,

à chaque itération de l’algorithme le critère sur J diminue. L’algorithme converge au moins vers un minimum local de J, mais des initialisations différentes peuvent mener à des classes différentes (problèmes de minima locaux). Par conséquent, afin d’obtenir des « classes stables », on répète l’algorithme r fois, et on fait une opération de moyenne sur les (r – o) centres µK trouvés, où o sont les

résultats écartés car considérés comme non pertinents (outliers). Par ailleurs, généralement les algorithmes de classification « apprennent » mieux avec un grand nombre de données, c.à.d. donnent des classes plus stables. Pour cela, le k-means a été appliqué à l’ensemble des données d’EA enregistrés dans les essais de type A regroupés ensemble.

Généralement, cet algorithme requiert la définition par l’utilisateur seulement du nombre de classes K. Dans cette étude K = 2 est imposé, suivant l’objectif défini dans le début de cette section. Cependant, pour l’application du k-means à la classification d’événements acoustiques, des considérations supplémentaires sont nécessaires concernant l’espace de dimension d des données. En fait, dans ce contexte, les nombre de dimensions est le nombre de paramètres qui décrivent une salve acoustique. D’après la littérature (Ammar, 2014; Cuartas, 2015; Doan et al., 2015; Malolan et al., 2016; Ramasso et al., 2015), l’identification des mécanismes d’endommagement des composites CFRP est souvent faite à partir de l’analyse des paramètres suivants :

 amplitude ;  temps de montée ;  énergie ;  durée ;  pic de fréquence ;  centroïde de fréquence.

Parmi ces premiers jeux des paramètres, il faut choisir ceux qui sont statistiquement moins corrélés l’un l’autre. En fait, si par exemple il y en a deux qui sont fortement corrélés, ils auront un poids plus grand que les autres dans le critère de partitionnement des classes. Pour cela, une matrice de corrélation statistique entre ces paramètres a été calculée sur l’ensemble de données considérées. Par exemple, le temps de montée et l’énergie sont statistiquement très peu liés (coefficient de corrélation R= 0.09),

Figure II-19 a). Par contre, sur la Figure II-19 b) une relation évidente est observable entre l’énergie en

échelle logarithmique et l’amplitude (coefficient de corrélation R= 0.94).

Le jeu de paramètres « indépendants », issu de l’analyse de corrélation est le suivant :

 temps de montée ;

 énergie ;

 durée ;

53 Il a été choisi d’utiliser l’énergie au lieu de l’amplitude, car les valeurs de l’amplitude ont une saturation à 100 dB, comme montré sur la Figure II-19 b), et ceci peut introduire une altération dans le critère de partitionnement.

Figure II-19 : Salves acoustiques de tous les essais de type A regroupés ensemble.

Ensuite, le centroïde de fréquence a été écarté car on a constaté que les valeurs de ce paramètre suivent une gaussienne de centre de 210 kHz (Figure II-20), qui correspond au deuxième pic le plus élevé dans le spectre de réponse en fréquence des capteurs (Figure II-14). D’ailleurs, dans la section II. 4 il est montré que les essais CD-A et CD-B sur éprouvettes [0°]8 ont produit des EA avec centroïde de fréquence autour du premier pic de résonance des capteurs. Le décalage au deuxième pic pour les essais de fatigue est supposé être dû à l’utilisation des éprouvettes [0°]4 . Enfin, il semble vraisemblable que le centroïde

de fréquence est un paramètre qui peut être influencé par les dimensions des éprouvettes et par le choix des capteurs. En revanche il ne semble être que légèrement influencé par les sources d’EA, étant donné que les valeurs se distribuent autour des fréquences caractéristiques des capteurs. Enfin, les paramètres restant sont trois : le temps de montée, l’énergie et la durée. Ces paramètres seront appelés descripteurs et ils doivent piloter l’algorithme dans l’identification des deux classes ayant 3 dimensions. Comme aucune contrainte n’est imposée aux centres de classes, on dit que le k-means est « à centres mobiles ». Par ailleurs, il y a des descripteurs, comme par exemple l’énergie, qui s’étendent sur une plage de valeurs largement plus grande que celle d’autres descripteurs, comme par exemple le temps de montée (Figure

II-19 a). Si on utiliserait directement ces valeurs brutes comme données d’entrée d’un algorithme de

classification, beaucoup plus de poids sur le critère de partitionnement serait donné aux descripteurs qui s’étendent sur la plage des valeurs la plus large. Par conséquent, il est nécessaire de normaliser les données pour les amener dans un espace standard, avant de les injecter dans le k-means. Pour cela, il faut calculer la moyenne et l’écart type des valeurs pour chaque descripteur, et pour chacune de ses valeurs, soustraire la moyenne et diviser par l’écart type. Ensuite, ces données normalisées sont utilisées par l’algorithme, qui fournira donc les résultats exprimés dans l’espace normalisé. Ensuite, ces résultats seront ramenés dans l’espace originel a posteriori, après convergence.

54

Figure II-20 : Visualisation en histogramme de la répartition des valeurs du centroïde de fréquence de tous les essais de type A regroupés ensemble, et densité de probabilité de cette répartition.

Résultat de la classification

Le k-means a été appliqué 100 fois, et une moyenne des résultats a été faite après avoir écarté les 10% de résultats considérés comme non pertinents. La Figure II-21 synthétise les résultats issus de cette moyenne. On rappelle que la détection de deux classes a été imposée (ruptures des fibres et autre). Les points ronds sont les centres des classes (résumés dans le tableau en bas à droite de la figure) ; l’intervalle associé à chaque centre est le 95° percentile de chaque classe, c.à.d. l’intervalle qui contient 95% des valeurs « les moins extrêmes » de la classe. Même si les descripteurs sont trois (temps de montée, durée, énergie), on préfère regarder les 5 paramètres présentés sur la figure, afin d’avoir plus de renseignements pour déduire la source acoustique de chaque classe, et pour comparer avec les résultats trouvé dans la littérature. On voit que les deux centres C1 et C2 sont assez proches l’un de l’autre pour chaque paramètre ; de plus, le temps de montée et la durée du centre µK1 sont inférieurs à ceux du

centre µK2, et le contraire pour l’amplitude et l’énergie. Dans ce contexte, il semble difficile d’identifier

la classe qui corresponde aux ruptures des fibres. De plus, le centre d’une classe se trouve à l’intérieur de l’intervalle (95° percentile) de l’autre classe. En résumé, il s’agit d’une situation où la règle d’affectation basée sur le critère métrique du k-means (affecter chaque valeur xi au centre µK le plus

proche) est peu efficace. Pour cela, des étapes supplémentaires semblent nécessaires afin d’améliorer la classification.

55

Figure II-21 : Centres des classes et 95° percentiles des événements acoustiques de tous les essais de type A regroupés ensemble. K-means à centres mobiles, avec trois paramètres descripteurs (temps de montée, durée, énergie). Les résultats

sont la moyenne issue du test répété 100 fois.

Documents relatifs