Conclusions - Détection de ruptures et identification des causes ou des symptômes dans le fonct

Figure 25: Représentation d’une phase croissante d’un vol ayant 3 modes; ID_FM=’012’.

Dans la suite, les étiquettes ID_FM des phases transitoires seront utilisées pour les caractériser.

3.5 Conclusions

Nous avons implémenté une méthode de segmentation d’un signal univarié afin d’en extraire les phases transitoires et les phases stabilisées.

Parmi les méthodes implémentées, le PELT-BIC représente le meilleur com-promis du point de vue des critères de performance (tant en online qu’en offline). L’ensemble des résultats (sur données simulées et données réelles) a été validé par ces critères de performance et également par les experts.

La méthode online est très proche de la méthode offline. Elle est un peu plus sensible aux changements abrupts de faible amplitude tels que ceux qui se produisent dans les croisières et elle est moins dépendante de la longueur de la série temporelle (contrairement au offline PELT-BIC). Cependant cette méthode est plus coûteuse que le PELT-BIC en temps de calcul.

Les points de ruptures détectés et validés définissent une segmentation de chaque série temporelle observée, qui peut alors être caractérisée par la suite de ses phases transitoires et stabilisées. Dans le chapitre suivant, on s’intéresse à toutes les phases transitoires croissantes et décroissantes tous vols confondus. Il est primordial dans la suite de ce travail que la fréquence d’acquisition soit la même d’un vol à un autre dans le but de les comparer et de les analyser.

4 Clustering des phases transitoires

Nous cherchons à étudier et classer les phases transitoires extraites de l’ensemble des vols de la base de données. Après avoir identifié les phases croissantes, décroissantes et stabilisées, on ne tient plus compte de la position de la phase dans la série temporelle et chaque segment est maintenant calé au temps 1.

Dans la suite, nous nous bornons à travailler sur les phases croissantes et décroissantes puisque les phases stabilisées apportent peu d’information sur les anomalies. Comme il s’agit de classer les phases transitoires croissantes (ou décrois-santes) sans connaître la variable Flight_Mod correspondante, les données à classer ne sont pas labellisées et nous devons utiliser des méthodes de classification non supervisées (ou clustering). Pour simplifier la présentation, on s’intéresse d’abord aux seules phases transitoires croissantes, mais les résultats empiriques sont obtenus dans les deux cas. Rappelons que ces phases sont déterminées par la méthode offline puisque les deux méthodes offline et online sont quasiment équivalentes (voir la partie 3.4).

Dans ce chapitre, après avoir rappelé quelques notions sur les algorithmes de classification non supervisée, nous introduisons l’algorithme de Kohonen (Self-Organizing Map - SOM), le SOM Kernel et le SOM relationnel. A l’aide de deux de ces méthodes, nous déterminons des classes de phases transitoires (croissantes et décroissantes) de la variable N1. Nous comparons les deux méthodes du point de vue de la qualité du clustering en tenant compte des avis des experts. Ensuite nous analysons l’effet de la variable température (T3) sur les clusters de phases transitoires de N1. Pour cela, chaque cluster est à son tour partitionné en sous-clusters selon la variable T3. Nous utilisons une carte de Kohonen à l’intérieur de chaque cluster, de façon hiérarchisée.

Rappelons que le but des méthodes de clustering est de regrouper des obser-vations/objets/individus dans des classes homogènes et bien séparées. Une fois définie une dissimilarité entre observations, il s’agit de construire des classes telles que les dissimilarités prises deux à deux entre observations d’une même classe soient "pe-tites", et les dissimilarités entre observations de classes différentes soient "grandes".

En pratique on rencontre deux situations :

1. Si les observations sont des vecteurs dans Rp, X_i et X_i�, on définit en général la dissimilarité entre Xiet Xi� en prenant le carré d’une distance euclidienne de Xi

et Xi�, soit

D²(Xi, Xi�) = (Xi− X_i�)Λ(Xi− X_i�)^T,

où Λ est une matrice symétrique définie positive (des pondérations, des variances, ...).

4.1 Algorithmes de clustering dans le cas euclidien 54

graphes, ...), on peut alors définir soit des mesures de similarité (des noyaux, ...) ou des mesures de dissimilarité. Dans ce cas, les observations sont connues à travers leur matrice de distances ou de dissimilarités D = (Di,i�). Ces dissimi-larités peuvent être données a priori, ou calculées selon le contexte, c’est ce qui est fait dans la section 4.2.3.

4.1 Algorithmes de clustering dans le cas euclidien

On suppose qu’on a N données d’échantillonnage (x1, x2, · · · , xN) dans l’espace eu-clidien Rp, réparties en U classes (C₁, C2, · · · , CU), obtenues par une méthode de clustering quelconque. L’ensemble des données est noté Ω. Ces U classes forment une partition de Ω,

Ω= C1∪ C₂∪ · · · ∪ CU

∀i �= j, Ci∩ Cj = ∅.

Si Nu est la cardinalité de la classe Cu alors N = �U

u=1Nu. On note ¯x =

1 N

�N

i=1xi le centre de gravité de l’ensemble des données et ∀u = 1, · · · , U, ¯x_u =

1 Nu

�

xi∈Cuxile centre de gravité de la classe Cu. On définit la somme des carrés totale par

ST(C1, C2, · · · , CU) =

�

i=1

�xi− ¯x�² (16) On définit également la somme des carrés intra et la somme des carrés inter:

SIntra(C1, C2, · · · , CU) = U � u=1 � xi∈Cu �xi− ¯xu�² (17) SInter(C1, C2, · · · , CU) = U � u=1 Nu�¯xu− ¯x�². (18) On sait que : ST = SIntra+ SInter.

Pour réaliser une “bonne” classification pour un nombre de classes fixé, on cherche à minimiser la somme des carrés intra, ce qui revient à maximiser la somme des carrés inter. Cela équivaut à obtenir des classes homogènes et bien séparées. Dans

4.1 Algorithmes de clustering dans le cas euclidien 55

les implémentations algorithmiques, ce problème n’admet pas de solution unique et on obtient en général un minimum local de la somme des carrés intra, dépendant de l’initialisation. Si le nombre de classes n’était pas fixé, la minimisation de la somme des carrés intra conduirait à une solution triviale nulle à N classes, où chaque obser-vation constitue une classe.

L’une des méthodes de clustering les plus utilisées est la classification hiérarchique ascendante (CHA) (Gower & Ross, 1969). Le nombre de classes n’est pas fixé a priori. La situation initiale correspond à N classes à un élément, et les regroupements successifs conduisent à une seule classe contenant toutes les observa-tions. Cet algorithme fournit en fait une suite de partitions emboîtées de l’ensemble des données.

Une autre méthode très utilisée est la méthode des centres mobiles (appelée également algorithme de Forgy) (Forgy, 1965). On se donne le nombre de classes U a priori. On initialise U prototypes p1, p2, · · · , pU aléatoirement dans l’espace des observations et on en déduit les classes C₁, · · · , CU par la méthode des plus proches voisins, c’est-à-dire qu’on assigne à la classe Cu les observations plus proches de pu

que des autres prototypes pv avec v �= u. Les prototypes sont ensuite recalculés en prenant les centres de gravité des classes et ainsi de suite. On redéfinit les classes, on recalcule les prototypes, etc.... Cette méthode est déterministe (à part l’initialisation des prototypes), on montre que la somme des carrés intra SIntra est décroissante et converge vers un minimum local.

La méthode d’apprentissage compétitif (ou K-means) (Lloyd, 1982) est la version online de la méthode des centres mobiles. Le but est partitionner les N observations en U classes en minimisant la somme des carrés intra. A chaque unité u, est attaché un prototype pu élément de Rp. Au temps t = 0, les prototypes sont initialisés aléatoirement et notés p(0) = (p1(0), ..., pU(0)). L’algorithme K-means est défini itérativement comme suit :

• on tire aléatoirement au temps t une observation x(t + 1) • on détermine le numéro w du prototype gagnant :

w(x(t + 1), p₁(t), p₂(t), · · · , pU(t)) = arg min

{�x(t + 1) − pu(t)�} ; • on met à jour les prototypes en posant :

�pw(t + 1) = pw(t) + µ(t)(x(t + 1) − pw(t)) pu(t + 1) = pu(t) pour u �= w

où µ(t) est un paramètre d’apprentissage (positif, inférieur à 1 et décroissant ou constant).

Dans le document Détection de ruptures et identification des causes ou des symptômes dans le fonctionnement des turboréacteurs durant les vols et les essais (Page 52-57)