Filtrage des données - Classification de la bi-stabilité

4.4 Classification de la bi-stabilité

4.4.1 Filtrage des données

La fluctuation du signal de pression à la surface du cylindre reste tout de même importante et pour le besoin de cette première étape de classification, une réduction du bruit est indispensable. Cette phase permet de filtrer les si-gnaux bruts de la pression instantanée dans le but d’identifier les différents états stables de façon claire. Un filtrage ARMA (Auto-Regressive Moving Ave-rage) a été appliqué, et son équation est donnée par 4.11

a(1) × y(n) = b(1) × x(n) − a(2 × y(n − 1) (4.11)

avec A = [a(1)a(2)] = [11 − 2 × T ], B = b(1) = 2 × T , T la période d’acquisi-tion et y et x sont les signaux filtrés et les signaux bruts respectivement. Ces paramètres sont sélectionnés pour supprimer toutes les composantes haute fréquence.

Afin de montrer l’intérêt du filtre auto-régressif dans le processus de clas-sification, la figure (4.15b) reporte la distribution du coefficient de portance instantanée sans filtrage et avec filtrage, sur la couronne numéro trois du

diamètre D = 200mm à une vitesse de vent de 22.6m/s (Re = 2.9 × 105). Le

filtrage auto-régressif permet de réduire considérablement la dispersion des coefficients de portance. Dans le cas des données non-filtrées, le coefficient de

portance instantanée est situé sur une plage de −0.4 < CL < +1.13. Après

filtrage le coefficient de portance instantanée a considérablement réduit son

intervalle de valeurs, il est compris entre 0 < CL < +0.91. De plus, sur la

figure (4.15a) on observe une reproductibilité des sauts aux mêmes instants que le signal brut. Avec ce filtrage on limite le nombre de points à classifier mais aussi on distingue d’emblée les deux états stables dominants, le premier

proche d’un CL = 0 et l’autre proche d’un CL = 0.8. La distribution du

co-efficient de portance instantanée révèle le nombre d’états intermédiaires qui existent entre les états stables dominants. Par conséquent l’objectif de cette classification est d’éliminer un maximum d’états parasites.

Il existe deux types de classification de données, une classification super-visée et une classification non-supersuper-visée. La classification supersuper-visée dispose dans un premier temps d’un jeu de données dit d’apprentissage, généralement constitué de données classées. Ces données sont utilisées pour l’apprentissage

0 10 20 30 40 50 60 70 −1.5 −1 −0.5 0 0.5 1 1.5 Temps (s)

Coeff. de portance Instantannée

22.6m/s

Couronne 3

(a) Coefficient de portance instantanée

−1−0.8 −0.6 −0.4 −0.2 0 0.20.40.60.8 1 0 5 10 15 Coefficient de portance Pourcentage (%)

Sans Filtre ARMA

−1−0.8 −0.6 −0.4 −0.2 0 0.20.40.60.8 1 0

5 10 15

Coefficient de portance filtré (ARMA)

Pourcentage (%)

Avec Filtre ARMA

(b) Distribution du Coefficient de portance

FIGURE 4.15 Filtrage auto-régressif

des règles de classement. Pour cette classification on parle d’un rôle prédictif. La classification non-supervisée a plutôt un rôle descriptif, son utilisation est limitée uniquement à extraire de l’information. Elle permet de retrouver une typologie existante caractérisant un ensemble d’observations. Dans une clas-sification non-supervisée c’est l’appartenance des observations à un ensemble particulier qu’il faut déterminer, au contraire d’une classification supervisée où l’appartenance des observations aux différents ensembles est connue mais dont l’objectif est d’élaborer une règle de classement pour prédire l’apparte-nance d’une nouvelle observation à un ensemble. Par conséquent, le choix d’une classification non-supervisée dans notre cas est plus adéquat pour ex-traire le nombre d’états existants sur une séquence d’un coefficient de por-tance instantanée. Il existe deux grandes familles de méthodes de classifica-tion non-supervisée, les méthodes dites de particlassifica-tionnement et les méthodes dites probabilistes. Dans la méthode de partitionnement, le regroupement des observations en classes se fait sur des considérations géométriques (distances, écarts) ce qui est le but recherché dans notre cas. Cette étape de classifica-tion passe par l’utilisaclassifica-tion des clusters (classe ou particlassifica-tion) pour évaluer le nombre d’états nécessaires pour obtenir la représentation du phénomène bis-table. L’utilisation d’un algorithme des k-moyennes a été choisi pour la classifi-cation. L’algorithme des k-moyennes a été introduit par [[42] ;1967]. Il permet un positionnement de données et une division des observations en K parti-tions (clusters) dans lesquelles chaque observation appartient à la partition avec la moyenne la plus proche. Le but des clusters est de choisir un ensemble de barycentres (noyaux) dans un nuage de points dispersés. L’algorithme des k-moyennes vise à minimiser la variance intra-classe, qui se traduit par la minimisation de l’énergie suivante 4.12 :

E = ¹₂ X k∈K X x∈k ||x − m_k||= ¹₂ X x∈D min k∈K||x − m_k|| (4.12)

Avec K l’ensemble des clusters (partitions), k un seul cluster, mk le

bary-centre de la partition k et D l’ensemble des données que l’on cherche à classer. Le déroulement de l’algorithme des k-moyennes est décrit de façon explicite sur la figure (4.16). Il passe par les étapes suivantes :

1. Initialisation des noyaux. 2. Mise à jour des clusters. 3. Réévaluation des noyaux.

4. Itérer les étapes 2. et 3. jusqu’à stabilisation des noyaux.

FIGURE 4.16 Algorithme des k-means

La première étape d’initialisation des noyaux consiste à choisir k points pour être des barycentres initiaux, ce choix pouvant être de façon aléatoire. Une fois les barycentres choisis, la deuxième étape de l’algorithme appelée mise à jour des clusters, consiste à effectuer une première affectation de tout point au barycentre le plus proche. Une fois cette étape de mise à jour ter-minée, une autre itération mettra à jour les barycentres (Réévaluation des noyaux) et une nouvelle réaffectation sera réalisée. Souvent l’algorithme converge rapidement, mais la condition généralement utilisée pour stopper les itéra-tions est que la distance totale de déplacement entre les anciens barycentres des clusters et les nouveaux soit la plus faible possible. Il est évident que plus le nombre de clusters est grand plus la classification est meilleure. Cependant, il existe des critères pour définir un nombre optimal de partitions. Un des cri-tères les plus utilisés est l’indice de Davies-Bouldin.

Dans le document Galop sec des câbles inclinés des haubans de pont : Étude expérimentale de la bi-stabilité en régime d'écoulement critique (Page 115-118)