Algorithme proposé - Association simultanée de la coalescence et de la sélection de paramètres

3.4. Association simultanée de la coalescence et de la sélection de paramètres

3.4.2. Algorithme proposé

hybrides ‘algorithme génétique – recherche locale’, qui in

uvent être combinées simultanément pour rechercher d'une part, la meilleure représentation possible des observations (détermination du vecteur forme optimal) et, d'autre part, la meilleure structure de l'ensemble d'apprentissage en classes. C’est ce qui va être présenté dans la partie suivante.

sélection de paramètres

Dans la littérature, de no

ramètres et de la coalescence en utilisant soit le recuit simulé [Brown, 92], [Selim, 91] ou les algorithmes évolutionnaires [Brill, 92], [Krishna, 99], [Hall, 99], [Raymer, 00], [Yang, 98]. Ces méthodes entreprennent souvent l’étape de coalescence et de sélection de paramètres séparément. En effet, ces méthodes dédiées à la coalescence, [Brown, 92], [Selim, 91], [Hall, 99] supposent que tous les paramètres sont d’importances égales tandis que les méthodes dédiées à la sélection des paramètres [Raymer, 00], [Yang, 98] sont développées en mode

supervisé. Il semble alors intéressant de réunir ces deux tâches simultanément, c’est-à-dire de

développer une méthode de sélection de paramètres en mode non supervisé (sans connaissance sur la structure en classes de Xa).

Pour cela, la méthode de sélection de param

pplication des algorithmes génétiques, servira de base au développement de cette double tâche.

Récemment, beaucoup de méthodes

corporent les procédures d’amélioration locale aux AGs traditionnels, ont été proposées et appliquées avec succès pour résoudre une grande variété de problèmes d’optimisation. Nous utiliserons ce type de méthodes pour faire de la sélection de paramètres une partie intégrante de la procédure de structuration en M classes de Xa (étape de coalescence). Pour réaliser ceci, une représentation composée d’éléments binaires et de nombres réels, codant respectivement, les paramètres et les centres de gravité, est créée. Cette représentation forme un chromosome, qui constitue la population initiale. Le nombre de classes étant inconnu, la taille des centres

de gravité, codée dans un chromosome, peut varier. Par conséquent, les opérations de croisement et de mutations sont modifiées afin d’aborder le concept des chromosomes composés avec des tailles variables. De plus, les opérateurs de recherche locale sont conçus pour raffiner la sélection des paramètres et des centres de gravité codés dans les

chromosomes. Ces opérateurs déplacent des solutions vers des optima locaux, et les

améliorations de ces opérateurs sont accumulées au fil des générations, ayant pour résultat une amélioration importante des performances globales.

3.4.2.1. Fonction d’adaptation

’est-à-dire obtenir la meilleure séparation entre le

3.4.2.2. Codage utilisé pour la représentation d’un chromosome

de variables re

Le problème est toujours du même ordre, c

s différentes classes de X_a en choisissant les meilleurs paramètres. Par contre, cette fois-ci, aucune connaissance n’est disponible sur le nombre de classes a priori. Toutefois, la fonction d’adaptation utilisée en 3.2.2.3.3.2 (équation 3.23) semble parfaitement convenir à ce genre de problème.

Chaque chromosome k (k=1,P) de la population initiale est composé

présentant la sélection des paramètres et les centres de gravité des classes. La partie ‘sélection de paramètres’ est une chaîne de d éléments binaires ou chacun représente un paramètre, les valeurs 1 et 0 signifiant respectivement ‘sélectionné’ ou ‘éliminé’. La partie ‘centre de gravité’ est composée de M_k×d nombres réels, ou M_k est le nombre de classes codé dans le chromosome k. Les d p res positions représentent les d dimensions d’un premier centre de gravité, les d suivantes positions représentent ceux du second centre de gravité, et ainsi de suite. Par exemple, dans un espace de dimension quatre avec 3 classes, le

chromosome k, représenté par le vecteur V

remiè = gravité de es Vk 1 0 1 0 1.5 2.1 1.7 3.5 23.2 20.9 15.8 16.7 7.8 6.9 9.5 7.6 (3.27)

code trois centres de gravité, (1.5, 2.1, 1.7, 3.5), (23.2, 20.9, 15.8, 16.7), et (7.8, 6.9, 9.5, 7.

P initiaux formant la population est construit, en ce qui co k, ⎡ paramètres centr ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣

6) avec le premier et le troisième paramètres sélectionnés. Seuls ces paramètres sont utilisés pour évaluer les centres de gravité.

Chaque chromosome k parmi les

ncerne la partie ‘sélection de paramètres’, par l’attribution aléatoire d’éléments binaires pour chacun des d paramètres. Pour la partie ‘centre des classes’, les valeurs initiales de ces

centres sont déterminées de façon aléatoire dans un intervalle correspondant à la gamme de variation de chacun des paramètres. Le nombre de classes initiales Mk est choisi lui aussi de manière aléatoire entre l’intervalle [2,Mkmax] avec Mkmax le nombre maximal de classes. Ce

nombre est pris égal à N (N, le nombre de vecteurs contenu dans Xa). Cette règle est souvent utilisée dans la littérature [Pal, 95].

3.4.2.3. Croisement et mutation

ction de paramètres’ codée dans un chromosome, l’o

s classes’, le même opérateur de croisement en 2 points est ut

ement M1 et M2 centres de gravité. x1 et En ce qui concerne la partie ‘séle

pérateur croisement est le même que celui utilisé dans 3.2.2.3.3.4. Le croisement en 2 points, appliqué sur chaque couple de parents, choisit 2 points de croisement de façon aléatoire et inverse alternativement le segment sélectionné dans chaque parent (figure 3.6). Après chaque croisement, les d éléments binaires des P individus sont considérés pour la mutation. La valeur 1 est remplacée par la valeur 0 et vice versa. Cet opérateur est appliqué sur un individu avec une probabilité Pm égale à 1/d. L’élément binaire à muter est choisi aléatoirement. De même que dans 3.2.2.3, ces opérateurs peuvent générer des enfants ‘non valides’ (sans paramètres sélectionnés). De ce fait, les opérateurs sont répétés jusqu’à avoir au moins un paramètre sélectionné.

Concernant la partie ‘centre de

ilisé. Durant le croisement, les centres des classes sont considérés comme indivisibles, c’est-à-dire que les points de croisement ne peuvent se trouver qu’entre deux centres. Dans ce but, l’opérateur de croisement est défini comme suit :

- Deux chromosomes k1 et k2 codent respectiv

x2, les points de croisement de k1 sont générés aléatoirement dans l’intervalle [0,M1]. Si x1 est plus grand que x2, il est nécessaire de permuter ces deux valeurs pour s’assurer que x2>x1. Les points de croisement de k2 sont ensuite générés toujours de façon aléatoire dans l’intervalle [0, M2-|x2-x1|] pour x3 et x4= x3 + |x2-x1|, où |x2-x1| est la taille du segment entre les points de croisement x1 et x2. Après cela, l’information du segment entre x1 et x2 de k1 est échangée avec l’information du segment entre x3 et x4 de k2. Avec la règle ci-dessus, le nombre de classes des enfants sera le même que leurs parents k1 et k2. L’opérateur de croisement est exécuté sur chaque couple de parents. Après le croisement, une faible probabilité de mutation gaussienne est appliquée sur les enfants. La mutation gaussienne additionne une valeur aléatoire de distribution gaussienne sur une des dimensions

d’un centre de gravité. La nouvelle valeur de la dimension est coupée si elle se situe en dehors de limites inférieures ou supérieures de cette dimension.

3.4.2.4. Opérations de recherche locale

Les algorithmes génétiques convergent vers l’optimum global grâce aux opérateurs de croisement et de mutation. Cependant, pour des problèmes complexes, il se peut que le temps de calcul pour converger vers la solution optimale soit assez long. Par conséquent, l’incorporation d’un algorithme de recherche locale améliore notablement les performances d’AG.

Ainsi, deux opérateurs supplémentaires, ajout et élimination, sont introduits. Ces opérateurs opèrent sur la partie ‘sélection de paramètres’. Ils permettent la recherche vers des optima locaux durant le processus de sélection de paramètres.

• Ajout : choisir le paramètre le plus discriminant à partir du sous-ensemble de paramètres non sélectionnés, et changer son statut en ‘sélectionné’.

• Elimination : choisir le paramètre le moins discriminant à partir du sous-ensemble de paramètres sélectionnés, et changer son statut en ‘éliminé’.

Les opérateurs travaillent avec une solution courante de sélection de paramètres, codée dans un chromosome, et ils exécutent des recherches locales autour de cette solution en enlevant le paramètre le moins discriminant et en ajoutant le plus discriminant. De ce fait, il y a toujours le même nombre de paramètres sélectionnés. Cette procédure est appliquée sur tous les nouveaux enfants durant chaque génération.

Afin d’améliorer l’efficacité de calcul, l’algorithme des HCM est appliqué sur les centres des classes codés dans tous les nouveaux enfants durant chaque génération, après la procédure d’ajout et d’élimination de paramètres. Cette étape est réalisée en affectant les vecteurs de Xa

aux classes dont le centre de gravité, codé dans le chromosome, est le plus proche (en terme de distance soit euclidienne, soit de Mahanalobis). Après cela, les centres de gravité, codés dans le chromosome, sont remplacés par la moyenne des vecteurs de leurs classes respectives.

3.4.2.5. Problème multimodal

Pour un AG standard, la population converge rapidement vers une région prometteuse de l’espace de recherche. Cependant, cette caractéristique, attrayante pour les problèmes unimodaux, peut ne pas être intéressante pour beaucoup de problèmes. En effet dans le cas de fonctions multimodales telles que la coalescence et la sélection de paramètres, l’algorithme

risque de converger vers un optimum local, du fait de la perte de la diversité au sein de la

population. De plus, le couplage avec les opérations de recherche locale peut accentuer cet

effet puisque la recherche locale accélère la convergence des algorithmes génétiques. Par conséquent, une certaine diversité doit être maintenue, tout au long des générations, au sein de la population, afin d’éviter que tous ces individus ne soient des clones du meilleur d’entre eux. Le principe consiste à empêcher l’accumulation d’individus dans une région de l’espace de recherche, en considérant des sous-populations, autour des meilleurs points de la fonction, au sein de la population. Plusieurs méthodes peuvent être utilisées comme le sharing [Goldberg, 94], le clearing ou le crowding [Mahfoud, 92].

3.4.2.6. AG multi-population pour l’optimisation multimodale

L’algorithme proposé permet d’identifier plusieurs optima de la fonction, en générant des sous-populations centrées sur ces optima. Cette caractéristique est très intéressante du fait qu’en général, les problèmes d’optimisation réels, tels que la coalescence, mènent souvent à plusieurs optima locaux. La recherche des optima d’une fonction est réalisée à travers un processus d’exploration, qui a pour tâche de localiser les zones prometteuses de la fonction (pics pour le cas d’une maximisation). Durant cette phase, dite de ‘diversification’ (exploration), l’algorithme génétique multi-population détecte les ‘niches’ potentielles, en regroupant les individus dans différentes sous-populations, en fonction de leur similarité (spéciation).

3.4.2.6.1. Diversification

Afin de maintenir une diversité suffisante au cours de l’évolution, une organisation de la

population en sous-populations a été proposée. Ce scindement de la population est réalisé lors

de l’étape dite de ‘spéciation’. Celle-ci a pour fonction de maintenir une certaine diversité entre les sous-populations, en regroupant des individus exploitant une même région au sein d’une même sous-population.

Cependant, pour encourager la prolifération de bons individus dans l’ensemble des sous-populations, un échange d’individus se fait périodiquement entre celles-ci, à travers l’opérateur de ‘migration’. En outre, l’échange d’individus issus de régions différentes permet de générer (par le biais de l’opérateur de croisement) des individus de nouvelles régions, encore non explorées, et peut être prometteuses.

3.4.2.6.1.1. Migration

Cet opérateur consiste en un échange d’individus entre les sous-populations. Ce mécanisme, représenté sur la figure 3.11, permet de garder une certaine diversité au sein des sous-populations et de mieux explorer l’espace de recherche. La sélection des individus à migrer et de ceux qui seront remplacés peut être faite de différentes manières, chacune d’elles apportant un niveau de diversité plus ou moins accentué.

Fig. 3. 11. Représentation symbolique de la migration dans un AG multi-population

Ainsi, la migration choisie, se fait entre toutes les sous-populations, et de façon aléatoire. En ce qui concerne la stratégie de sélection/remplacement, qui détermine pour la sous-population réceptrice, l’individu à remplacer et celui qui le remplace, il a été choisi de remplacer le plus mauvais individu par un individu au hasard.

3.4.2.6.1.2. Spéciation

La spéciation est le regroupement des individus selon leurs ressemblances génétiques. De ce fait, après cette étape, chaque sous-population regroupe des individus ‘semblables’ exploitant un même pic de la fonction d’adaptation. Le nombre n de sous-populations retenu dépend du paysage de la fonction d’adaptation. Idéalement n doit être égal au nombre de pics de cette fonction. Pour notre problème de coalescence associée à la recherche du sous-ensemble de paramètres le plus discriminant, on distingue autant de sous-populations (niches) qu’il y a de nombre de classes, c’est-à-dire de 2 à N (N, nombre de vecteurs dans X_a). Ceci peut être résumé de la façon suivante : les niches principales regroupent les individus qui présentent le même nombre de classes mais un nombre de paramètres sélectionnés différent.

Dans ses niches principales, il est encore possible de diviser en sous-populations les

Prenons un exemple : on crée une population initiale composée de 60 individus. Tout d’abord on regroupe les individus constitués du même nombre de classes. Ceci forme les niches principales. Ensuite dans chaque niche, les individus sont constitués d’un nombre de paramètres différents. Il est donc possible de regrouper les individus possédant le même nombre de classes et un même nombre de paramètres de la façon suivante :

Niche 1 Niche 2 Niche 3

20 individus avec 2 classes ^{10 individus avec 3}

classes ^{30 individus avec 4 classes}

Niche 11 Niche 12 Niche 13 Niche 14 Niche 21 Niche 22 Niche 23 Niche 31 Niche 32 Niche 33 Niche 34

5 individus avec 3 paramètres 2 individus avec 5 paramètres 7 individus avec 7 paramètres 6 individus avec 2 paramètres 3 individus avec 3 paramètres 5 individus avec 2 paramètres 2 individus avec 6 paramètres 9 individus avec 3 paramètres 2 individus avec 2 paramètres 3 individus avec 5 paramètres 6 individus avec 7 paramètres

Formation des niches

Tableau. 3. 4.

Au final, il y a 11 niches de créées : les 4 premières, les niches 11 à 14, regroupent les

individus constitués de 2 classes et respectivement de 3, 5, 7 et 2 paramètres. Les 3 niches

suivantes, 21, 22 et 23, regroupent les individus formés de 3 classes et respectivement de 3, 2 et 6 paramètres. Les quatre dernières niches, 31, 32, 33 et 34, regroupent les individus constitués de 4 classes et respectivement 3, 2, 5 et 7 paramètres.

Une fois que les individus ‘semblables’ sont regroupés en sous-populations et que l’opération de migration est effectuée, les individus parents vont être sélectionnés et ensuite couplés pour donner naissance, grâce aux opérateurs de croisement et de mutation, à des

individus enfants. Concernant l’opération de sélection, la stratégie utilisée est la même que

dans le paragraphe 3.2.2.3.3.3, c’est-à-dire une sélection par tournoi avec en plus l’insertion du meilleur individu si celui-ci n’a pas été sélectionné lors du tournoi. Concernant l’accouplement des parents, ce choix est fait de façon aléatoire en tirant deux parents et en les associant. Bien sur, cette procédure de sélection et d’accouplement est réalisée dans chaque sous-population.

3.4.2.7. Arrêt de l’algorithme

L’arrêt de l’algorithme multi-population se fait lorsque, de la génération t à la génération t+10, les meilleures fonctions d’adaptation présentent dans chaque sous-population n’ont pas variées. Par conséquent, si pendant 10 générations successives, chaque fonction présente une

stationnarité dans son évolution, l’algorithme compare la meilleure fonction entre chaque sous-population et choisit celle qui est la plus grande. Cette fonction est associée à un

chromosome, qui lui, va donner le nombre de classes (et leurs centres de gravité) optimal ainsi

que le sous-ensemble de paramètres maximisant la séparabilité et la compacité des classes. Au final, l’algorithme permettant de rechercher simultanément le nombre de classes optimal structurant l’ensemble d’apprentissage et le sous-ensemble de paramètres maximisant la séparabilité et la compacité de ces classes, peut se résumer comme suit

Algorithme génétique multi-population

1) Initialisation aléatoire de k (k=1,P) chromosomes qui codent à la fois, la présence ou non des paramètres et les centres des classes avec différents nombre de classes, en utilisant respectivement un codage binaire et réel (§ 3.4.2.2).

2) Calcul de la fonction d’adaptation en fonction de (3.22) pour chaque individu dans la

population initiale (§ 3.4.2.1).

3) Répéter de (a) à (f) jusqu’à ce que le critère d’arrêt soit rencontré (§ 3.4.2.7).

a) Définir l’ensemble des sous-populations (niches) regroupant les individus ‘semblables’ et réaliser l’opération de migration (§ 3.4.2.6)

b) Sélectionner les couples de parents dans chaque sous-population à partir de l’opérateur de sélection (sélection par tournoi + élitisme) (§ 3.4.2.6). Cette procédure se répète jusqu’à ce que P/2 parents soient sélectionnés.

c) Générer les enfants en appliquant les différents opérateurs génétiques (croisement et mutation) sur les différentes parties (sélection des paramètres et centre des classes) des couples de parents (§ 3.4.2.3).

d) Appliquer les opérateurs ajout et élimination sur la partie ‘sélection des paramètres’ codée dans les enfants et ensuite mettre à jour ces enfants (§ 3.4.2.4). e) Lancer une étape de l’algorithme HCM sur la partie ‘centre des classes’ codée

dans les enfants et ensuite mettre à jour ces enfants (§ 3.4.2.4).

f) Calcul de la fonction d’adaptation (3.22) pour chaque enfant et ensuite mise à jour de la population (P/2 parents + P/2 enfants).

4) Déterminer le sous-ensemble de paramètres ainsi que le nombre de classes structurant l’ensemble d’apprentissage (et les centres de gravité de ces classes) qui correspondent

à la meilleure fonction d’adaptation de toutes les sous-populations finales.

La dernière étape, décrite dans les parties suivantes, consiste à définir une règle de décision qui permettra de classer ou non toute nouvelle observation recueillie sur le processus.

3.5. Détermination d’une méthode de décision

Les deux premières étapes de la phase d’analyse ont permis de structurer l’ensemble d’apprentissage en classes distinctes et de pouvoir étiqueter les données de telle sorte que chacune des observations appartient à une des M classes connues.

Soit Xa =

(

X₁,X₂,...,XN

)

l’ensemble d’apprentissage initial et (Ω₁,Ω₂,...,Ω_M) l’ensemble des M classes connues. Le problème posé est alors d’affecter une nouvelle observation Xu à l’une des M classes à l’aide d’une règle de décision.

Si on souhaite réaliser une présentation non exhaustive des différentes approches de définition d’une règle de décision, il convient tout de même de distinguer les méthodes statistiques, paramétriques ou non paramétriques. Les méthodes paramétriques supposent la connaissance des lois de probabilité des classes et des observations. En effet, tout vecteur X

suit, dans un classe donnée Ω_c, une loi de probabilité f

(

XΩ_c

)

. Par ailleurs, les classes Ω_c sont caractérisées par leurs probabilités a priori

(

c=1,...,M

)

Pr(Ω_c). Ces probabilités vérifient

la condition d’orthogonalité suivante :

∑

= = Ω M c c 1 1 ) Pr( (3.28)

Parmi ces méthodes, l’approche la plus commune est la théorie Bayésienne de la décision [Dubuisson, 90].

En pratique, les données sur les lois de probabilités des classes Pr(Ω_c) et des observations

(

X _c

)

f Ω sont rarement disponibles dans un problème de diagnostic, ce qui conduit alors à utiliser les méthodes non paramétriques.

Dans le document Diagnostic par reconnaissance des formes : application à un ensemble convertisseur - machine asynchrone (Page 129-137)