Modélisation de la fermeture coloniale chez les fourmis pour la classification non- supervisée

(1)

HAL Id: hal-01247359

https://hal.archives-ouvertes.fr/hal-01247359

Submitted on 21 Dec 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Modélisation de la fermeture coloniale chez les fourmis pour la classification non- supervisée

Nicolas Labroche, N Monmarché, Gilles Venturini

To cite this version:

Nicolas Labroche, N Monmarché, Gilles Venturini. Modélisation de la fermeture coloniale chez les

fourmis pour la classification non- supervisée. Conférence francophone d’Apprentissage, 2002, Jun

2002, Orléans, France. �hal-01247359�

(2)

Mod´elisation de la fermeture coloniale chez les fourmis pour la classification non-supervis´ee

N. Labroche, N. Monmarch´ e et G. Venturini Laboratoire d’Informatique de l’Universit´ e de TOURS

Ecole d’Ing´ ´ enieur en Informatique 64 avenue Jean Portalis 37000 TOURS

{labroche,monmarche,venturini}@univ-tours.fr October 15, 2015

Abstract

Nous pr´ esentons dans cet article une nouvelle m´ ethode de classifica- tion non-supervis´ ee appel´ ee AntClust , inspir´ ee du syst` eme de recon- naissance chimique des fourmis. Celui-ci, connu sous le nom de fermeture coloniale, repose sur l’apprentissage et le partage d’une odeur coloniale commune ` a toutes les fourmis d’un mˆ eme nid. Dans notre m´ ethode, une fourmi artificielle est associ´ ee ` a un objet ` a classer. Chaque fourmi arti- ficielle est capable d’apprendre une odeur coloniale grˆ ace ` a un processus de rencontres al´ eatoires et un ensemble de r` egles comportementales lo- cales. Les fourmis se regroupent ainsi en colonies qui partagent une odeur similaire, ce qui d´ efinit une partition des donn´ ees. Nous comparons cet algorithme ` a la m´ ethode des K-Means et montrons que les r´ esultats que nous obtenons sont meilleurs sur des jeux de donn´ ees r´ eelles et artificielles.

Cette m´ ethode ne n´ ecessite pas d’initialisation particuli` ere des donn´ ees (partition initiale, nombre de classes ` a obtenir) ou de format particulier (donn´ ees num´ eriques ou symboliques). Nous discutons ´ egalement de la pertinence des choix relatifs ` a l’apprentissage de l’odeur coloniale pour la convergence de notre algorithme.

1 Introduction

Plusieurs m´ ethodes algorithmiques se sont inspir´ ees des fourmis pour d´ efinir de

nouvelles heuristiques pour la r´ esolution de probl` emes complexes. Par exem-

ple, les comportements collectifs des fourmis ont ´ et´ e mod´ elis´ es dans l’approche

algorithmique ACO (”Ant Colony Optimization”) dans laquelle les pistes de

ph´ eromones sont utilis´ ees [2]. Similairement, des algorithmes de classification

ont d´ ej` a ´ et´ e propos´ es [5], [6]. Dans ces travaux, les chercheurs ont mod´ elis´ e

la capacit´ e des fourmis ` a trier leur couvain. Une fourmi est alors capable de

porter un ou plusieurs objets et de les d´ eposer selon certaines probabilit´ es. Le

(3)

seul moyen de communication dont dispose les fourmis est alors la configuration des objets d´ epos´ es sur le sol. Apr` es un certain temps, les fourmis ´ etablissent des groupes d’objets similaires et r´ esolvent un probl` eme connu sous le nom de classification non-supervis´ ee.

Nous nous int´ eressons dans cet article au ph´ enom` ene de fermeture coloniale qui passe par la construction et l’apprentissage d’une odeur propre ` a chaque nid et qui permet la d´ etection des intrusions. La mod´ elisation de ce m´ ecanisme n’a pour l’instant pas ´ et´ e utilis´ ee dans la r´ esolution de probl` emes d’informatique et nous montrons qu’elle peut ˆ etre appliqu´ ee au probl` eme de classification non- supervis´ ee.

L’article s’articule comme suit : dans la section 2 sont introduits les fonde- ments biologiques sur lesquels repose la mod´ elisation pour le probl` eme de classi- fication qui est pr´ esent´ e dans la section 3. La 4 ^ieme section d´ etaille les r´ esultats encourageants obtenus avec notre m´ ethode AntClust et discute des diff´ erentes options concernant l’apprentissage de l’odeur coloniale par les fourmis et leur impact sur le r´ esultat de la classification. Enfin, la derni` ere section discute des perspectives de d´ eveloppement et des domaines d’application envisag´ es.

2 A propos des fourmis r´ eelles

Comme tous les insectes sociaux, les fourmis ont d´ evelopp´ e un m´ ecanisme de fermeture coloniale qui leur permet de priv´ el´ egier les relations avec les membres de leur nid et de rejeter les intrus qui peuvent ˆ etre de la mˆ eme esp` ece.

La discrimination repose sur la comparaison de l’odeur ´ emise par chaque fourmi, le ”label”, et d’un mod` ele de r´ ef´ erence nomm´ e ”template” : on parle alors de ”phenotype matching” [3]. Chaque fourmi apprend les labels propres ` a sa colonie ` a sa naissance, en s’impr´ egnant physiquement des odeurs des ouvri` eres de son nid, lorsqu’elles la nourrissent. Par la suite, la fourmi remet ` a jour continuellement son template en int´ egrant les labels des autres fourmis et en diffusant le sien pour ˆ etre reconnue ` a son tour. Ces ´ echanges r´ ep´ et´ es conduisent

`

a la mise en place d’une odeur coloniale commune ` a tous les membres du nid.

Les labels sont principalement constitu´ es d’hydrocarbures cuticulaires et de substances chimiques extraites de la nourriture ou bien issues de mat´ eriaux constitutifs du nid. Selon les esp` eces certains facteurs peuvent influencer la reconnaissance entre fourmis. On note le rˆ ole particulier que peut alors jouer la reine [1], outre celui de donner naissance aux nouvelles fourmis. Soit la reine ne participe qu’` a la diffusion de l’odeur coloniale au plus grand nombre, soit elle intervient directement dans sa composition chimique.

D’un point de vue individuel, les hydrocarbures sont g´ en´ er´ es par les cellules œnocytes selon le g´ enome de chaque fourmi et sont ensuite distribu´ es par des circuits internes vers la glande post-pharyngienne (GPP) ou vers la cuticule des fourmis. Lors d’auto-toilettages les fourmis sont capables de renforcer leur propre label en d´ eversant une partie du contenu de leur GPP sur leur cuticule et assurent ainsi leur reconnaissance au sein de la colonie.

L’odeur coloniale est un m´ elange de tous les labels des fourmis du nid

(4)

´ echang´ es par le biais de toilettages sociaux (une fourmi d´ everse un peu du contenu de sa GPP sur la cuticule d’une autre), par trophallaxie (une fourmi transf` ere le contenu de sa GPP dans la GPP d’une autre), ou plus simplement par contacts cuticulaires dans le nid. Ce mod` ele de r´ epartition des labels ` a tous les membres d’une mˆ eme colonie de fa¸ con homog` ene est appel´ e mod` ele Gestalt et conduit ` a l’´ etablissement de l’odeur coloniale.

3 AntClust : classification et fourmis artificielles

Le probl` eme de classification non-supervis´ ee Dans ce type de probl` eme, le but est de trouver des groupes d’objets similaires qui soient le plus proche possible de la partition naturelle de l’espace de d´ epart. Aucune hypoth` ese n’est faite concernant le type des donn´ ees manipul´ ees : elles peuvent ˆ etre num´ eriques, symboliques ou encore du premier ordre. Il suffit, pour pouvoir utiliser notre heuristique, de d´ efinir une mesure de similarit´ e qui prend comme param` etre d’entr´ ee un couple d’objets i et j et qui retourne une valeur Sim(i, j) comprise entre 0 et 1. Une valeur de 0 indique que les objets sont totalement diff´ erents et 1 qu’ils sont rigoureusement identiques.

Les fourmis artificielles Dans notre m´ ethode, chaque donn´ ee de l’espace de d´ epart va ˆ etre repr´ esent´ ee par une fourmi artificielle et plus pr´ ecis´ ement par son g´ enome. Tout au long des rencontres qu’elle va effectuer, la fourmi va tenter d’accorder son label et son template ` a son g´ enome pour trouver la colonie qui lui ressemble le plus. Nous d´ efinissons donc les param` etres suivants pour une fourmi i :

• Le label Label _i indique le nid d’appartenance de la fourmi i et est mod´ elis´ e par une variable repr´ esentant l’indice du nid. Au d´ epart, les fourmis n’appartiennent ` a aucun nid et donc Label _i = 0. Cette valeur ´ evolue jusqu’` a ce que la fourmi trouve le nid qui lui convient le plus.

• Le template est ` a la fois d´ efini par le g´ enome Genome i de la fourmi (i.e.

une donn´ ee de l’espace de d´ epart) et par un seuil d’acceptation not´ e T emplate i . Celui-ci fait l’objet d’un apprentissage ` a l’initialisation des fourmis artificielles et d’une mise ` a jour continue pendant la classification.

Le calcul de T emplate i s’appuie sur l’estimation par la fourmi i des simi- larit´ es maximales et moyennes observ´ ees lors de rencontres avec d’autres fourmis et not´ ees respectivement max(Sim(i, ·)) et Sim(i, ·) (voir section 3).

• L’estimateur M i refl` ete la r´ eussite des rencontres de la fourmi i. Au d´ epart,

M _i vaut 0 puisque la fourmi i n’a pas encore r´ ealis´ ee de rencontres. M _i

estime la taille du nid de la fourmi i, c’est-` a-dire le nombre de fourmis

ayant le mˆ eme label que la fourmi i. M _i est augment´ e quand la fourmi i

rencontre des individus de son nid et est diminu´ e dans le cas contraire.

(5)

Template i

Template j

Acceptation

Genome i Genome j

Template i Template j

Rejet Genome j

Genome i

Figure 1: Principes de l’acceptation et du rejet entre 2 fourmis i et j

• L’estimateur M _i ⁺ mesure l’int´ egration de la fourmi i dans son nid. Il est augment´ e si la fourmi i et une autre de son nid se rencontrent et s’acceptent et est diminu´ e sinon.

• L’ˆ age A i , qui au d´ epart vaut 0, est utilis´ e dans les calculs de mise ` a jour du seuil d’aceptation T emplate i .

Apprentissage du seuil d’acceptation T emplate _i : Les fourmis artificielles estiment au cours d’un nombre fix´ e de rencontres al´ eatoires la similarit´ e max- imale et moyenne qu’il peut y avoir entre leur g´ enome et celui des fourmis rencontr´ ees. Une fourmi i d´ efinit alors son seuil initial d’acceptation T emplate i

de la mani` ere suivante :

T emplate _i ← Sim(i, ·) + max(Sim(i, ·))

2 (1)

Les valeurs des similarit´ es maximale et moyenne sont aussi remises ` a jour apr` es chaque rencontre en fonction de l’ˆ age de la fourmi. Ainsi, la valeur du template est r´ eapprise continuellement par chaque fourmi.

Acceptation entre fourmis La r´ esolution des rencontres est conditionn´ ee par l’acceptation ou le rejet pr´ ealable des fourmis. Une fourmi accepte toutes les fourmis dont le g´ enome est proche du sien relativement ` a son seuil d’acceptation comme le montrent l’´ equation 2 et la figure 1.

Acceptation(i, j) ⇔(Sim(i, j) > T emplate _i )

∧ (Sim(i, j) > T emplate j ) (2)

Principe g´ en´ eral d’AntClust L’algorithme AntClust repose sur

l’association d’un objet ` a classer ` a une fourmi artificielle. Celui-ci simule, pen-

dant un nombre fix´ e d’it´ erations et pour chaque fourmi, une rencontre avec une

autre fourmi choisie al´ eatoirement. L’issue de ces rencontres est d´ etermin´ ee

par un ensemble de r` egles comportementales qui font ´ evoluer les labels et les

(6)

templates. A l’issue de l’algorithme, les fourmis les plus similaires entre elles poss` edent le mˆ eme label, ce qui d´ efinit une partition de l’espace de d´ epart.

Algorithme 1: Algorithme principal d’ AntClust AntClust ()

(1) Initialiser les fourmis artificielles :

(2) Genome _i ← i ^eme objet des donn´ ees ` a classer (3) Label _i ← 0

(4) T emplate _i est initialis´ e selon l’´ equation 1 (5) M _i ← 0, M _i ⁺ ← 0, A _i ← 0

(6) Simuler N b _{IT ER} it´ erations durant lesquelles chaque fourmi en ren- contre une autre choisie al´ eatoirement

(7) Supprimer les nids avec moins de P × n (P 1) fourmis

(8) R´ e-affecter chaque fourmi sans nid, au nid de la fourmi dont elle est la plus similaire.

R` egles comportementales des fourmis artificielles Ces r` egles s’appliquent lors de chaque rencontre entre fourmis et entraˆınent l’´ evolution des param` etres (label, template, M i , M _i ⁺ ) jusqu’` a ce que des nids stables soient form´ es. Nous d´ etaillons ci-apr` es les r` egles lorsque deux fourmis i et j se rencontrent :

R 1 R` egle de cr´ eation d’un nouveau nid :

Si (Label i = Label j = 0) et Acceptation(i, j) Alors Cr´ eer un nouveau label Label _{N EW} et Label _i ← Label _{N EW} , Label _j ← Label _{N EW} . Si Acceptation est faux alors la r` egle R ₆ s’applique.

R 2 R` egle d’ajout d’une fourmi sans label ` a un nid existant :

Si (Label i = 0 ∧ Label j 6= 0) et Acceptation(i, j) Alors Label i ← Label j . Le cas o` u (Label j = 0 ∧ Label i 6= 0) est trait´ e de mani` ere similaire.

R 3 R` egle de rencontre ”Positive” entre 2 fourmis du mˆ eme nid :

Si (Label i = Label j ) ∧ (Label i 6= 0) ∧ (Label j 6= 0) et Acceptation(i, j) Alors Augmenter M i , M j , M _i ⁺ et M _j ⁺ . On entend par Augmenter (3) ou par Diminuer (4) une variable x :

x ← (1 − α) × x + α (3)

x ← (1 − α) × x (4)

(Ici, nous choisissons α = 0.2)

R 4 R` egle de rencontre ”N´ egative” entre 2 fourmis du mˆ eme nid :

Si (Label i = Label j ) ∧ (Label i 6= 0) ∧ (Label j 6= 0) et Acceptation(i, j) =

F aux Alors Augmenter M i , M j et Diminuer M _i ⁺ et M _j ⁺ . La fourmi x

(x=i, x=j) qui est la moins int´ egr´ ee dans son nid (x|M _x ⁺ = min(M _i ⁺ , M _j ⁺ ),

perd son label et n’a donc plus de nid (Label x ← 0, M x ← 0 et M _x ⁺ ← 0).

(7)

R 5 R` egle de rencontre entre 2 fourmis d’un nid diff´ erent :

Si (Label i 6= Label j ) et Acceptation(i, j) Alors Diminuer M i et M j . La fourmi x qui a le plus petit M x (i.e. la fourmi appartenant au nid le plus petit) change son label pour appartenir au nid de la fourmi rencontr´ ee.

R ₆ R` egle par d´ efaut : Si aucune autre r` egle ne s’applique, alors rien ne se passe!

Analyse des r` egles comportementales La r` egle R ₁ a un rˆ ole fondamental car c’est la seule r` egle qui peut cr´ eer un nouveau label et donc un nouveau nid.

Elle entraˆıne le rassemblement des fourmis les plus similaires dans les premiers clusters, qui servent de ”graines” pour g´ en´ erer les clusters d´ efinitifs.

La r` egle R 2 agrandit les graines de clusters issues de la r` egle R 1 en y ajoutant des fourmis ayant un g´ enome compatible.

La r` egle R 3 augmente simplement les estimateurs M et M ⁺ en cas d’acceptation entre les deux fourmis qui se rencontrent.

La r` egle R 4 permet de r´ eparer les mauvaises affectations de fourmis dans des nids. Elles peuvent survenir au d´ epart lorsque les profils de ces derniers ne sont pas clairement ´ etablis. Cette r` egle autorise le rejet des fourmis les moins int´ egr´ ees et permet de les r´ einitialiser afin qu’elles trouvent un nouveau nid plus ad´ equat. L’appartenance d’un objet, qui n’´ etait pas class´ e optimalement,

`

a un groupe peut ainsi ˆ etre modifi´ ee et peut am´ eliorer la r´ eussite globale de l’algorithme.

La r` egle R ₅ autorise le regroupement entre clusters similaires, les plus petits

´ etant int´ egr´ es au plus grands. Au d´ ebut de la classification, il y a un tr` es grand nombre de clusters. Cette r` egle permet une d´ ecroissance significative du nombre des clusters en regroupant plusieurs sous-clusters en un seul plus grand.

La r` egle R 6 se produit quand aucune autre ne s’applique.

4 Tests et r´ esultats

Nous comparons dans ce paragraphe, notre algorithme AntClust ` a la m´ ethode des K-Means [4]. Celle-ci repose sur une partition initiale des donn´ ees (et donc sur un nombre maximum de classes). A chaque it´ eration, chaque donn´ ee est associ´ ee au groupe dont le centre est le plus proche, ce qui permet d’affiner graduellement la partition jusqu’` a un ´ etat stable. Cette stabilit´ e est mesur´ ee par l’inertie intraclasse. Nous utilisons dans notre cas une partition initiale form´ ee de 10 clusters g´ en´ er´ es al´ eatoirement. La m´ ethode est nomm´ ee en cons´ equence 10-Means par la suite.

Jeux de donn´ ees et param` etrages initiaux Dans le but de comparer les 2

approches, nous utilisons des jeux de donn´ ees g´ en´ er´ ees al´ eatoirement ainsi que

des donn´ ees r´ eelles qui utilisent une repr´ esentation par attributs. Les donn´ ees

artificielles sont Art i,i∈[1,8] et les donn´ ees r´ eelles sont : Iris , Glass , Pima , Soy-

bean et Thyroid . Concernant les donn´ ees artificielles, Art1 , Art2 , Art3 ,

(8)

Jeux de donn´ ees #Objets #Attributs #Clusters

Art1 400 2 4

Art2 1000 2 2

Art3 1100 2 4

Art4 200 2 2

Art5 900 2 9

Art6 400 8 4

Art7 100 2 1

Art8 1000 2 1

Iris 150 4 3

Glass 214 9 7

Pima 798 8 2

Soybean 47 35 4

Thyroid 215 5 3

Table 1: Caract´ eristiques principales des jeux de donn´ ees

Art5 et Art6 sont g´ en´ er´ ees selon des lois gaussiennes ayant chaucne des dif- ficult´ es propres (attributs non pertinents, recouvrement de clusters), Art4 est g´ en´ er´ ee selon une loi uniforme et Art7 ainsi que Art8 correspondent ` a du bruit blanc. Les caract´ eristiques principales des jeux de donn´ ees sont r´ esum´ ees dans la table 1.

Toutes les ´ evaluations ont ´ et´ e men´ ees sur 50 tests pour chaque jeu de donn´ ees et chaque m´ ethode. Dans le cas d’ AntClust , chaque test correspond ` a 300000 it´ erations durant lesquelles chaque fourmi en rencontre une autre choisie al´ eatoirement. Les r´ esultats sont expos´ es dans la table 2.

Les champs suivants apparaissent dans la table 1 pour chaque jeu de donn´ ees : le nombre d’objets ` a classer (”#Objets” ) et le nombre d’attributs qui les d´ ecrivent (”#Attributs”) ainsi que le nombre de clusters th´ eorique (”#Clus- ters”).

Mesure de similarit´ e et erreur de classification Nous pr´ esentons ici, le fonctionnement de la mesure de similarit´ e que nous utilisons pour traiter les bases de la table 1 et nous l’illustrons sur 2 exemples. Nous pr´ ecisons le calcul de l’erreur de classification utilis´ ee afin de donner un sens aux r´ esultats pr´ esent´ es par la suite.

Notre mesure de similarit´ e impose que chaque objet soit d´ ecrit par un en- semble d’attributs, chacun ayant un type θ k parmi les N b T ypes types existants (i.e. num´ eriques, symboliques, . . . ). La similarit´ e entre 2 objets o i et o j peut alors s’´ ecrire :

Sim(o _i , o _j ) = 1 N b T ypes

×

N b

_{T ypes}

X

k=1

Sim _θ

_k

(o _i , o _j ) (5)

(9)

Sim _θ

_k

(o _i , o _j ) = 1 −



 1 Occ (θ k ) ×

Occ(θ

k

)

X

k=1

∆ _θ

_k

(o _i , o _j )



 (6) o` u Sim _θ

_k

est la similarit´ e calcul´ ee entre tous les attributs de type θ _k pour les objets o i et o j , Occ(θ k ) le nombre d’occurrence du type θ k dans la description d’un objet o et enfin ∆ θ

_k

une fonction qui renvoit la dissimilarit´ e entre 2 at- tributs de type θ k des objets o i et o j . Nous pr´ esentons 2 exemples de fonctions : ∆ N um (7) et ∆ Symb (8), qui s’appliquent sur des couples de valeurs (i, j) respectivement de types num´ eriques et symboliques.

∆ _{N um} (i, j) =

( 0 if max θ = min θ

|i−j|

|max

θ

− min

_θ

| sinon (7)

∆ Symb (i, j) =

0 if i = j

1 sinon (8)

L’erreur de classification E c mesure la diff´ erence entre la partition th´ eorique et celle obtenue. Elle peut ˆ etre formalis´ ee comme suit en consid´ erant toutes les paires d’objets :

E _c = 2

N (N − 1) × X

(i,j)∈{1,...,N}

²

,i<j

_ij (9)

o` u:

ij =







0 if (c(o i ) = c(o j ) ∧ c ⁰ (o i ) = c ⁰ (o j ))∨

(c(o i ) 6= c(o j ) ∧ c ⁰ (o i ) 6= c ⁰ (o j )) 1 sinon

(10) avec c(o) l’identifiant de cluster th´ eorique pour l’objet o et c ⁰ (o) l’identifiant trouv´ e par l’algorithme test´ e.

R´ esultats La table 2 pr´ esente les nombres de clusters effectivement trouv´ es par les deux m´ ethodes (”#Clusters trouv´ es”) avec leur ´ ecart-type (”σ cf ”) et aussi l’erreur commise par chacun des algorithmes (”%Erreur Clust.”) associ´ ee

`

a son ´ ecart-type(”σ e ”).

Notre algorithme AntClust obtient de meilleurs r´ esultats que 10-Means .

Cela est du au fait que, de mani` ere g´ en´ erale, AntClust parvient ` a obtenir

une meilleure appr´ eciation du nombre de clusters ` a trouver. 10-Means part de

10 clusters g´ en´ er´ es al´ eatoirement et ne parvient pas ` a les regrouper du fait des

l´ eg` eres diff´ erences apparaissant dans les jeux de donn´ ees. En fait, 10-Means

obtient de meilleurs r´ esultats qu’ AntClust uniquement 2 fois : pour Art5

et pour Glass car le nombre de clusters th´ eoriques est proche de 10. Ces

tests d´ emontrent qu’ AntClust est capable de traiter des jeux de donn´ ees de

taille vari´ ee avec le mˆ eme succ` es (voir Soybean , Art1 , Art2 et Art6 ) mais

qu’il lui est difficile d’estimer le nombre de clusters quand celui-ci devient trop

important (voir Art5 par exemple). Cela est peut-ˆ etre du au fait qu’il n’existe

qu’une seule r` egle de cr´ eation de nouveau nid. Cette r` egle n’est pas appliqu´ ee

apr` es le d´ epart de l’algorithme car une fourmi rejet´ ee d’un nid a plus de chance

d’ˆ etre r´ eint´ egr´ ee dans un autre que d’en cr´ eer un nouveau.

(10)

Jeux de donn´ ees # Clusters trouv´ es %Erreur Clust.

10

M

[σ

cf

] A

C

[σ

cf

] 10

M

[σ

e

] A

C

[σ

e

] Art1 8.58 [0.98] 4.00 [0.00] 0.18 [0.01] 0.18 [0.02]

Art2 8.52 [0.96] 2.00 [0.00] 0.38 [0.01] 0.06 [0.02]

Art3 8.28 [0.96] 2.00 [0.00] 0.31 [0.01] 0.15 [0.02]

Art4 6.38 [0.75] 3.46 [0.50] 0.32 [0.02] 0.24 [0.05]

Art5 8.82 [0.91] 3.28 [0.45] 0.08 [0.01] 0.28 [0.03]

Art6 8.46 [1.08] 4.00 [0.00] 0.10 [0.02] 0.04 [0.01]

Art7 7.76 [1.03] 3.28 [0.45] 0.87 [0.02] 0.66 [0.02]

Art8 8.78 [0.83] 3.78 [0.42] 0.88 [0.01] 0.72 [0.04]

Iris 7.12 [1.11] 2.16 [0.37] 0.18 [0.03] 0.22 [0.01]

Glass 9.44 [0.70] 3.62 [0.64] 0.29 [0.02] 0.39 [0.03]

Pima 9.90 [0.36] 2.66 [0.56] 0.50 [0.01] 0.45 [0.01]

Soybean 8.82 [0.97] 4.42 [0.57] 0.13 [0.02] 0.07 [0.04]

Thyroid 9.56 [0.57] 2.88 [0.33] 0.42 [0.02] 0.18 [0.06]

Table 2: Resultats obtenus sur 50 tests pour chaque m´ ethode et chaque jeu de donn´ ees. 10 M et A C d´ esignent respectivement 10-Means et AntClust Pertinence des param` etres Notre algorithme d´ epend de deux param` etres : le nombre d’it´ erations N b IT ER (fix´ e ` a 300000 jusqu’` a pr´ esent) et le Template initialis´ e selon l’´ equation 1. Des tests nous ont permis de v´ erifier que le nombre d’it´ erations peut se limiter ` a 100000 et garantir la convergence souhait´ ee (voir figure 2). D’autres exp´ eriences ont montr´ e que le plus important dans la phase d’apprentissage initiale du template n’est pas l’estimation du seuil d’acceptation mais l’´ evaluation des similarit´ es maximale et moyenne rencontr´ ees. En effet, si on remplace l’estimation de ces similarit´ es par le tirage de 2 valeurs al´ eatoires, AntClust ne parvient pas ` a g´ en´ erer plus de 3 classes. Cette impr´ ecision n’arrive pas ` a ˆ etre corrig´ ee par la mise ` a jour ult´ erieure des templates car elle en-

Figure 2: Convergence du nombre de classes trouv´ ee en fonction du nombre

d’it´ eration de l’algorithme

(11)

Figure 3: Valeurs moyennes de T 1 (”T1M”) et T 2 (”T2M”) en fonction des donn´ ees de test (en secondes)

traˆıne des valeurs de seuils d’acceptation trop basses. Les fourmis se regroupent alors en trop peu de nids. Nous avons aussi d´ emontr´ e que l’on pouvait obtenir des r´ esultats aussi bons que ceux pr´ esent´ es dans la table 2 si l’on supprimait la mise ` a jour des templates apr` es les rencontres et si l’on conservait la valeur du seuil d’acceptation des fourmis exclues de leur nid au lieu de le mettre ` a 0 (voir r` egle comportementale R 4 ).

Enfin, nous avons cherch´ e ` a ´ evaluer les temps de calcul de notre m´ ethode pour estimer son comportement lorsque le nombre d’attributs et le nombre d’objets varient. Nous avons d´ efinis pour cela les temps T ₁ et T ₂ qui corre- spondent respectivement ` a la dur´ ee de la phase de rencontres entre fourmis et ` a la dur´ ee totale d’ex´ ecution de l’algorithme comprenant la phase de r´ eaffectation des fourmis seules. La figure 3 r´ esume les r´ esultats obtenus. On remarque que l’augmentation du nombre d’attributs est plus pr´ ejudiciable aux performances qu’une augmentation du nombre des exemples : entre Art1 et Art6 il y a une diff´ erence de 6 attributs et un ralentissement de 1.38 secondes en moyenne, alors qu’entre Art1 et Art3 il y a une augmentation de 700 objets et un ralen- tissement de seulement 0.4 (en consid´ erant les p´ eriodes T 1 ). On constate par ailleurs que les fichiers ayant peu de donn´ ees ` a traiter introduisent des dur´ ees T 1

et T 2 quasiment similaires ( Art1 , Art4 , Art6 et Art7 ), alors que les autres poss` edent jusqu’` a parfois 1.92 secondes d’´ ecart. Cela est dˆ u au fait qu’il y a plus de fourmis ` a r´ eaffecter et que pour chacune d’elles, une recherche sur l’ensemble des autres fourmis est r´ ealis´ ee pour trouver la plus similaire. Cette augmenta- tion du temps de calcul ne semble pas li´ ee ` a la qualit´ e de la partition propos´ ee par notre algorithme car pour Art7 tout comme pour Art8 , la m´ ethode ne fonctionne pas (car les bases correspondent ` a du bruit uniquement) et les temps ne sont pas comparables. Un dernier r´ esultat a montr´ e que les dur´ ees T ₁ et T ₂ augmentent lin´ eairement en fonction du nombre d’it´ erations.

5 Conclusion

Nous d´ ecrivons dans cet article un nouvel algorithme de clustering AntClust ,

inspir´ e du syst` eme de reconnaissance des fourmis. Les r´ esultats sont bons en

(12)

regard de ceux obtenus avec les K-Means . Notre approche ne fait aucune hypoth` ese quant ` a la nature des donn´ ees ` a classer et ne n´ ecessite pas la con- naissance du nombre de clusters ` a trouver. Par ailleurs, notre travail d´ emontre l’importance du processus d’apprentissage dans notre m´ ethode de classifica- tion. Nous planifions d’utiliser cet algorithme dans le domaine du Web Min- ing pour aider ` a d´ eterminer les profils types de navigation sur les sites Web lorsqu’ AntClust aura ´ et´ e valid´ e sur de plus amples jeux de donn´ ees (plus de 10000 objets) et avec un plus grand nombre de types d’attributs manipul´ es (s´ equences de pages, . . . ).

References

[1] N.F. Carlin and B. H¨ olldobler. The kin recognition system of carpenter ants(camponotus spp.). i. hierarchical cues in small colonies. Behav Ecol Sociobiol, 19:123–134, 1986.

[2] A. Colorni, M. Dorigo, and V. Maniezzo. Distributed optimization by ant colonies. In F. Varela and P. Bourgine, editors, Proceedings of the First Eu- ropean Conference on Artificial Life, pages 134–142. MIT Press, Cambridge, Massachusetts, 1991.

[3] B. H¨ olldobler and E.O. Wilson. The Ants, chapter Colony odor and kin recognition, pages 197–208. Springer Verlag, Berlin, Germany, 1990.

[4] A. K. Jain and Dubes R.C. Algorithms for clustering Data, chapter Square- Error Clustering Method, pages 96–101. Prentice Hall Advanced Reference series, 1988.

[5] E.D. Lumer and B. Faieta. Diversity and adaptation in populations of clus- tering ants. In D. Cliff, P. Husbands, J.A. Meyer, and Stewart W., editors, Proceedings of the Third International Conference on Simulation of Adaptive Behavior, pages 501–508. MIT Press, Cambridge, Massachusetts, 1994.

[6] N. Monmarch´ e, M. Slimane, and G. Venturini. L’algorithme antclass : clas- sification non supervis´ ee par une colonie de fourmis artificielles. Extraction des Connaissances et Apprentissage : Apprentissage et ´ evolution, 1(3):131–

166, 2001.

Modélisation de la fermeture coloniale chez les fourmis pour la classification non- supervisée

HAL Id: hal-01247359

https://hal.archives-ouvertes.fr/hal-01247359

Submitted on 21 Dec 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Modélisation de la fermeture coloniale chez les fourmis pour la classification non- supervisée

Nicolas Labroche, N Monmarché, Gilles Venturini

To cite this version:

Nicolas Labroche, N Monmarché, Gilles Venturini. Modélisation de la fermeture coloniale chez les

fourmis pour la classification non- supervisée. Conférence francophone d’Apprentissage, 2002, Jun

2002, Orléans, France. �hal-01247359�

Mod´elisation de la fermeture coloniale chez les fourmis pour la classification non-supervis´ee

N. Labroche, N. Monmarch´ e et G. Venturini Laboratoire d’Informatique de l’Universit´ e de TOURS

Ecole d’Ing´ ´ enieur en Informatique 64 avenue Jean Portalis 37000 TOURS

{labroche,monmarche,venturini}@univ-tours.fr October 15, 2015

Abstract

1 Introduction

Plusieurs m´ ethodes algorithmiques se sont inspir´ ees des fourmis pour d´ efinir de

nouvelles heuristiques pour la r´ esolution de probl` emes complexes. Par exem-

ple, les comportements collectifs des fourmis ont ´ et´ e mod´ elis´ es dans l’approche

algorithmique ACO (”Ant Colony Optimization”) dans laquelle les pistes de

ph´ eromones sont utilis´ ees [2]. Similairement, des algorithmes de classification

ont d´ ej` a ´ et´ e propos´ es [5], [6]. Dans ces travaux, les chercheurs ont mod´ elis´ e

la capacit´ e des fourmis ` a trier leur couvain. Une fourmi est alors capable de

porter un ou plusieurs objets et de les d´ eposer selon certaines probabilit´ es. Le

seul moyen de communication dont dispose les fourmis est alors la configuration des objets d´ epos´ es sur le sol. Apr` es un certain temps, les fourmis ´ etablissent des groupes d’objets similaires et r´ esolvent un probl` eme connu sous le nom de classification non-supervis´ ee.

2 A propos des fourmis r´ eelles

Comme tous les insectes sociaux, les fourmis ont d´ evelopp´ e un m´ ecanisme de fermeture coloniale qui leur permet de priv´ el´ egier les relations avec les membres de leur nid et de rejeter les intrus qui peuvent ˆ etre de la mˆ eme esp` ece.

`

a la mise en place d’une odeur coloniale commune ` a tous les membres du nid.

L’odeur coloniale est un m´ elange de tous les labels des fourmis du nid

3 AntClust : classification et fourmis artificielles

• Le template est ` a la fois d´ efini par le g´ enome Genome i de la fourmi (i.e.

une donn´ ee de l’espace de d´ epart) et par un seuil d’acceptation not´ e T emplate i . Celui-ci fait l’objet d’un apprentissage ` a l’initialisation des fourmis artificielles et d’une mise ` a jour continue pendant la classification.

Le calcul de T emplate i s’appuie sur l’estimation par la fourmi i des simi- larit´ es maximales et moyennes observ´ ees lors de rencontres avec d’autres fourmis et not´ ees respectivement max(Sim(i, ·)) et Sim(i, ·) (voir section 3).

• L’estimateur M i refl` ete la r´ eussite des rencontres de la fourmi i. Au d´ epart,

M i vaut 0 puisque la fourmi i n’a pas encore r´ ealis´ ee de rencontres. M i

estime la taille du nid de la fourmi i, c’est-` a-dire le nombre de fourmis

ayant le mˆ eme label que la fourmi i. M i est augment´ e quand la fourmi i

rencontre des individus de son nid et est diminu´ e dans le cas contraire.

Template i

Template j

Acceptation

Genome i Genome j

Template i Template j

Rejet Genome j

Genome i

Figure 1: Principes de l’acceptation et du rejet entre 2 fourmis i et j

• L’estimateur M i + mesure l’int´ egration de la fourmi i dans son nid. Il est augment´ e si la fourmi i et une autre de son nid se rencontrent et s’acceptent et est diminu´ e sinon.

• L’ˆ age A i , qui au d´ epart vaut 0, est utilis´ e dans les calculs de mise ` a jour du seuil d’aceptation T emplate i .

de la mani` ere suivante :

T emplate i ← Sim(i, ·) + max(Sim(i, ·))

2 (1)

Les valeurs des similarit´ es maximale et moyenne sont aussi remises ` a jour apr` es chaque rencontre en fonction de l’ˆ age de la fourmi. Ainsi, la valeur du template est r´ eapprise continuellement par chaque fourmi.

Acceptation(i, j) ⇔(Sim(i, j) > T emplate i )

∧ (Sim(i, j) > T emplate j ) (2)

Principe g´ en´ eral d’AntClust L’algorithme AntClust repose sur

l’association d’un objet ` a classer ` a une fourmi artificielle. Celui-ci simule, pen-

dant un nombre fix´ e d’it´ erations et pour chaque fourmi, une rencontre avec une

autre fourmi choisie al´ eatoirement. L’issue de ces rencontres est d´ etermin´ ee

par un ensemble de r` egles comportementales qui font ´ evoluer les labels et les

templates. A l’issue de l’algorithme, les fourmis les plus similaires entre elles poss` edent le mˆ eme label, ce qui d´ efinit une partition de l’espace de d´ epart.

Algorithme 1: Algorithme principal d’ AntClust AntClust ()

(1) Initialiser les fourmis artificielles :

(2) Genome i ← i eme objet des donn´ ees ` a classer (3) Label i ← 0

(4) T emplate i est initialis´ e selon l’´ equation 1 (5) M i ← 0, M i + ← 0, A i ← 0

(6) Simuler N b IT ER it´ erations durant lesquelles chaque fourmi en ren- contre une autre choisie al´ eatoirement

(7) Supprimer les nids avec moins de P × n (P 1) fourmis

(8) R´ e-affecter chaque fourmi sans nid, au nid de la fourmi dont elle est la plus similaire.

R 1 R` egle de cr´ eation d’un nouveau nid :

Si (Label i = Label j = 0) et Acceptation(i, j) Alors Cr´ eer un nouveau label Label N EW et Label i ← Label N EW , Label j ← Label N EW . Si Acceptation est faux alors la r` egle R 6 s’applique.

R 2 R` egle d’ajout d’une fourmi sans label ` a un nid existant :

Si (Label i = 0 ∧ Label j 6= 0) et Acceptation(i, j) Alors Label i ← Label j . Le cas o` u (Label j = 0 ∧ Label i 6= 0) est trait´ e de mani` ere similaire.

R 3 R` egle de rencontre ”Positive” entre 2 fourmis du mˆ eme nid :

Si (Label i = Label j ) ∧ (Label i 6= 0) ∧ (Label j 6= 0) et Acceptation(i, j) Alors Augmenter M i , M j , M i + et M j + . On entend par Augmenter (3) ou par Diminuer (4) une variable x :

x ← (1 − α) × x + α (3)

x ← (1 − α) × x (4)

(Ici, nous choisissons α = 0.2)

R 4 R` egle de rencontre ”N´ egative” entre 2 fourmis du mˆ eme nid :

M _i vaut 0 puisque la fourmi i n’a pas encore r´ ealis´ ee de rencontres. M _i

ayant le mˆ eme label que la fourmi i. M _i est augment´ e quand la fourmi i

• L’estimateur M _i ⁺ mesure l’int´ egration de la fourmi i dans son nid. Il est augment´ e si la fourmi i et une autre de son nid se rencontrent et s’acceptent et est diminu´ e sinon.

T emplate _i ← Sim(i, ·) + max(Sim(i, ·))

Acceptation(i, j) ⇔(Sim(i, j) > T emplate _i )

(2) Genome _i ← i ^eme objet des donn´ ees ` a classer (3) Label _i ← 0

(4) T emplate _i est initialis´ e selon l’´ equation 1 (5) M _i ← 0, M _i ⁺ ← 0, A _i ← 0

(6) Simuler N b _{IT ER} it´ erations durant lesquelles chaque fourmi en ren- contre une autre choisie al´ eatoirement

Si (Label i = Label j = 0) et Acceptation(i, j) Alors Cr´ eer un nouveau label Label _{N EW} et Label _i ← Label _{N EW} , Label _j ← Label _{N EW} . Si Acceptation est faux alors la r` egle R ₆ s’applique.

Si (Label i = Label j ) ∧ (Label i 6= 0) ∧ (Label j 6= 0) et Acceptation(i, j) Alors Augmenter M i , M j , M _i ⁺ et M _j ⁺ . On entend par Augmenter (3) ou par Diminuer (4) une variable x :

F aux Alors Augmenter M i , M j et Diminuer M _i ⁺ et M _j ⁺ . La fourmi x

(x=i, x=j) qui est la moins int´ egr´ ee dans son nid (x|M _x ⁺ = min(M _i ⁺ , M _j ⁺ ),

perd son label et n’a donc plus de nid (Label x ← 0, M x ← 0 et M _x ⁺ ← 0).

R ₆ R` egle par d´ efaut : Si aucune autre r` egle ne s’applique, alors rien ne se passe!

Analyse des r` egles comportementales La r` egle R ₁ a un rˆ ole fondamental car c’est la seule r` egle qui peut cr´ eer un nouveau label et donc un nouveau nid.

La r` egle R 3 augmente simplement les estimateurs M et M ⁺ en cas d’acceptation entre les deux fourmis qui se rencontrent.

La r` egle R ₅ autorise le regroupement entre clusters similaires, les plus petits

Sim(o _i , o _j ) = 1 N b T ypes

Sim _θ

(o _i , o _j ) (5)

Sim _θ

(o _i , o _j ) = 1 −