Phase itérative. Sélectionner un gel par classe, afin de former k nouvelles classes fictives avec un représentant par

d'apprentissage automatique

IX. 4.2.2.2 Expériences dans le cadre de MELANIE

IX.5 Méthodes de l'intelligence artificielle

IX.5.2 La classification conceptuelle

2. Phase itérative. Sélectionner un gel par classe, afin de former k nouvelles classes fictives avec un représentant par

classe, puis retourner au point 1.

On répète ce processus jusqu'à convergence des classifications, c'est-à-dire jusqu'à ce que le procédé n'améliore plus les classi-fications obtenues lors des itérations précédentes. La meilleure classification rencontrée et les descriptions des classes corres-pondantes forment le résultat.

La phase de recherche heuristique peut être considérée comme une ap-plication, à chaque classe fictive, du principe général d'apprentissage data-driven donné par Mitchell [Mit79] et décrit dans le chapitre VIIl.2.5.1. On rappellera brièvement ce principe :

Soit E l'espace de recherche qui englobe l'espace des règles et l'espace des instanciations. Dans E, on considère le sous-en-semble H des hypothèses, c'est-à-dire l'espace des solutions possibles. L'ensemble H peut être représenté par ses deux

Méthodes de l'intelligence artificielle

description nulle ₊général

Espace d'instanciations ₊spécifique

Figure IX.12: L'espace de recherche E

frontières, au moyen de deux autres sous-ensembles : S, l'en-semble des descriptions maximalement spécifiques et G, l'en-semble des descriptions maximalement générales. S est initialisé à l'espace d'instanciation, tandis que G contient la description nulle. L'ensemble H est donc initialement égal à E. Le proces-sus d'apprentissage correspond alors à une recherche bidirec-tionnelle dans E, afin de modifier S et G de manière à éliminer de H les hypothèses inconsistantes avec les exemples, jusqu'à n'obtenir qu'une seule hypothèse (figure IX.12).

169

Cette stratégie est appliquée séparément à chacune des k classes fictives définies dans la phase de recherche heuristique et peut être décomposée en quatre étapes, deux qui modifient S et deux qui transforment G.

On décrira maintenant le fonctionnement général de cette recherche dans l'espace des règles, tandis que les détails de l'implantation seront dis-cutés dans le paragraphe IX.5.2.1.3.

170 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE Soient g le gel de départ d'une classe fictive donnée, ainsi que gi (i

=

0, 1, ... , k - 1) les gels de départ des autres classes fictives. Soient encore P l'ensemble des gels restants non sélectionnés, ainsi que S et G les deux ensembles décrits ci-dessus. La phase de recherche heuristique pour chaque classe fictive comporte les quatre étapes suivantes :

1. Modification de S - construction de la description maximale-ment spécifique du gel de départ g par rapport aux autres gels de départ. Pour chacun des gels de départ gi des autres classes fictives, on recherche l'ensemble L0(glgi) des différences entre le gel g et le gel gi. C'est-à-dire que l'on construit la description exacte de g par rapport à gi. L'ensemble

des différences entre g et tous les g; correspond alors à la description la plus spécifique possible de y par rapport aux autres gels de départ Yi. L(y) détermine la nouvelle valeur de S.

2. Modification de G - recherche des descriptions maximale-ment générales de g par rapport aux autres g₁. On généralise S en construisant l'ensemble L'(y) de toutes les combinaisons possi-bles des éléments des Lo(YIYi) :

L'(y)

=

{d~,d;, ... ,d;,,}, m

=

^P1^X^P2^X^...^X^Pk-^1,

où Pi représente le nombre de différences entre y et Yi, c'est-à-dire la cardinalité de Lo(YIYi), et les

di

ont la forme

di = d1 /\ d2 /\ ... /\ dk-1,

où di est une différence entre g et 9i (voir section IX.5.2.1.3).

Ainsi, chaque

d i

est une description maximalement générale du gel g par rapport aux autres gels 9i· L'ensemble L'(g), qui contient les m descriptions maximalement générales de g par rapport aux 9i, définit la nouvelle valeur de G.

Méthodes de l'intelligence artificielle 171 3. Modification de S - détermination des descriptions

maxi-malement spécifiques de la classe de g. Chaque élément

di

G

est une description possible de la classe fictive à laquelle appartient le gel g. Soit une description

di

donnée. On inclut dans cette classe tous les gels de l'ensemble P des gels non sélectionnés qui sont décrits par d;. On réduit ensuite d

1

en descendant dans l'espace de recherche et on détermine la description la plus spécifique possible recouvrant tous les gels que l'on vient d'inclure, mais aucun autre gel de P. Celle-ci est obtenue en considérant les valeurs exactes prises par les variables des gels décrits par

di.

Elle représente alors la nouvelle description maximalement spécifique de cette classe. En appliquant ce proces-sus à chacun des éléments dj de G, on obtient l'ensemble L"(g) des nouvelles descriptions maximalement spécifiques possibles de la classe fictive de g. L" (g) est alors prise comme nouvelle valeur de S.

4. Modification de G - construction de descriptions générales de la classe de g. En appliquant à chacun des éléments de S des opérateurs de généralisation, on élève le niveau d'abstraction de cha-cune des descriptions possibles de la classe, afin qu'elles soient ca-pables d'inclure d'autres gels que les n gels considérés au début de l'algorithme, c'est-à-dire de leur donner des capacités de prédiction.

On possède alors un ensemble L"'(g), nouvelle valeur de G, qui con-tient m descriptions possibles de la classe à laquelle appartient g.

Ainsi, en appliquant cet algorithme à chaque gel de départ g;, on obtient k ensembles

L"'(g;)

=

{a;1,Œ;2,.,.,Œ;m,},

où m; est le nombre de descriptions possibles dans la classe de g;. La phase de recherche heuristique se termine en effectuant les deux opérations suivantes :

1. On construit l'ensemble

L

de toutes les combinaisons possibles de descriptions de chacune des k classes fictives. On obtient ainsi un ensemble de classifications possibles pour les n gels considérés²• 2Certaines classifications ne sont pas disjointes, c'est-à-dire que plusieurs classes

recou-vrent un ou plusieurs mêmes gels. On leur applique alors un opérateur de disjonction,

172 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE 2. On choisit la meilleure classification en fonction d'un critère de qualité donné. Celle-ci constitue alors le résultat de la phase de recherche heuristique.

IX.5.2.1.2 Remarque

On peut juger de la complexité de l'algorithme général décrit ci-dessus en considérant les grandeurs suivantes : soient p le nombre moyen de différences entre deux gels donnés, et k le nombre de classes à former.

Alors le nombre de descriptions possibles pour une classe (la cardinalité de L'(g)) est de

pk-1,

et le nombre de classifications possibles (la cardinalité de L) est de

pk(k-1).

Les expenences ont montré qu'en comparant deux gels d'électrophorèse bidimensionnelle, on trouve en moyenne 30% de taches qui possédent des valeurs différentes. Ainsi, pour les 12 gels de test et les 776 taches corres-pondantes, on a

=

233.

Si on veut former trois classes (k

=

3), le nombre de classifications possibles contenues dans I, sera de

233⁶^, soit environ

1.6 X 10¹

4.

IX.5.2.1.3 Implantation

L'algorithme présenté ci-dessus a été adapté à la classification des gels d'électrophorèse bidimensionnelle. Un programme a été élaboré, dont l'im-plantation en langage C a fait l'objet d'un travail de diplôme en informa-tique. Ce travail a été réalisé par Christian Roch [Roc86]. On décrira

afin de les rendre disjointes. Cet opérateur sera décrit plus loin.

Méthodes de l'intelligence artificielle 173

maintenant l'algorithme dans la forme où il a été implanté et avec les mo-difications qui lui ont été apportées.

Soient g1 , g_{2 ,}••• , gn les n gels d'électrophorèse bidimensionnelle à classer, ainsi que sp1 , sp2 , ••• , sp, les s variables liées aux gels, pouvant prendre leurs valeurs dans l'intervalle d'entiers [0 .. 10]. Ces variables représentent l'intensité des taches contenues dans les images des gels. Soit encore k le nombre de classes à former. L'algorithme complet de classification, dans la forme où il a été implanté, peut être énoncé comme suit :

1. On sélectionne k gels parmi les n gels donnés. Ce sont les gels de départ. Soient gd_{1 ,}gd2 , ••• , gdk ces gels et soit P l'ensemble des gels restants. Les gels de départ sont choisis de manière à maximiser la distance euclidienne entre eux. Ceci augmente la probabilité que les gels de départ appartiennent à des classes différentes.

2. Soient gd un des gels de départ fixé, et gdi un autre gel de départ. La description de gd par rapport à gd; est donnée par la conjonction

où [ spi

#

Vj], appelé un sélecteur, indique que la / ¹¹¹e tache de gd ne peut pas prendre la valeur ^Vj,qui est la valeur prise par la jème tache de gd;. Cette expression représente la description spécifique de gd par rapport à gd;. En déterminant les conjonctions de sélecteurs par rapport aux autres gels de départ, on obtient la description ma-ximalement spécifique de gd par rapport aux autres gels de départ.

Afin de limiter le nombre de termes de chaque conjonction, on ne considère un sélecteur [spi

=J

vi] que si on a

où spi (g) indique l'intensité de la tache spi dans le gel g, et T est un seuil prédéfini. En effet, on peut admettre qu'une tache est peu caractéristique d'une classe, si son intensité est proche de celle d'une tache d'un gel d'une autre classe. Ceci limite fortement le nombre de

174 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE taches à considérer dans cette étape de l'algorithme. Les expériences ont montré que les meilleurs résultats étaient obtenus pour T

=

3. Le seuil T est un paramètre du système que l'utilisateur peut modifier.

3. En combinant chaque terme de chaque conjonction avec chacun des termes de chacune des autres conjonctions, on trouve les descriptions maximalement générales de gd par rapport aux gd;.

4. On inclut dans chacune des descriptions, les gels de P qu'elles re-couvrent, puis on réduit chaque description en la remplaçant par la conjonction

[spi E SPi] /\ [sp2 E SP2] /\ ... /\ [sp. E SP.],

où SP; est l'ensemble des valeurs prises par la jèm• tache des gels en question. On a ainsi les descriptions maximalement spécifique des classes possibles auxquelles appartient le gel gd.

On limite ici également le nombre de descriptions conservées. A cet effet, on trie toutes les descriptions obtenues, en fonction d'un critère d'évaluation F1³, puis on en retient les b meilleures, b étant une borne spécifiée par l'utilisateur.

5. On généralise chacune des descriptions des classes possibles de gd, en appliquant deux opérateurs de généralisation à chaque sélecteur. Le résultat donne alors des descriptions de classes possibles, dont gd fait partie, et qui sont assez générales pour prédire le comportement de gels nouveaux.

Les opérateurs de généralisations sont les suivants :

• La fermeture de l'intervalle. L'ensemble des valeurs possi-bles pour une tache est formé d'intervalles disjoints. Si le rap-port entre le nombre de valeurs interdites comprises entre deux intervalles et le nombre total de valeurs comprises entre leurs extrémités est en-dessous d'un seuil T', alors ces deux intervalles sont remplacés par un seul qui rejoint les deux. Par exemple, si

3voir paragraphe suivant.

Méthodes de l'intelligence artificielle 175

L"'(g2)

Figure IX.13: Arbre de classification

on a le sélecteur [sp = SPJ, avec SP = {3,4,5,8,9} et un seuil T'

=

1/3, le rapport entre le nombre de valeurs comprises entre [3 .. 5] et [8 .. 9] (les valeurs 6 et 7) et celles comprises dans [3 .. 9]

vaut 2/7, ce qui est plus petit que 1/3. La nouvelle valeur de SP sera alors SP

=

{3,4,5,6, 7,8,9}.

• L'élimination de la condition. Un sélecteur est éliminé, si le rapport entre le nombre de valeurs manquantes et la taille du domaine (11, puisque le domaine est [0 .. 10]) est plus petit que le même seuil T'. Ce seuil est un paramètre fixé par l'utilisateur.

6. On effectue les mêmes opérations avec chaque gel de départ, afin d'obtenir pour chacun des k gels une liste de descriptions de classes possibles. On combine alors chaque description de chaque classe avec les descriptions des autres classes. Pour réaliser cela, on construit un arbre. La racine a un descendant par description de la première classe (les a1i; voir ci-dessus la présentation générale de l'algorithme). Puis chacun d'entre eux aura un descendant pour chacune des descriptions de la deuxième classe (les cx₂i), et ainsi de suite (figure IX.13). Chaque feuille de l'arbre représente ainsi une classification possible.

Toutefois, trois cas peuvent se présenter :

( a) Les classes sont disjointes et décrivent tous les gels considérés au départ. Dans ce cas, la classification peut être prise en compte.

176 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE (b) Les classes ne sont pas disjointes. On extrait alors les gels décrits

par plusieurs classes et on les met dans une liste d'exceptions.

Chacun de ces gels est ensuite réintroduit dans la classe à laquelle il convient le mieux. Afin de pouvoir décider de cela, on introduit le gel dans chaque classe et on mesure la qualité de la classe feuille. Les feuilles sont parcourues par ordre croissant de

LQj,

j=l

où qi est la position de di dans la liste triée des descriptions possibles de la

/m•

classe.

On s'arrête après avoir parcouru un nombre prédéfini de feuilles et on choisit la meilleure classification rencontrée, en fonction d'un critère d'évaluation F44. Plus précisément, l'utilisateur définit deux para-mètres : rb, le nombre de feuilles à parcourir (recherche de base), et

r.,

un nombre de feuilles supplémentaires à parcourir, chaque fois que l'on trouve une classification meilleure que les précédentes (recherche d'essai).

Méthodes de l'intelligence artificielle 177

les précédentes, on prend le gel se trouvant le plus près du centre géo-métrique de la classe, sinon on le choisit le plus éloigné possible. Le centre géométrique est calculé en fonction de la distance euclidienne.

Cette méthode permet de choisir des gels au centre des classes, si la classification est bonne, sinon de les prendre vers les bords, afin d'augmenter la probabilité d'obtenir des classes différentes.

IX.5.2.1.4 Adjonction de connaissances et résultats

L'algorithme présenté ci-dessus est un procédé général de classification.

Il peut être employé pour classer toutes sortes d'objets, à la seule con-dition que ces objets soient définis par des variables. Afin de l'appliquer aux images de gels d'électrophorèse bidimensionnelle, il faut inclure des connaissances spécifiques au domaine. Ceci est réalisé par les fonctions d'évaluation Fl, F2, F3 et F4 utilisées dans l'algorithme.

Ces quatre fonctions sont employées pour évaluer la qualité d'une classe (Fl, F2) ou d'une classification (F3, F4). De nombreuses fonctions ont été définies et testées avec les images de gels d'électrophorèse. Une quaran-taine de fonctions ont été implantées au total. On n'en décrit ici que les principales, c'est-à-dire celles qui ont produit des résultats intéressants.

Il sied de rappeler préalablement comment ces quatre critères de qualité sont utilisés. La fonction Fl permet de trier les descriptions possibles obtenues pour chaque classe fictive (voir ci-dessus le point 4. de l'implanta-tion). La fonction F2 intervient lorsqu'une classification est non-disjointe.

Les gels communs à plusieurs classes sont alors attribués à celle qui lui convient le mieux. Le critère F2 permet de prendre cette décision (point 6b.). La fonction F3 permet de chosir la classe à laquelle sera ajouté un gel qui n'est pas décrit par la classification (point 6c.). Enfin, parmi toutes les classifications disjointes et complètes produites, la meilleure est sélectionnée en fonction du critère d'évaluation F4 (points 7. et 8.).

Deux séries d'expériences ont été menées jusqu'ici. D'abord, des fonc-tions d'évaluation ont été définies qui tenaient compte principalement des

178 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE

écarts-types des taches. Ensuite, les critères de qualité ont été rendus plus spécifiques en considérant les taches caractéristiques des classes.

Première série d'expérience

Dans la première série d'expériences, les fonctions suivantes ont été testées comme critères d'évaluation :

Critère Fl :

(la) Minimiser la différence entre le nombre d'objets décrits (les gels qui peuvent faire partie de la classe) et les objets décrits effectivement observés (parmi les douze gels de test, ceux qui sont décrits par la classe)⁵^• Cette fonction a été proposée par Michalski [MS83]. Elle favorise les classes qui correspondent bien aux objets observés, c'est-à-dire celles qui décrivent un maximum d'objets observés et un mini-mum d'objets qui ne le sont pas. Vu la grande quantité de variables d'un gel (env. 2000 taches) et l'ensemble restreint de gels observés (12), le nombre de gels décrits et observés est négligeable. La fonction se limite donc à minimiser le nombre d'objets décrits.

Toutefois, les classes contenant peu de gels (1 ou 2) seront ainsi fa-vorisées, ce qui ne permet pas de poursuivre l'algorithme efficacement.

( 1 b) Minimiser

où s est le nombre de taches et ej représente l'écart-type des valeurs de la tache j dans les gels de la classe. On cherche des classes, dont

5011 désigne par objets décrits tous les gels qui correspondent à la description d'une classe donnée, c'est-à-dire tous ceux qui peuvent en faire partie. Par objets observés on indique les gels à classer. Les objets décrits et observés sont donc ceux, parmi les gels à classer, qui appartiennent à la classe.

Méthodes de l'intelligence artificielle 179 les valeurs possibles des taches sont dans des intervalles petits. Ceci signifie que la classe est cohérente.

Ici aussi, les classes contenant peu de gels sont favorisées, puisque les écarts-types sont petits.

(le) Minimiser la valeur

fi=

k -

ne,

où n est le nombre de gels à classer, k le nombre de classes et ne le nombre de gels observés, décrits par la classe. En cas d'égalité entre plusieurs classes, on applique la fonction lb.

Dans notre cas, lorsque n = 12 et k = 2, ce critère sélectionne d'abord les classes de six gels qui sont cohérentes. Cette fonction a produit les meilleurs résultats. Elle a également été conservée dans la se-conde série d'expériences. On a en effet constaté que cette fonction choisissait les classes dont 40% contenaient au moins 5 bons gels sur 6 et 60% en contenaient au moins 4. Ces classes constituaient ainsi un bon point de départ. En les combinant avec les descriptions des autres classes et en admettant que les critères F2 et F3 sont assez sélectifs, on doit obtenir la bonne classification.

Critère F2 : (2a) Minimiser

où s est le nombre de taches et ei représente l'écart-type des valeurs de la tache 1· dans les gels de la classe. C'est la mesure de la cohérence d'une classe (voir la fonction lb). En ajoutant un gel à une classe, on mesure la diminution de cohérence qui en découle. Le gel est laissé dans la classe dans laquelle cette variation est la plus faible.

180 CHAPITRE IX. MELANIL - UN SYSTÈME D'APPRENTISSAGE (2b) Même fonction qu'en 2a, mais on ne tient compte que des taches significatives, c'est-à-dire des taches qui prennent leurs valeurs dans un intervalle petit. La longueur maximale de l'intervalle est un para-mètre fixé par ! 'utilisateur.

Le principe est ici le même qu'en 2a, mais on ne considère que les taches qui assurent une bonne cohérence à la classe avant de lui ajouter un nouveau gel. Cette fonction a été utilisée pour les deux séries d'expériences.

Critère F3 : (3a) Minimiser

k s

I:I:e;,,

i=l J=l

où s est le nombre de taches, e,j l'écart-type des valeurs de la tache j dans les gels de la classe i, et k le nombre de classes. C'est la mesure de la cohérence de la classification.

(3b) Même fonction qu'en 3a, mais calculée uniquement sur les taches significatives ( comme en 2b). Cette fonction a donné des résultats légèrement meilleurs que celle décrite en 2a.

Critère F4 :

(4a) Même fonction qu'en 3a.

(4b) Même fonction qu'en 3b.

( 4c) Maximiser

k '

L

^I:Elm.j,

l,m=l j=l

où ^sest le nombre de taches, k le nombre de classes et

Méthodes de l'intelJigence artificielle 181

e1j Figure IX.14: La fonction F4c

ou e;j est la moyenne des valeurs de la tache

i

dans les gels de la classe i, et _e;1leur écart-type. Cette fonction maximise la distance entre les valeurs possibles des taches des classes (voir figure IX.14).

( 4d) Même fonction qu'en 4c, en ne tenant compte que des taches signi-ficatives. Cette fonction peut être appliquée si l'on admet que les classes formant une classification sont cohérentes. Ce n'est toutefois pas toujours le cas, ce qui fait que cette fonction produit des résultats moins satisfaisants que la précédente.

Après des essais effectués avec ces fonctions, l'algorithme a été appliqué aux douze gels de test, afin de créer deux classes. La borne b a été fixée à 10, c'est-à-dire que l'on n'a conservé que les dix meilleures descriptions de chacune des deux classes (voir paragraphe IX.5.2.1.3, point 4.). Les critères d'évaluation furent utilisés avec les fonctions Flc, F2b, F3b et F4c. Les deux listes suivantes montrent les dix meilleures descriptions pour chacune des deux classes. Les dix descriptions de la première classe englobèrent les

Dans le document MELANIE : un système d'analyse et d'interprétation automatique d'images de gels d'électrophorèse bidimensionnelle : systèmes experts et apprentissage automatique (Page 181-198)