Optimisation en classification automatique et reconnaissance des formes

(1)

R

EVUE FRANÇAISE D

’

AUTOMATIQUE

,

INFORMATIQUE

,

RECHERCHE OPÉRATIONNELLE

. R

ECHERCHE OPÉRATIONNELLE

E. D ^IDAY

Optimisation en classification automatique et reconnaissance des formes

Revue française d’automatique, informatique, recherche opé- rationnelle. Recherche opérationnelle, tome 6, n^oV3 (1972), p. 61-95

<http://www.numdam.org/item?id=RO_1972__6_3_61_0>

L’accès aux archives de la revue « Revue française d’automatique, informatique, recherche opérationnelle. Recherche opérationnelle » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/

conditions). Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fi- chier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

(6e année, novembre 1972, V-3, p. 61 à 96)

OPTIMISATION

EN CLASSIFICATION AUTOMATIQUE ET RECONNAISSANCE DES FORMES

par E. DIDAYO)

Résumé. — Les algorithmes actuellement opérationnels, consistant à fournir une « bonne partition » d'un ensemble fini, produisent des solutions dont rien ne permet dyaffirmer qu'elles soient optimales. Le principal but de ce texte est une étude synthétique de propriétés d'opti- malité dans des espaces formés de partitions d'un ensemble fini. On formalise et on prend pour modèle de cette étude, une famille de techniques particulièrement efficaces du type

« nuées dynamiques ». Après avoir développé Vaspect programmation, on illustre les diffé- rents résultats par un exemple artificiel et surtout par deux applications concrètes; Vune en géologie minière pour la recherche de familles géographiques de sondages verticaux^

Vautre en médecine pour le dépistage de profils biologiques permettant une aide au dia- gnostic.

INTRODUCTION 1.1. Le problème

Dans différents domaines scientifiques (médecine, biologie, archéologie, économie etc.), il apparaît fréquemment de vastes ensembles d'objets représentés par un nombre fini de paramètres. Pour le spécialiste, l'obtention des groupements « naturels et homogènes », ainsi que des éléments les « plus représenta- tifs » d'un tel ensemble constitue une étape importante dans la compréhension de ses données.

Une bonne approche de la solution de ce problème est fournie par les techniques de classification automatique qui consistent à trouver une partition d'un ensemble fini £ telle que chaque objet ressemble plus aux objets intérieurs à son groupe, qu'aux objets extérieurs. En termes mathématiques, le problème peut s'énoncer sous l'une des deux formes suivantes; étant donné un certain critère W :

A) Trouver la partition de E qui optimise W.

B) Trouver la partition de E qui optimise W parmi toutes les partitions en K classes.

(1) Ï.R.I.A. Rocquencourt (France).

(3)

6 2 E. DEDAY

La famille de méthodes dont il sera question concerne surtout le problème B, mais elle pourra également aider le praticien dans la résolution du problème C suivant :

C) Chercher parmi toutes les partitions en K classes celles dont chaque classe aura le noyau le plus représentatif. (Un noyau est un groupe de points de la population à classifier) (*).

Dans le paragraphe 1.2. nous donnerons sommairement les principales propriétés des méthodes des nuées dynamiques (2). Cette famille de méthodes servira de modèle au but véritable de cette étude qui sera développé dans le paragraphe L3.

1.2. Les méthodes des nuées dynamiques

On se donne une fonction g permettant de transformer une partition de E en un ensemble fini de noyaux et une fonction ƒ permettant le passage de plusieurs noyaux à une partition. Le principe de ces méthodes est simple, il consiste à appliquer de manière alternative les fonctions ƒ et g à partir d'un choix initial de noyaux. Moyennant certaines hypothèses qui seront données, la décroissance du critère W est assurée jusqu'à la convergence. Le formalisme que nous donnons permet d'obtenir de nombreuses variantes de cette technique et notamment, comme cas particuliers, la méthode de Hall et Bail (1965) de Freeman (1969) et de Diday (1970). Nous avons pris cette famille de méthodes comme modèle de notre étude pour de multiples raisons.

a) Elles permettent d'éviter la mise en mémoire du tableau —-~~ ~ (où jy = card (E)) des similarités des objets deux à deux. Cela permet le traitement de populations beaucoup plus importantes que par d'autres techniques plus classiques [Sokal et Sneath (1963), Johnson (1967), Roux (1968), Lerman (1970)].

b) Ces techniques sont très rapides, par exemple la variante étudiée dans Diday (1970), permet le traitement sur IBM 360/91 d'une population de 900 objets caractérisés chacun par 35 paramètres en 3 i minutes.

c) Ces techniques ne souffrent pas de l'effet de chaîne [voir Johnson (1967), Zahn (1971)]. Autrement dit, elles n'ont pas tendance à rapprocher deux points éloignés si ces deux points sont liés par une file serrée de points.

d) II n'est pas nécessaire de définir des seuils arbitraires pour la détermination des classes ni pour l'arrêt du processus [voir Sébestien (1966), Bonner (1964), Hill (1967), etc.].

(1) Le problème C est formalisé et un exemple simple est donné en 2.1.

(2) Voir également E. Diday (1970), E. Diday (1971).

Revue Française d'Automatique, Informatique et Recherche Opérationnelle

(4)

L'utilisation des noyaux introduit de plus les avantages suivants :

a) La possibilité de prendre des noyaux de plusieurs éléments de la popula- tion permet une reconnaissance plus efficace des formes. On pourra voir, par exemple, dans le chapitre VI de Diday (1971), comment un bon choix de ƒ et g revient à construire des noyaux épousant la structure des formes de E, ce qui ne serait évidemment pas possible si ces noyaux étaient réduits à un seul point.

L'utilisation de noyaux permet également un vaste choix des fonctions ƒ et g, par exemple l'utilisation de la distance de Mahalanobis [voir Romeder (1969)]

qui n'aurait pas de sens si chaque noyau était réduit à un point unique.

b) En prenant pour noyaux des éléments de la population elle-même, plutôt que des centres de gravités, on évite l'effet artificiel que ces centres peuvent créer (cf. fig. 11). D'un autre côté, pour certains types de données, la notion de centre de gravité peut ne pas avoir de sens.

c) L'utilisation de noyaux permet la réalisation de partitions autour des agglomérations à forte densité en atténuant l'effet des points marginaux (cf. fig. 14 et fig. 15).

d) Signalons enfin, que l'utilisation des noyaux permet de donner des

«optimum locaux» au problème C, permettant ainsi d'aider l'utilisateur intéressé par de bons échantillonnages.

1.3. Étude synthétique des solutions obtenues

Toutes les techniques réalisables dont le but est de minimiser le critère W3

fournissent des solutions dont rien ne prouve qu'elles soient optimales. Or, les différentes études faites récemment sur l'état actuel des recherches en « clus- tering » [voir Bolshev (1969), Fisher et Van Ness (1971), Bail (1970), Wattanabé (1971), Cormack (1971)] font ressortir l'inexistence d'étude synthétique des solutions obtenues pour un algorithme donné. C'est à cette étude que ce texte est consacré. Nous nous sommes restreint à un type particulier d'algorithme mais, évidemment, cette analyse pourrait s'étendre à d'autres techniques.

On appellera Vk l'ensemble des solutions possibles. Chaque solution (*) obtenue par un algorithme des nuées dynamiques est optimale vis-à-vis d'une certaine partie de Vk qui est une arborescence particulière. Cela conduit à donner une structuration à l'espace Kfc. On montre en particulier que, sous certaines hypothèses, cet espace peut être partitionné en un nombre fini d'arborescences qui ont pour racine une solution stable dite « non biaisée » et pour sommets pendants des éléments d'un certain type, appelés « éléments impasses ». On applique les différents résultats obtenus de la manière suivante :

a) On construit une variable aléatoire permettant de se faire une idée réelle de la structure de Vk. On obtient ainsi un invariant intéressant pour de multiples raisons, notamment pour les données évoluant dans le temps et pour comparer l'efficacité des différentes techniques.

(5)

64 E. DH>AY

b) On définit différents types de « fuzzy-sets » (*) dans E : les formes

« fortes » et « faibles » ainsi que les points « charnières ». Bien mieux que l'optimum global, ce sont à notre avis ces « fuzzy-sets » et les optimums locaux obtenus qui fourniront véritablement à l'utilisateur les différentes facettes de la réalité qu'il désire saisir.

c) Nous donnons un nouveau type de techniques permettant par passage d'une arborescence à l'autre, une approche de l'optimum global.

Les exemples d'application qui seront donnés font notamment ressortir l'intérêt des « formes fortes » qui sont un outil d'une grande utilité pour le praticien, en lui permettant d'extraire de sa population les groupes de points les plus significatifs.

Signalons enfin, que nous avons évité les développements théoriques, en nous restreignant aux résultats intéressants pour la compréhension et Futilisa- informatique des méthodes.

QUELQUES NOTATIONS ET DEFINITIONS E : l'ensemble des objets à classifier, il sera supposé fini.

P (E) : l'ensemble des parties de E.

Pft : l'ensemble des partitions de E en un nombre n ^ k de parties.

L& C { L = (Ax, ..., Ak) I At C A } où, selon les cas A représentera E ou R" par exemple.

Vk = Lfc X Pfc.

PFune application injective : V^h —* R⁺.

Un optimum local sur C C Vk sera un élément v* : W(v*) = Min W(v).

o€C

Si C — Vk on a un optimum global.

bx a X

c X

hx

Figure 1

EXEMPLE 1 :

Soit E = {a9 b9 c9 d9 e9 h}

6 points du plan (voir fig. 1).

W est défini comme suit : soit et P = (Pu P2) € P2 alors W (v) =

*2 S ^(**> y) °^ ^*

^es

^ ^

^a

&

^s

tance

Euclidienne.

(1) Voir Zadeh (1965) et Ruspini (1970).

Revue Française d*Automatique, Informatique et Recherche Opérationnelle

(6)

On voit que dans ce cas, l'optimum global est donné par v* = (Z,*, P*) où L* = (b9 d) et P* = { {a, &, c}, {*, rf, A} }.

EXEMPLE 2 :

Soit E l'ensemble des 17 points indiqués (fig. 2). Prenons

L2 = { L = (^lf i42)/i4, C £, card 04 J = 3, card (A2) = 2 } et F2 = L2 X P2 2

Choisissons PT(t?) = ^ ^ ^ rf(:t, j ) où d est encore la distance

1=1 x€At y€Pi

Euclidienne.

X

X X X

X X

X X X X

X X

Figure 2

x x

X X

X

'x

! x

\

X

* 3

X X k

t

X X

\ X X 1

F i g u r e 3 :' *

:; (

x S)

®

; t

t /

L'optimum global y* = (L*, P*) o u i * = (A& A%) et P * = (Pf, P%) est donné (fig. 3). Les traits pointillés indiquent les points de E qui constituent Pf et Pf ; les trois points indiqués par le signe * forment A^u le signe & sert à représenter les deux points qui constituent A².

CONSTRUCTION DE TRIPLETS (f>g,w) PAR LES NUEES DYNAMIQUES 3.1. Formulation générale

Nous noterons v = (L, P) € Vk où LeL>k : L = (Au ..., Ak) avec AtCiA et P € Pfc : P = (Pl5 ..., Pk) où les Pt sont les classes de la partition P de E. On se donne également les quatre applications suivantes :

D : E x P(i?) -> R qui dans la pratique exprimera la similarité d'un élément de E avec une partie de E.

R : Ex T X Pfe —• R+ (où Test l'ensemble des entiers compris entre 1 et/:).

Cette application servira à agréger et à écarter les classes entre elles. On peut prendre par exemple R(x, i, P) ~ D(x, P;). On aurait pu également définir R : E x T x Vk -> R+ (cf. [9]); comme le montre l'exemple ci-dessous, cette

(7)

66 E. DIDAY

définition de R peut rendre des services, cependant, afin de simplifier nous nous restreindrons dans tout ce texte à la première définition.

EXEMPLE : R(x, x, v) = ^ P )

Plus n est grand, moins les éléments des noyaux seront dispersés dans chacune des classes obtenues et plus ils exprimeront le squelette des formes qu'ils déterminent (cf. [10] chap. VI, un exemple de cas limite avec n -> oo). Par un choix adéquat de n l'utilisateur pourra ainsi tenter d'obtenir des noyaux dont la distribution soit une bonne image de la distribution des classes qui leur correspond.

Le triplet (ƒ, g, W) est construit comme suit :

k

le critère W : Vk -> R+ : v = (L, P) => W(v) = S E

i = l x€Ai

l'application ƒ : Lfe —>Pfc est définie par : ƒ(£) = P

avec Pf = { x € £/i)(x, ^ ) ^ D(x, Aj) pour 7 7^ i }, en cas d'égalité on affecte x à la partie de plus petit indice.

l'application g : Pk^Lk est définie par : g{P) — L

avec At = les «,- éléments a£Â qui minimisent i?(a, z, P). La valeur des «£ dépen- dra de la variante choisie (cf. 3.2.).

Dans [9] nous avons pris l'habitude d'appeler Ai « noyau » de la zième classe, et « étalons » les éléments qui le constituent.

REMARQUE : si R : E x T x Vk -> Lfc, il faut choisir g : Vk ->- Lfc.

L'algorithme des nuées dynamiques consiste à appliquer alternativement la fonction ƒ puis la fonction g sur le résultat obtenu et cela à partir de L(0) € Lfc

estimé ou tiré au hasard.

3.2. Les différentes variantes et intérêt comparé

Nous ne prétendons pas exposer ici toutes les variantes possibles; nous exposerons celles qui ont paru les plus intéressantes, en faisant simplement varier le choix de g et de R (laissant au lecteur le loisir d'en imaginer d'autres !).

a) Pour cette variante on a : A = R" J n} == 1 V i ;

si on prend de plus R(x, z, P) = D(x, P£), g(P) = L est tel que Ax soit le centre de gravité (!) de Pt au sens de D.

Hall et Bail proposent une méthode de ce type dans [13].

(1) x est appelé centre de gravité de Pi au sens de D si D(x, Pi) = inf D(xt Pi), Revue Française d'Automatique^ Informatique et Recherche Opérationnelle

(8)

b) A == E et nt = card (Ft) où :

Ft = { x e E/R(x, U P) < R(x9 h P)Vj # i }, si i < J et J?(x, Ï, P) = R(x, j9 P) on affecte x à i^. On voit alors que les Aî sont identiques aux Ft et constituent une partition de E.

On trouvera une étude approfondie de ce cas dans [9] (qui est une généralisa- tion de la méthode proposée par Freeman dans [12] où Lfc = P et g est remplacée par ƒ. Notons qu'une variante intéressante de cette méthode consisterait à choisir Vi € {1, 2,..., k} nt = a card (Ft) avec oc = £ par exemple.

c) A = E et 77; fixé une fois pour toute V/ € {1,..., k}; n-^ sera choisi par l'utilisateur s'il a quelque idée du contenu de ses données, sinon il pourra prendre ni — •=-— pour tout i. (Voir [9] et [10].)

d) A = E9ni fixé ou égal à a card Pt avec 0 < a < 1 ; on définit At comme étant les nt éléments de Pt qui minimisent R(x, i, P). Quand n( est fixé et dans le cas où le nombre d'étalons d'un noyau devient supérieur au nombre d'élé- ments de la classe correspondante, on prendra par exemple, nt = card P£ s'il s'agit de la classe P-.

REMARQUE

Dans le cas où l'utilisateur désire obtenir des classes empiétantes, il lui suffit de prendre a > 1 dans les variantes b) et c).

On peut construire des méthodes mélangeant les variantes :

On pourrait ainsi commencer par une variante du type c) pour localiser les formes, puis terminer par une variante du type d) pour que les At donnent assurément les éléments les plus représentatifs de la classe P;. Dans tous les cas où l'utilisateur a besoin de définir des contraintes sur les noyaux, on choisira A de manière à ce que les éléments des noyaux satisfassent ces contraintes.

EXEMPLES :

1) faire une typologie d'un ensemble d'entreprises mais en imposant aux noyaux de n'être formé que d'entreprises modèles;

2) faire une typologie sur un ensemble de formes en imposant aux noyaux d'être pris parmi un ensemble de formes types.

Dans le cas où K = 1 on peut utiliser la variante suivante qui permet d'obtenir des étalons aux endroits à forte densité :

= A{^ =• n points tirés au hasard dans E.

= les m points de E les plus proches de A^~^l) au sens de D avec m > n (par exemple m = n + 1).

A[q) = les n points de iHes plus proches de P{<ù au sens de R.

(9)

68 E. DIDÂY

Cette technique peut donner à l'utilisateur une idée a priori du nombre de classes de E.

Comparaison des différentes variantes : par rapport a la variante a), les variantes b), c) et d) ont l'avantage d'atténuer l'effet artificiel créé par des centres de gravité en utilisant des noyaux d'éléments de la population elle- même.

La variante b) a l'avantage par rapport à c) de ne pas nécessiter l'introduction des paramètres n^h cependant elle a une forte tendance à osciller au lieu de converger, elle donne plus d'importance aux éléments marginaux puisque ses noyaux recouvrent E, alors que les noyaux de la variante c) ne tiennent compte que des éléments les plus représentatifs; de plus, elle nécessite beaucoup plus de calculs et de place mémoire qu'une utilisation de c) avec Swj < < card E.

La variante d) permet d'assurer la représentativité des noyaux vis-à-vis de leur classe et réduit les calculs et la place mémoire; cependant le choix des noyaux étant moins vaste à chaque itération (puisqu'on astreint les étalons à n'appartenir qu'à l'une des classes précédentes) elles peut donner des classes moins pertinentes que pour la variante c).

3.3. Construction de triplets rendant la suite un décroissante Définitions des suites un et vn :

Soit h l'application Vk ~> Vk telle que : (i; = AP) £Vk => h(v) = (g(Pl f(g(P))).

Une suite { vn } est définie par v0 et vn+1 = h(vn).

Une suite { uⁿ } est définie à partir d'une suite { vⁿ } par uⁿ = W(vⁿ).

Définition de S :

Soit S:Lf exLk^R+ :

S(L, M) = è X R(x9 U Q) où g = /(M).

1=1 x€Ai

Définition d'une fonction carrée (!) On dira que R est carrée si :

S(Ly M) ^ S(M, M) => S(L, L) < S(L, M).

Théorème 1 :

Si R est carrée le triplet (ƒ, g, W) rend la suite un décroissante pour les variantes où le nombre d'étalons par noyau est fixé.

(1) Nous avons exhibé dans [9] un exemple de fonction R carrée.

(10)

Démonstration

Étant donnée la suite vⁿ = (L⁽ⁿ\ P^{( n )}) on a :

W(vn) = è £ w il(x, i, /><">) où

( = 1 x€Ai

d'où : «„ = W(vtt) = S(L(n), L(B)).

Posons z„ = S'(I-("+1), Z,(n)).

Si R est carrée et si rn < MB on a nécessairement :

Montrons que zⁿ ^ «„; en effet :

**"» = Ê E *fe ', ^**

⁽ⁿ⁾

) > Ê S

par construction même de ^4⁽ⁱ'^l+1).

On voit ici l'intérêt de fixer le nombre d'étalons par noyau, car cette dernière inégalité n'est pas nécessairement vérifiée dans le cas de la variante b).

On a finalement montré que : un+l ^ zn et zn ^ un d'où un+x < un. c.q.f.d.

N. B. Dans toute la suite on se restreindra au cas où le nombre d'étalons par noyau est fixé.

STRUCTURATION DE Lk9 Pft, Vk

ET PROPRIETES D'OPTIMALITE

Considérons le graphe F = (V^k, h). Il apparaît alors, des éléments particu- liers dans V^k :

1) Les éléments non biaises

Les propriétés suivantes sont équivalentes et caractérisent un élément non biaisé (*) v = (L, P) € Vk.

a) v est racine d'une arborescence bouclée de F.

b) v est un point fixe de h.

(1) Cette appelation vient du fait que les noyaux correspondants à un tel élément sont au centre (au sens de g) de la classe qu'ils déterminent au sens de ƒ.

(11)

70 E. DIDAY

Les propriétés d) (resp. e), permettent de caractériser les éléments non biaisés de L& (resp. Fk).

d) g(f(L)) = L.

e)f(g(P)) = P.

2) Les éléments impasses

Les propriétés a) et b) suivantes sont équivalentes et caractérisent un élément impasse v = (L9 P) € Vh.

a) v est un sommet pendant de F.

b) P ¥=f(L) o u / "1 (g-KL)) = 0

Signalons que les propriétés c (resp. d) suivantes, permettent de caractériser les éléments impasses de L& (resp. P^fc).

c) g-' (L) = 0 ou/-1 (g"1 (L)) = 0.

d)r

¹

(p) = 0 ou **g-* t r**

¹

(p» = 0 ou/-» (g-

¹

c r

¹

(p)» - 0.

Le théorème suivant se déduit immédiatement des définitions de la proposition 2 (cf. annexe 1) et du théorème 1.

Théorème 2 :

Si R est carrée alors :

a) Chaque composante connexe de P = (Vk, h) est une arborescence bouclée.

b) II existe dans Vk au moins un élément non-biaisé.

c) Si un élément non-biaisé v € Vk est sommet d'une arborescence C, alors v est un optimum local (*) vis-à-vis de l'ensemble des sommets de C.

d) Si w € V^k n'est pas un élément non-biaisé alors w appartient à une arbo- rescence bouclée de racine w*, et W(w) > W(w*). Et l'optimum global est un élément non-biaisé.

REMARQUE :

On a deux énoncés équivalents de ce théorème, en remplaçant partout Vk

par L^fe, puis par P^fe. Il suffit pour cela d'utiliser les fonctions cp^x : V^k —»• L^fe et cp2 : Vk —> Fk telles que :

si v = (L, P) alors cp2 (v) = L et <p2 (y) = -**•

On voit d'après ce théorème que dans le cas où R est carrée, il existe trois types d'éléments dans Vk (et de même dans Lfc et Pfc) : les éléments impasses, les éléments non-biaisés et les éléments restants qui seront dit « biaisés ».

(1) On peut montrer que v, est un optimum local pour une certaine topologie basée sur la différence symétrique. On peut montrer également que l'algorithme de Mac Queen [28] ne converge pas nécessairement vers une solution non-biaisée.

Revue Française (FAutomatique> Informatique et Recherche Opérationnelle

(12)

Si R n'est pas carrée, on est dans le cas de la proposition 1 (*), il y a des circuits dans Vk (et de même dans 1^ et Pfc); autrement dit on peut trouver des suites { vn } pour lesquelles il existe N > 1 tel que v0 = vN. Les éléments de ces circuits constituent donc un quatrième type d'éléments de Vk, Lfc ou P*.

Exemple de différents types d'éléments de Lfc :

Reportons nous au cas de la figure 1 et prenons le triplet (ƒ, g, W) des nuées dynamiques (cf. 3.1 .), avec k — 2, nx — n2 = 19A ^ E ^ {a,b,c,d,e,h},

où d est la distance euclidienne et R(x, i,P) = D (x, P^).

Elément impasses:

II n'existe pas deux points de E permettant d'engendrer à l'aide de ƒ la partition P = (Pl9 P2) où :

P, - { a, d, h } et P2 = { b, c, e }.

Ainsi f~~x (P) = 0 , comme L = (e, c) = g(P) on peut dire que L est un élément impasse. Un autre exemple d'élément impasse est le point L = (b, h) car g"1 ( L ) = 0 .

Elément non-biaisé :

L = (6, p) ç P2 est un élément non-biaisé car on voit simplement d'une part que f(L) = P = {PU P2) avec Px = { a, b, c } et P2 = { d, e, h } et d'autre part que g(P) = L = (*, d).

Élément biaisé :

L = (c, e) est biaisé car g(f(L)) ~ (b, d)^ L.

Nous avons utilisé l'appelation « élément biaisé » car un tel élément i n'est pas le plus proche de la partition qu'il engendre, contrairement à ( qui est non-biaisé car il vérifie cette propriété.

RECHERCHE D'INVARIANTS 5.1. Mesure des arborescences

On supposera d'abord que le triplet (ƒ, g, W) rend un décroissant VM0

[autrement dit que V x€Vki W(h(x)) < W{x)]. L'espace probabilisé (Q, A, P) des familles d'arborescences bouclées est définit comme suit :

(1) Cf. annexe 1.

(13)

7 2 E. DIDÂY

Jt = l'algèbre engendrée par la partition de Q en arborescences bouclées (c'est-à-dire ensemble des parties de O qui sont réunions d'arborescences bouclées).

P : A —»- [0,1] est telle que si C € A est réunion de n arborescences bouclées Ci9..., Cn alors

La variable aléatoire X (dite des familles d'arborescences) de (O, Jk9 P) dans (JR, B) où B est la tribu borélienne, est l'application O —>- R telle que X(t?) — ïF(u>) où w est l'élément non biaisé de l'arborescence bouclée contenant v. Xest bien une variable aléatoire car si l€B,X~l(I) est la réunion d'arbores- cences de Vk ayant pour sommets les éléments v tels que X(v) € /. La fonction de répartition F(x) = pi[X < x] exprime la probabilité d'obtenir un élément v € Vk

dans une arborescence bouclée ou une boucle contenant un élément non-biaisé w tel que W(w) < x. On donnera en 7.1 un exemple de fonction de répartition empirique correspondant à un «-échantillon de Vk. Dans le cas où 3x :

^(/C*)) > W{x) (autrement dit, si on ne suppose plus la suite un décroissante Vw0), on peut également définir une variable aléatoire des composantes connexes de Vh. La variable aléatoire de (Vk> Jt, P) dans (R, B) est telle que X(v) = inf W(y) où C est la partie connexe de Vk à laquelle appartient v,

y€C

L'introduction de ces variables aléatoires permet de se faire une idée du nombre de composantes connexes et de leur taille respective, grâce aux fonctions de répartitions empiriques. Cela donne également un outil de comparaison des différentes techniques, la meilleure étant celle pour laquelle les racines des arborescences de plus grande taille correspondent aux plus petites valeurs prises par W (voir 7.1).

5.2. Formes fortes, fuzzy-sets et information

5*2.1. Caractérîsation des différents types de formes

Soient Ct9..., Cm «parties connexes du graphe (Vk, h) et C = Cx X C2 X... x Cn; on définit l'application Z : C - > R+ par

Z(V) = W(vx) + ... + W(vn) où : V = (vu ..., vn) € Ceti?, € Cf. Soit F* : Z(F*) = Min Z(V). Soit F* = (vf, ..., »f) et v* = &*, F%

V€C

(Si R est carrée, Ct est une arborescence bouclée ou une boucle et vf est l'élément non-biaisé de Ct.) Notons PJ la ji è m e classe de la partition PK

Soit H l'application E => N" qui, à chaque élément* e^fait correspondre le vecteur (at,..., a„) où af est le numéro de la classe ou apparaît l'élément x dans Pf. Soit H(y) = ($l9 ..., P„) et 8 (x„ y) le nombre d'indices i pour / = 1,2,..., n tels que 0Lt — (3| = 0.

Française d'Automatique, informatique et Recherche Opérationnelle

(14)

Soient Fⁿ et F¹ deux applications multivoques définies sur E telles que Fn(x) - {ytm(x, y) = n) et F^x) = {y € £/»(*, j ) ^ 1}.

Définition des formes fortes (l) :

Les propriétés suivantes sont équivalentes et caractérisent la partition P*

de is dont chaque classe est une forme forte.

i) p* = p1* n p2* n . . . n pn*.

2) P* est la moins fine (2) des partitions qui sont plus fines que P,1* ..., Pn*.

3) P* est la partition définie par l'espace quotient EjH.

4) P* est la partition définie par les parties connexes du graphe Frt = (E, Fn).

Définition des formes faibles :

Les propriétés suivantes sont équivalentes (3) et caractérisent la partition g*

de E dont chaque classe est une forme faible.

1) g* est la plus fine des partitions qui sont moins fines que P1*, ...,Pn*.

2) g* est la partition définie par l'ensemble des parties connexes de I \ - (E9 F,),

Plus généralement, si onpos&Fp(x) = {y€E/S(x, y) ^ p} et Fp = (E, Fp\ l'ensemble des parties connexes de Yp pour p = 0, 1, 2,..., n constitue une hiérarchie. Cette hiérarchie induit l'ultramétrique sous dominante de la diffé- rence symétrique (cf. annexe 3).

REMARQUE :

On voit, d'après ces définitions que P* est une partition plus fine que Q*.

Définitions des points charnières et des points isolés:

On les caractérise par le fait que ce sont les formes fortes réduites à un seul point. Ils se distinguent par la propriété suivante :

un point a e E est isolé si §(a, x) = oix € £".

un point a € E est charnière si 3JC e E : o < 8(a, x) < w.

5.2.2. Fuzzy sets (4)

L'intérêt des « fuzzy sets » de Zadeh que nous introduisons ici est qu'ils permettent :

a) d'obtenir de nouvelles formes à la suite d'opérations ensemblistes sur les formes fortes (réunion, intersection, etc.);

(1) L'intersection de deux partitions est l'ensemble des parties obtenues en prenant l'intersection de chaque classe de Tune par toutes les classes de l'autre.

(2) Une partition P est dite plus fine qu'une partition P' de E si toute classe de /*' est union de classe de P.

(3) Pour la démonstration de cette équivalence cf. annexe 2.

(4) Voir [20] et [26].

(15)

74 E. DIDAY

b) de caractériser ces nouvelles formes sans avoir besoin de définir des profils types (par des calculs de moyenne par exemple) ni même de connaître les éléments qui les constituent;

c) d'utiliser au maximum l'information apportée par le tableau des formes fortes.

Chaque forme forte A peut être considérée comme un « fuzzy-set » caracté- risé par l'application hA : E —> [0, 1] telle que hA(x) = * où a € A, On

n

voit d'après la définition (3e propriété) que hA(a) = 1 Va € A. On peut utiliser hA

pour avoir une idée du degré de ressemblance avec A d'un point charnière ou d'une autre forme forte. On peut également utiliser l'application F : & —•

[0, 1] où J" est l'ensemble des formes faibles de E et

où les Aj sont les m formes fortes qui constituent B. Cette application F exprime le degré de faiblesse de B car plus les formes fortes Aj sont dissemblables plus F(B) sera petit. La plus grande valeur de F est 15 c'est-à-dire quand B est une forme forte.

5.2.3. Stabilité des formes fortes et information

Si le nombre de classes demandées est K et si n est le nombre d'optimum locaux obtenus, il est clair que Vx € E, H(x) peut prendre (k)n valeurs, cela souligne la cohésion des éléments d'une forme forte A puisque si x et y € A on a H(x) ~ H(y). Cependant l'utilisateur, désireux d'avoir une assurance supplé- mentaire en ce qui concerne la cohésion et la stabilité des formes fortes, peut utiliser l'information apportée par l'augmentation de «. Considérons les classes Pf*,..., F%* de la partition PJ, et soient Au ..., Am les formes fortes obtenues pour n = q — 1 ; soit P(jji) = - — j — - card (At fl PJ*)9 cette quantité

carcl A%

exprime la probabilité pour un élément d'être dans P|* sachant qu'il est dans AAt.

On peut maintenant mesurer l'information apportée par P* connaissant

\y..., Am :

—Ui

Si la partition des formes fortes Au ..., Am est plus fine que la partition l'information apportée par P«* est nulle puisque P(//0 = 1 ou 0. Si chacune des formes fortes Aj est répartie de manière égale dans chaque classe PJ*

pour jf = 1?..., k alors l'information apportée est maximum et vaut 1.

(16)

L'invariance des formes fortes est donc assurée pour n = q si Vra > q on a

^1* , » . , ^ "1* ) = 0. Ainsi, sur les données de Ruspini (cf. 7.1) on s'aperçoit qu'au-delà de n = 4 l'information nouvelle reste généralement nulle.

Signalons, enfin, que le nombre J(k) = £ /(P'VP1*, ...5 p*"1*) peut donner une idée sur la valeur du choix du nombre de classes k demandé; la plus petite valeur de J(k) correspondant au meilleur choix de k.

5.3. Optimum global de V^k Théorème 3 :

Si les hypothèses 'suivantes sont vérifiées : 1) R est carrée.

2) /(P^/P1*, ...s p"-1*) = O V n : q < n < N où N est le nombre d'arborescences bouclées.

Alors, la partition des formes fortes P1* fl ... fl P3* est plus fine que la partition correspondant à l'optimum global v* de Vk.

Démonstration :

L'optimum global v* est racine d'une arborescence bouclée ou d'une boucle puisque d'après 1) on peut utiliser le théorème 2.

Soit P** la position correspondant à v* si i < q, Pf* est moins fine que la partition des formes fortes P* car P* == P1* H ... H P5*. Si î > q l'information apportée par P^£* est nulle et donc P** est moins fine que P*.

c.q.f.d.

Ainsi, sous les hypothèses de ce théorème, chaque classe de la partition correspondant à l'optimum global est une réunion de formes fortes qui doivent être proches. Pour représenter cette proximité on peut par exemple utiliser une analyse factorielle du triple ou un « minimum spaning tree » (cf. [23]), sur le tableau T(iJ) = hAi{a3) où At est la z'ième forme forte et a,- un élément de la ƒème

forme forte ou encore la méthode des connexités descendantes (cf. annexe 3).

Cette méthode permet (sous les hypothèses du théorème 3) une bonne approche de l'optimum global.

Remarquons que la 2e hypothèse est vérifiée pour q d'autant plus petit qu'il existe effectivement k formes dans la population E.

(17)

7 6 E. DEDAY

5.4. Approche de l'optimum global par changement d'arborescences

II s'agit de construire à l'aide de deux éléments non biaises vx et v2 de Vk

un troisième élément non biaisé v3 qui améliore le critère. Nous supposerons R carrée.

Nous noterons

v' = (L\ P1) e Vk avec V - {Vu ..., L{) et F = (Pj, ..., Plk) ;

Nous supposons que FF est additive ce qui est souvent le cas dans la pratique) autrement dit, qu'il existe une application 2 : F(E) x P(£) —»• R+ telle que :

Supposons que i;1 et i?2 soient deux solutions non biaisées et soit { v)v ..., Vjh }, les k plus petites valeurs prises par z(x) avec ;c € { vj/i = 1 , 2 et j = 1, 2,... k }.

Notons P = (Pji s..., Pjft) et i, = (L)x,..., Lj^). On montre alors facilement la proposition suivante.

Proposition :

Si L^L1, L^L2 et P € Pf t alors l'arborescence bouclée contenant)].

v = (L, P) à pour racine un élément non biaisé v3 : JF(t>3) < inf [W(vt)9 W(v2

PROGRAMMATION DU TABLEAU DES FORMES FORTES ET INTERPRETATION HEURISTIQUE

En ce qui concerne la programmation des méthodes des nuées dynamiques, de larges développements pourront être trouvés dans [8], [9], [10]. Nous signa- lerons donc simplement l'apport qui a été fait depuis, par la sortie automatique des formes « fortes » et « faibles ». Le programme donne en sortie un tableau [dit des formes fortes (*)] représentant les différents types de formes; la première colonne de ce tableau (cf. tableau 1) donne le nom de chaque élément de E dans un ordre tel qu'à la suite de chaque élément x apparaît l'élément y rendant 8(x, y) minimum (2). On trouve sur chaque ligne le nom de l'élément x suivi

(1) Par opposition au tableau des formes faibles qui aurait en général une structure différente. Signalons toutefois qu'il est possible de construire un tableau respectant simul- tanément la structure en formes fortes et en formes faibles.

(2) Nous revenons ici aux notations données en 5.2.1.

Revue Française d*Automatique, Informatique et Recherche Opérationnelle

(18)

TABLEAU 1. — Formes fortes pour les données de Ruspini

NUMÉRO DES POINTS

1 2 3 5 6 9 10 8 4 7 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 U =

lr e

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1.2135

2^e 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1.2135

SOLUTIONS OBTENUES

3e

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4.8910

4e

1 1 1 1 1 1 1

1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1.2135

5e

4 4 4 4 4 4 4 6 6 6 6 6 6 5 5 5 5 5 5 5 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1.0000

0 1 i 0

0 A, 0 0 0 0 >

1 1

o 1

0 Ai Bi 0

0 0^t

1 1 0 0 0 A, 0 1

00 \^t

5 i 0 0 0 0 0 0 0 0 0 0

k

0 À*

0 0 0 0 0

n° novembre 1972, V-3.

(19)

78 E. DIDAY

TABLEAU 1 (suite). — Formes fortes pour les données de Rmpini

NUMÉRO DES POINTS

38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 61 68 69 70 71 72 73 74 75

ire

2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1.2135

2e

2 2 2 2 2 2 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1.2135

SOLUTIONS OBTENUES

3e

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 4.8910

4e

2 2 2 2 2 2 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1.2135

5e

2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1.0000

0 0 0 0 0

B2

0 V 4 X 0 0 0 0 0 0 0 0 A*

0 0 0 0 0 0 0 0 ^ 5 j 0 0 0 0 0 0

0 As E*

0 0 0 0 0 0 0 ,

(20)

des valeurs al5..., an qui décrivent le vecteur H{x). La valeur A(JC, y) = w-S (x, j ) correspondant à deux éléments consécutifs xs 7 est donnée en dernière colonne et permet une détection aisée des formes fortes et faibles : si A(x, y)' = n cela signifie que JC est le dernier élément d'une forme faible (c'est-à-dire d'une partie connexe de I^); si A(x, y) = 0 cela signifie que x et y font partie de la même forme forte; les files de 0 dans cette dernière colonne caractérisent donc les formes fortes.

En ce qui concerne l'interprétation du tableau des formes fortes, nous ferons les remarques suivantes :

à) soit m le nombre total de tirages effectués, mi le nombre d'apparitions de la ïième solution vl 1 d'où ^ m£ = m j et Ct l'arborescence bouclée ayant y1 pour racine; si m est suffisamment grand on peut considérer

mi // T» -L. r TTr, w c a r d Ci

si mⁱ est grand, on peut donc considérer que v^t est racine d'une arborescence de taille importante (card C^t grand); d'après le théorème 2, v^l est donc une solution particulièrement significative, puisque c'est un optimum local pour une grande partie de V^k,

b) Si q est le nombre de solutions obtenues, et si parmi ces solutions ü* € Vu est la solution qui minimise W, y* est un optimum local vis-à-vis de l'ensemble des sommets des q arborescences bouclées obtenues.

c) D'après le théorème 2, les arborescences bouclées et boucles forment une partition de VkJ en conséquence plus le nombre de solutions obtenues est faible plus la taille de ces arborescences est grande et plus les solutions obtenues sont donc significatives. Dans le cas où il n'y a pas les formes le nombre d'arborescences bouclées est important et donc les solutions obtenues sont moins significatives.

d) Soit v* la racine d'une arborescence bouclée C de F = (V^k, h); soit h~q{v*) le #ième niveau de C. Il s'avère dans la pratique que le nombre de niveaux pour une arborescence donnée est très faible : il oscille en général autour de 4 ou 5 et dépasse rarement 12, même pour des tableaux comportant 3 000 éléments à classifier. Dans le cas où il y a peu d'arborescences bouclées, le nombre de sommets d'un niveau donné est donc très grand.

EXEMPLE :

Supposons que card (E) = 100, k = 15, ni = 3, le nombre de niveaux = 5, le nombre de solutions non-biaisées = 6, R est carrée. Alors la taille d'un palier est supérieure à = — ^^{l o o J} !

(21)

80 E. DIDAY

On a ainsi une explication de la rapidité et de l'efficacité de la méthode, qui à chaque itération permet de passer d'un niveau à l'autre en améliorant la solution.

EXEMPLES D'APPLICATIONS 7.1. L'exemple artificiel de Ruspini

Nous avons appliqué la variante ç) sur les données de Ruspini (cf. fig. 6).

Cela a permis d'abord de constater la rapidité de la méthode, par rapport à celle de Ruspini; ainsi en prenant

y€Ci

où d est la distance Euclidienne, nous avons réalisé 50 passages de la méthode (en changeant à chaque fois le tirage de L(0)) en 2,57 mn sur Cil 10 070. Ces 50 passages ont fait ressortir l'existence de 6 arborescences bouclées. Les fréquences d'apparition de chacune des 6 solutions correspondantes sont indiquées (fig. 12). Ce graphique est en fait l'histogramme de la variable aléa- toire qui a été définie en 5.1. En abcisse est représenté U = Lim Un (cf. 3.3.);

la convergence est généralement atteinte au bout de 4 itérations. La solution qui apparaît le plus fréquemment est celle correspondant aux quatre meilleurs classes; la valeur de U pour cette solution est nettement meilleure que pour les autres solutions, ce qui montre qu'elle correspond bien à la meilleure partition. La meilleure solution correspond à la racine de l'arborescence bouclée de plus grande taille, ce qui est satisfaisant pour la méthode. Les solutions qui apparaissent le plus fréquemment sont indiquées (fig. 7, 8, 9, 10). On voit facilement que les solutions correspondant aux figures 9, 10 et 11 n'apportent aucune information (cf. 5.2.) à la solution donnée (fig. 7). A partir de ces solutions on obtient 4 « formes fortes » correspondant exactement aux quatre classes de la meilleure solution.

Remarquons qu'en appliquant la proposition 3 aux solutions données (fig. 8 et 9) on fait apparaître l'arborescence bouclée dont la racine est la solution correspondant à la figure 7. On donne (fig. 11) une solution obtenue en utilisant la variante du centre de gravité [cf. 3.2. a]; cette solution n'apparaît jamais par les variantes utilisant des noyaux car elle doit correspondre à une position instable.

On donne (tableau 1), le tableau des formes fortes, obtenu en prenant cette fois K = 6, n5 = n6 = 5, sans changer les autres paramètres et en réalisant 5 passages de la méthode (n = 5). Ce tableau fait ressortir l'existence de 6 formes fortes et 3 formes faibles. Notons, Bl9 B2y B3 les formes faibles et At

(22)

les formes fortes (cf. fig. 13). On peut mesurer la « faiblesse » de Bt en utilisant la fonction F (cf. 5.2.2.). Comme

M) = 1 + ^ + ^ V x €

^x

**-, É M*) =**

^l

+ \

^V

* *

^B

2

et ^6( x ) - 1 V je € 53

on a :

F{B,) = 1 | , F(2?²) = | et F(B³) = 1.

On voit que B³ est une forme forte, que B¹ est presque une forme forte et que B2 est une forme relativement faible. Ces formes fortes et faibles telles qu'elles apparaissent (fig. 13) expriment bien ces valeurs. Signalons enfin que dans 4 des 5 solutions il apparaît des classes vides ce qui signifie que le nombre de classes existant réellement doit être plus petit que 6.

7.2. Classement de sondages d'un gisement minier

L'étude dont il est question a été réalisée par J. Picard pour sa thèse de 3e cycle (cf. [17]). Elle porte sur 149 sondages géologiques. Chaque sondage est caractérisé par 24 teneurs métal mesurées de mètre en mètre sur une profondeur totale de 24 mètres. Les diverses méthodes d'analyse de données utilisées (analyse factorielle des correspondances et en composantes principales) n'ont pas permis de distinguer les différents types de courbes teneur métal/profondeur, contenues dans la population.

J. Picard a alors utilisé la méthode des nuées dynamiques d'une part pour une classification à l'aide d'étalons initiaux choisis, d'autre part pour une recherche de profils types à l'aide des formes fortes. L'enrichissement apporté aux méthodes classiques peut être résumé comme suit :

1) Le procédé de classification permet un partitionnement du plan 1-2 de l'analyse factorielle non décelable à priori, ce découpage en éléments disjoints est confirmé encore plus nettement dans l'espace tridimensionnel.

2) Le tableau des formes fortes fait apparaître 5 formes fortes dont les sondages moyens sont très significatifs d'un type de terrain.

3) Les 5 formes fortes réunies ne contiennent que 59 sondages. J. Picard a vérifié la représentativité de ces 5 formes en montrant que le nuage obtenu par les deux analyses factorielles (*) suivantes ne présentait pas de modification sensible :

— une analyse factorielle des correspondances des formes fortes avec en éléments supplémentaires les sondages restants,

— une analyse factorielle des correspondances de toute la population.

(1) Ces analyses factorielles sont représentées dans la thèse de J. Picard.

(23)

82 E. DIDAY

Une autre expérience a permis de confirmer ce résultat : la position des paramètres dans une analyse factorielle sur la population totale est la même que dans une analyse factorielle faite uniquement sur les 59 sondages des formes fortes.

4) II a en outre été procédé à une classification hiérarchique qui ne contre- disait pas les résultats obtenus mais ne faisait pas apparaître nettement les formes fortes.

On peut remarquer que les deux méthodes peuvent être utilisées conjointe- ment, la méthode hiérarchique permettant une évaluation du nombre de classes a priori pour la méthode des nuées dynamiques, cette dernière déterminant des classes très typées et les profils principaux de la population.

7.3. Recherche de profils biologiques (*)

II s'agit de découvrir des groupements types dans une population de 990 sujets. Nous avons tenu compte de 16 paramètres chez chaque malade : des proportions des 5 fractions électrophorétiques : albumine, alpha-1, alpha-2, bêta, gamma, des trois paramètres de la fiche réticulo-endothéliale et du taux de 7 globulines individuelles, déterminées par la méthode immunochimique de diffusion radiale.

Ces 900 sujets ont été classés a priori en 33 groupes distincts représentant soit des entités nosologiques, soit des syndromes.

Sont représentés en particulier, le cancer des tissus solides sans ou avec atteinte du foie, les leuco-réticuloses, des maladies infectueuses très variées, des collagénoses, la cirrhose du foie et l'hépatite virale, des dermatoses variées, des maladies atopiques, le diabète et autres troubles endocriniens, la macro- globulinémie des africains, des ulcères gastro-duodénaux. Un travail approfondi sur les mêmes données a été réalisé par le Pr Lenoir et M. Kerbaol à l'aide de l'analyse factorielle des correspondances (cf. [21]; cette analyse a été faite sur un nombre restreint de paramètres et a fait apparaître des nuages d'un grand intérêt pour les praticiens; cependant, une délimitation objective de ces nuages est difficile et de plus sur les 16 paramètres avec 990 sujets le nuage obtenu par l'analyse factorielle est d'interprétation difficile; d'un autre côté, une classification donnant une hiérarchie n'est pas praticable vu la taille des données.

Nous avons utilisé la variante c) de la méthode des nuées dynamiques avec k — 10, nt = 10 et la distance du x2 (cf. [10]). Le tableau des formes fortes a été calculé avec n = 15; les formes fortes obtenues sont particulièrement

(1) Ce travail a été réalisé en collaboration avec le M. le Professeur Sandor de rins- titut Pasteur, MM. Lechevalier et Barré de l'IRIA; il a fait l'objet d'une communication à l'Académie des Sciences [22], et d'un rapport de stage IRIA, pour plus de détails le lecteur pourra se reporter à ces textes.

(24)

significatives puisque chaque sujet a une chance sur 10¹⁵ d'appartenir à une forme forte donnée.

Le Pr Sandor a trouvé très commode la représentation en nombres entiers (donnée par le tableau des formes fortes) pour exprimer la position réelle des sujets dans R16. En effet, grâce à ce tableau on a un moyen de saisir les multiples aspects de la position des points dans R16, de manière bien plus proche de la réalité que toute classification rigide n'aurait pu le faire.

Une étude détaillée du tableau des formes fortes et une analyse factorielle du triple (cf. [4]) sur les 51 formes fortes qui sont apparues ont permis de dégager nettement l'existence de huit formes, ces formes permettent de tracer 8 profils types.

Nous ne donnerons pas ici l'interprétation détaillée des profils types obtenus, le lecteur intéressé pourra se reporter au compte rendu à l'Académie de Médecine (séance du 29-2-1972) à paraître prochainement. Nous nous bornerons à donner la conclusion de compte rendu.

Après avoir signalé une anomalie en ce qui concerne le classement de l'ataxie télangiéctasique (*), le Pr Sandor conclut ainsi : « II reste non moins vrai que les résultats que nous apportons constituent une excellente base d'un diagnostic objectif. L'appartenance à un type de profil donnera, en effet, le plus souvent tous les renseignements que le praticien peut tirer sur le plan des diagnostics et des pronostics d'un protéinogramme et il n'aura pour cela besoin d'aucune connaissance concernant la nature et l'origine des diverses protéines sériques ».

CONCLUSION

Un large champ de recherche reste ouvert; sur le plan pratique, il faudrait développer à l'aide des méthodes d'apprentissage par exemple, le choix de ƒ et g, développer les techniques permettant le choix de k (le nombre de classes demandées a priori), réaliser une comparaison exhaustive des différentes variantes de la méthode des nuées dynamiques, approfondir et développer les techniques du passage d'une arborescence à l'autre, faire une étude statistique de la structure de l'espace Vk en liaison avec E, notamment en ce qui concerne le nombre relatif d'éléments impasses, d'éléments non biaises, la taille des arborescences, des niveaux, etc.. Mettre au point des techniques permettant une vision plus nette du tableau des formes fortes (du type « minimum spaning tree » par exemple). Utiliser les formes faibles afin de détecter entre les formes fortes les zones à faible densité (l'obtention des «trous » débouchant sur de nombreuses applications pratiques).

(1) Nous pensons que cette anomalie vient du fait que la distance utilisée donne plus d'importance aux augmentations au-dessus de 1 qu'aux diminutions entre 0 et 1.

Optimisation en classification automatique et reconnaissance des formes

R

’

,

,

. R

E. D IDAY

Optimisation en classification automatique et reconnaissance des formes

OPTIMISATION

EN CLASSIFICATION AUTOMATIQUE ET RECONNAISSANCE DES FORMES

2 S ^(**> y) °^ ^

^ ^

&

tance

"» = Ê E *fe ', ^

) > Ê S

d)r

(p) = 0 ou g-* t r

(p» = 0 ou/-» (g-

c r

(p)» - 0.

—Ui

1 1

o 1

M*) = 1 + ^ + ^ V x €*

-, É M*) =

+ \

* *

2

E. D ^IDAY

*2 S ^(**> y) °^ ^*

**"» = Ê E *fe ', ^**

(p) = 0 ou **g-* t r**

M) = 1 + ^ + ^ V x €

**-, É M*) =**