L ES CAHIERS DE L ’ ANALYSE DES DONNÉES
F. J. G ALLEGO
Codage flou en analyse des correspondances
Les cahiers de l’analyse des données, tome 7, n
o4 (1982), p. 413-430
<http://www.numdam.org/item?id=CAD_1982__7_4_413_0>
© Les cahiers de l’analyse des données, Dunod, 1982, tous droits réservés.
L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:
//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
Les Cahiers de l'Analyse des Données Vol VU - 1982 - n° 4 - p. 413-430
CODAGE FLOU EN ANALYSE DES CORRESPONDANCES [ COD. FLOU ]
par F. J. Gallego (')
7 Rappel d'Analyse.* dzh CQJUIZApondante.A MultipZzà ( A . C M . )
Plusieurs approches peuvent être faites de l'A.CM. (cf. 1 , 2, 4, et 7 ) . La donnée d'une telle analyse est celle d'une population 1 distribuée en classes d'après un certain ensemble Q de critères q ayant chacun un ensemble Jq de modalités ; ce qui donne lieu à un tableau de contingence K à Card Q entrées : J, .. J ...
3 la qa
Dans le cas où l'on connaît le détail de la population I , il est classique d'effectuer l'analyse des correspondances du tableau logique Z qui croise les individus avec l'ensemble J = utjqlq eQ}
des modalités de tous les critères.
„ _ l s i i e j (i.e. rentre dans la modalité j) ij 0 sinon
La même description des modalités fournie par Z peut être obte- nue aussi à partir du tableau de Burt B__ , qui juxtapose tous les tableaux de contingence binaires Jq *Jq' à deux entrées q, q' possi- bles :
B • j , = card( j n j ')
(où j et j' sont considérés comme des sous-ensembles de I : e.g. : j = ensemble des individus rentrant dans la modalité j ) . On notera que le tableau de Burt ne tient manifestement compte que des marges du tableau multiple K : en sorte qu'en toute rigueur il s'agit non d'une A. C M . , mais de l'analyse d'un tableau binaire associé à la correspondance multiple.
Pour la construction de Z, les variables sont supposées quali- tatives. On peut toutefois rendre qualitative une variable quantita- tive à l'aide d'une partition de la droite réelle en un ensemble J
d'intervalles, dont chacun détermine une modalité. q
2 Vi& contenu i t t e.t pzKtd d' information du codage. diAjonc£i&
L'analyse des tableaux décrits a des avantages remarquables : souplesse de la méthode, qui permet de traiter ensemble des variai blés qualitatives et quantitatives, et capacité de décrire des rap- ports non linéaires entre variables quantitatives. Pourtant, deux objections peuvent être faites au codage disjonctif complet par dé- coupage en intervalles : d'un côté, il y a une certaine perte d'in- formation quand une valeur de la variable q est remplacée par
(1) Docteur 3° cycle. Professeur de statistique à la Faculté des Sciences de Valladolid (Espagne).
414 p. J. GALLEGO
l'appartenance à un intervalle j ; on ne peut plus reconstituer exac- tement les données d'origine. La discontinuité du codage est le deuxiè- me inconvénient et le plus grave, surtout quand on s'intéresse à la des- cription de l'ensemble I ; en effet, si b, est la borne qui sépare deux intervalles, une distance est artificiellement créée entre des points proches qui sont d'un côté et de l'autre de b ; distance qui est en général du même ordre de grandeur que celle qui sépare après le codage les plus petites des plus grandes valeurs de q en tant que quantitative.
2.7 Unz. altch.nati\)& au decoapgqe un intctivaile.* : Pour échapper à cette discontinuité, l'idée vient de faire un passage progressif' d'une modalité à l'autre en faisant qu'une valeur proche de la fron- tière soit partagée par les deux modalités. On peut définir un coda- ge flou pour chaque partition floue de la droite réelle, mais la plupart n'ont aucun intérêt vis-à-vis de l'interprétation (cf. <$) . Parmi ceux qui débouchent sur des résultats lisibles après une A. C M . se trouve le codage semi-linéaire (fig. 1 ) , dont le's modalités sont déterminées par des fonctions d'appartenance qui valent 1 dans un point de référence et décroissent linéairement d'un côté et de l'au- tre.
2.2 Un codage continu et injactil : Le codage employé dans la suite modifie le semi-linéaire et le rend injectif par l'élimination d'in- tervalles à valeur d'appartenance constante. Ce codage nécessite le choix de J -2 points de référence (où J est le nombre de modalités souhaité pour la variable q) , soit r2-...rJa_l. Chacune des modali- tés intermédiaires doit être interprétée comme "ce qui est autour de r." , alors que la première et la dernière, Z et Z peuvent être considérées associées à - «> et à 4°°. Pour appliquer cette version du codage, on doit avoir un nombre de modalités J >4 , bien que l'adaptation au cas de deux ou trois modalités ne pose pas de diffi- cultés insurmontables.
Les fonctions d'appartenance aux J modalités sont : Z ^ x ) :
i:
l-expHr2-x)/(r3 -r2) )exp(-(r2-x)/(r3 -r2)) x ~r2 (r
0
Z2(x)= (r3 -x)/(r3 - r2) r2<x<r3
(1)
•0 ^rk_x
VX ) = VX "rk-l)/(rk -rk-l} rk-l<x"rk
(rk+l "x )/( rk+l -rk> rk< x*rk+l
10 x > rk+l
ZT ~Jq C X ) =
0 * < rj q - !
ZCOD. FL0U1 4 1 5
,b2 >b3
A.
a) Codage dis^onctif complet
•J V
n h A -A
b) Codage t r a p é z o i d a l
c) Codage s e m i l i n ê a i r e
d) Codage s e m i l i n ê a i r e modifié
Figure 1 : Fonctions d 'appartenance pour plusieurs découpages d'une variable quantitative en cinq modalités.
416 F.J. GALÙEGO
Le choix des exponentielles pour les modalités extrêmes est quel- que peu arbitraire, et nous ne voyons pas d'inconvénient a priori, à employer pour Z, n'importe quelle fonction qui soit strictement dé- croissante entre -°° et r2 , approche asympto—tiquement 1 quand
x + _oo et atteigne le 0 quand x = r2.
Le tableau résultant du codage est du type :
0 t 1 - t 0 s 1-s 0 0
Si r, ^x (i) Ê r. + 1 i les valeurs d'appartenance Z, (i) et Z, (i) sont les masses qu'il faudra placer en r, et r.+1 pour que leur bary-
e soit x (i).
Analyse, dzà connzàpondancz* *ou* codage, filou centre soit x (i)
L'étude de l'analyse des correspondances sous codage flou peut être entrepris&sous plusieurs points de vue ; on ne s'occupera ci- après que de quelques propriétés élémentaires et des résultats obte- nus dans des exemples d'application.
3. 1 Que.Zque.6 pKopn.iztzh : Il est facile de vérifier que le codage flou conserve les deux propriétés suivantes de l'analyse des tableaux disjonctifs :
- Les modalités de chaque variable forment un sous-nuage dont le barycentre coïncide avec le barycentre global.
- L'ensemble des points-modalités engendre un sous-espace de di- mension inférieure ou égale à J-Q+l (qui est donc le nombre maximum de valeurs propres non nulles à part le facteur trivial).
L'inertie totale et les contributions des modalités de chaque variable â cette inertie sont toujours inférieures aux quantités cal- culées dans le cas du tableau 0-1 associé au codage disjonctif . En effet, la contribution des modalités de la variable q à l'inertie vaut :
C(q)=Q"1E{E{Z2(i,j)/m(j)|ie1}-(m(j)/n)|jcJq}<Q_i(Jq-1) 2
puisque Z (i,j) <Z(i,j) avec m(j) = Z{Z(i,j)|iel}
en conséquence, l'inertie totale vaut :
£(C(q)|qcQ}<(J/Q)-l
3.2 L 'intzn,pn.Q.tation de.* giaphiquzé ptan6 : Le codage disjonctif complet d'une variable quantitative est une application de la droi- te réelle sur les sommets d'un simplexe de R q ; l'image de la droite réelle par un codage flou affectant un individu à deux clas- ses contiguës est la ligne polygonale constituée par une suite d'a- rêtes de ce simplexe. Dans le cas du codage donné par les expres- sions (1), cette application est injective (fig. 2).
ICOD. FL0U1 417
(1,0,0,0)
(0,1,0,0) (0,0,1,0) Figure 2 : Le nuage résultant du codage disjonctif en quatre
classes est constitué par les sommets d*un tétraè- dre 3 alors que les points qui résultent du coda- ge flou se trouvent sur les arêtes en traits gros.
Après avoir fait une A.CM. , il est fréquent de dessiner sur les plans croisant deux axes factoriels la ligne polygonale qui joint de façon ordonnée les modalités, et donne une idée d'ensemble du compor- tement de la variable. Dans le cas du codage disjonctif les points in- termédiaires des segments qui joignent les points-modalité n'ont au- cune signification précise, mais avec le codage donné par (1), chaque point entre la k-ième et la k+l-ème modalité représente une valeur en- tre r, et r. Ceci trouve une expression plus précise dans la for- mule de transition ou formule barycentrique, qui est dans le cas dis-
jonctif :
F (i) = A "1/2 £: L{G (j)|Z(i,j) =1}
a a U ot
et qui devient dans le cas du codage flou : F(i) = Xa~l/l ~ Uya (i,q) Iq € Q>
Où Y (i,q) = G (j) Z(i,j)+G (j+1)Z(i,j+1)
j et j+1 étant les deux modalités de la variable q auxquelles appar- tient i. y- <i/<3) e s t d o n c l a coordonnée factorielle du point de la
suite d' a r ê t e s qui est l'image par le codage de xg(i). La re- lation barycentrique se conserve, à ceci près que, chaque individu n'étant pas affecté à une seule modalité, il doit être considère com- me appartenant à une "modalité mixte" intermédiaire entre deux moda- lités pures.
3.3 Izht *>UK lz* modalitU lupplzmzntaiKi* : On sait que sous l'hy- pothèse nulle d'indépendance d'une modalité supplémentaire j avec les variables principales, sa coordonnée factorielle Ga(j) vérifie cf. 1, p. 137) :
418 F. J. GALLEGO
E(Ga(j)) = 0 Var(Ga(j)) *= l/n_.
où n. est le nombre d'individus qui appartiennent â la modalité j . Si Card(I) est sufisamment grand, G (j) suit approximativement une loi normale, et le seuil à partir duquel (à un certain niveau de con- fiance) la modalité j est à regarder comme significativement écartée de l'origine sur cet axe, en découle immédiatement.
Ce test se reproduit pour le cas d'un codage flou, l'expression de la variance étant :
Var(Ga(jï) =E{z2(i,j)/m2(j)|i e 1}
ce qui nous mène au test correspondant pour le codage flou.
3. 4 Miàz en ozuvfiz : Un programme de codage flou avec les fonctions d'appartenance décrites en (1) est donné en (5) , ainsi que son mode d'emploi. Le programme prévoit une option manuelle de choix des points de référence r2 Tk+l e t u n e ° Pt i o n automatique avec la- quelle les points de référence sont calculés de façon que les moda- lités obtenues soient approximativement équipondérées.
On peut trouver en (9 ) la description du programme STEKMA qui peut réaliser des analyses de correspondances sous codage flou.
4 Comparaison dzé tiz&u£tat6 avzc lz6 codagzà diAjonctifi zt filou Guitonneau et Roux {cf. 6) présentent une application du coda- ge trapézoïdal .(fig. 1) et comparent le résultat avec celui d'une analyse en composantes principales pondérée, mais ne%font pas la comparaison avec celui d'une A. C M . avec codage disjonctif.
Le Foll (cf. 8) a appliqué un codage semi linéaire à un tableau de mesures de pollution des eaux du Bassin Parisien, qui comportait 1452 observations de 50 variables éclatées en 220 modalités. Les dix premiers facteurs sont étudiés et comparés avec ceux qui sont obte- nus avec le codage disjonctif. La seule différence remarquable cons- tatée pour ces données est la régularisation par le codage flou des trajectoires formées par les points-modalité de chaque variable.
On présente ci-après deux applications du codage semi-linéaire modifié, donné par les expressions (1) sur des tableaux de taille plus restreinte sur lesquels le codage disjonctif a été aussi appli- qué. Outre l'objectif propre à chaque étude, on voulait comparer les comportements de l'A.CM. avec chacun des deux codages.
4. / Unz application aux ComptZA TKimzbtKizl* de l'î.N.S.E.E. : Plu- sieurs tableaux ont été analysés avec les deux codages dans le cours d'une étude qui portait sur un ensemble de séries trimestrielles ma- croéconomiques élaborées d'après le modèle METRIC (Modèle Economique Trimestriel de la Conjoncture). Nous ne présenterons pas le détail des résultats des analyses, qui peut être consulté en ( 5 ) , et nous nous bornerons à signaler comment étaient constitués les ta^
bleaux qui ont conduit aux résultats les plus intéressants et quel- les ont été les différences principales constatées entre les deux codages.
Les variables étaient des taux de variation relative par tri- mestres de quantités macroéconomiques (PIB, Activité, Pouvoir d'achat
ICOD. FLOU] 419
des salaires et des prestations sociales, Prix à la consommation, Ba- lance commerciale, Epargne des ménages, Intérêt du Marché monétaire , Pression fiscale, Bénéfice des Sociétés, Chômage, Difficultés de Tré- sorerie des entreprises, Compétitivité industrielle, et Prix des Impor- tations) , ainsi que les contributions à la Croissance de la consomma- tion, Investissement, Importations, Exportations, Stocks et Dépenses de l'Administration en Biens et Services;
Les analyses présentées ici sont appariées, chaque paire étant constituée de deux analyses faites sur le même tableau avec des c o - dages flou et disjonctif, de façon que dans les deux cas les modali- tés correspondent approximativement aux mêmes zones de la droite réelle.
Les quatre paires considérées sont :
1) 12 taux entre le deuxième trimestre en 1963 et le deuxième de 1979. Les bornes des modalités (points de référence pour le découpa- ge flou) sont choisies après observation des histogrammes ; dans les cas ou ceux-ci montrent un aspect multimodal, les points de référen- ce sont choisis au milieu des "bosses", qui sont inclues à leur tour dans une seule modalité disjonçtive. Les modalités extrêmes qui en résultent ont souvent des poids faibles.
2) Même tableau .découpé avec un critère d*équipondération approxi- mative des modalités.
3) 21 taux entre le deuxième trimestre de 1963 et le quatrième de 1978 découpés avec un critère d'équipondération.
4) Même codage sur les 21 taux lissés par : LX(i) = (X(i-l) + 2 X ( i ) + X(i + l))/4
Dans tous les cas, chaque variable a été découpée en six moda- lités.
4-2 Un pïioblzmz mzdical .- Les deux codages, disjonctif et flou, ont été essayés sur des tableaux de taille plus restreinte concernant une expérience réalisée par M . C Boffa au CN-TS*et à l'hôpital St Jacques.
Le problème était ici de caractériser les réactions d'un groupe d'in- dividus sains à des granules imprégnées d'une solution infinitésimale de venin de Naja nigricollis en vue de son utilisation en médecine h o - méopathique.
L'expérience a été faite en double aveugle sur une population de vingt individus, dont dix, choisis au hasard, ont été traités, et dix ont reçu une dose de placebo. Pendant toute la durée de l'expérience, ni les sujets ni le médecin qui suivait leur évolution ne connaissaient le résultat de ce tirage au hasard.
Un nombre irrégulier de prises de sang a été effectué avant le traitement et après chacune des deux phases qu'il comprenait. Après un certain nombre d'essais, on n'a retenu pour la description des ef- fets qu'un tableau de vingt lignes et seize colonnes (individus et variables biologiques déterminées dans chaque prise de sang) qui con- tient les variations relatives après la première des deux phases d u traitement, les observations correspondantes â la deuxième manquant dans un trop grand nombre de cas pour que les résultats de la d e s - cription soient fiables.
Comme dans le tableau des séries trimestrielles, il s'agit de variables continues qui permettent d'appliquer le codage flou sans
* Centre National de Transfusion Sanguine.
420 F.J. GALLEGO
r e s t r i c t i o n s d u e s à d e s v a l e u r s a y a n t une s i g n i f i c a t i o n p a r t i c u l i è r e q u i o b l i g e r a i t à f a i r e d e s m o d a l i t é s en 0 - 1 . ( * ) .
T o u t e s l e s v a r i a b l e s o n t é t é d é c o u p é e s en q u a t r e m o d a l i t é s avec un c r i t è r e d ' é q u i p o n d é r a t i o n a p p r o x i m a t i v e , a u s s i b i e n d a n s l e c a s d i s j o n c t i f que d a n s l e c a s f l o u .
4. 3 lnzn.tiz du nuaaz zt dz& Aactzufi6 : Pour l e codage d i s j o n c t i f , l ' i n e r t i e t o t a l e du t a b l e a u Z ne dépend que du nombre de m o d a l i t é s e t du nombre d e s v a r i a b l e s :
I n e r t i e = ( J / Q ) - 1
on a vu que c e t t e q u a n t i t é e s t l e maximum d e s v a l e u r s p o s s i b l e s pour l e c o d a g e f l o u ; i l e s t f a c i l e de v o i r q u e , p l u s l e s v a l e u r s a p r è s l e c o d a g e t e n d e n t à ê t r e p r o c h e s de 1 e t de 0 , p l u s l ' i n e r t i e e s t g r a n d e , e t p l u s l e s v a l e u r s non n u l l e s de Z s o n t p r o c h e s de 1/2 , p l u s l ' i n e r t i e e s t p e t i t e . C e t t e o b s e r v a t i o n nous s u g g è r e de t e s t e r une é v e n t u e l l e t e n d a n c e d e s v a l e u r s a v a n t l e c o d a g e , à ê t r e c o n c e n - t r é e s a u t o u r d e s p o i n t s de r é f é r e n c e r2- . . r5 ( r a p p e l o n s q u ' i l y a i c i 6 m o d a l i t é s ) . Sous d e s h y p o t h è s e s d ' é q u i d i s t r i b u t i o n d e s v a l e u r s d ' a p p a r t e n a n c e non n u l l e s d a n s l ' i n t e r v a l l e [ 0 , 1 ] e t d ' é q u i p o n d é r a - t i o n d e s m o d a l i t é s , l ' e s p é r a n c e de l ' i n e r t i e v a u t ( ( 2 J / ( 3 Q ) ) - 1 , e t sa v a r i a n c e J 6 / ( 4 5 C a r d I ) . Les v a l e u r s o b t e n u e s d a n s t o u t e s l e s ana- l y s e s où un c r i t è r e d ' é q u i p o n d é r a t i o n a é t é employé s o n t p r o c h e s de l ' e s p é r a n c e c a l c u l é e e t l e t e s t s u g g é r é ne permet en aucun c a s d e r e j e t e r l ' h y p o t h è s e d ' é q u i d i s t r i b u t i o n .
Le c o d a g e f l o u donne l i e u à un nuage p l u s a l l o n g é que c e l u i i s s u du c o d a g e d i s j o n c t i f , ce q u i s e comprend b i e n en r e g a r d a n t l a f i g u r e 2 ; e t l e s p o u r c e n t a g e s d ' i n e r t i e d e s p r e m i e r s axe-s s o n t p l u s g r a n d s p o u r l e c o d a g e f l o u . La d i f f é r e n c e d e s p o u r c e n t a g e s e s t beaucoup plus n e t t e e t p l u s r é g u l i è r e d a n s l e s a n a l y s e s f a i t e s s u r l e s d o n n é e s d e s comptes t r i m e s t r i e l s que s u r l e s d o n n é e s m é d i c a l e s . On donne à t i t r e i n d i c a t i f l e s p o u r c e n t a g e s d e s c i n q p r e m i e r s f a c t e u r s dans chacune d e s a n a l y s e s c o n s i d é r é e s .
Taux T r i m e s t r i e l s
% cumulé
% cumulé
% cumulé
% cumulé
% cumulé Trace
d i s 319 6.4 304 1 2 . 5 273 1 7 . 9 268 2 3 . 3 244 2 8 . 2
f l o u 249 9 . 1 215 1 6 . 9 178 2 3 . 4 156 2 9 . 1 133 3 3 . 9 2 . 7 4
d i s f l o u 328 1 271 6 . 6 298 1 2 . 5 289 1 8 . 3 257 2 3 . 4 245 2 8 . 3
8.6 227 1 5 . 8 195 2 2 . 0 176 2 7 . 6 157 32.6 3.15
d i s f l o u 257f 204 5 . i l 6.4 254
1 0 . 2 217 1 4 . 6 199 18.5 198 2 2 . 5
193 12.4 172 1 7 . 8 146 2 2 . 3 139 2 6 . 6 3 . 2 1
d i s 293 5.9 281 11.5 243 16.4 219 2 0 . 7 199 2 4 . 7
f l o u 2*2 8.2 244 15.9 184 2 1 . 6 162 2 6 . 7 149 31.4 3 . 1 9 |
Naja d i s 333 1 1 . 5 317 2 2 . 5 269 31.9 232 4 0 . 0 217 4 7 . 5 2 . 8 7
f l o u 217 12.0 212 2 3 . 7 185 34.0 162 4 3 . 0 129 5 0 . 1 1.81
Tab. 1 : Valeurs propres (en millièmes) et pourcentages cumulés d'inertie des cinq premiers facteurs de chacune des analyses sous codage flou et disjonctif.
(*) Imaginons une variable du type : "taux d'alcool dans le sang" ; il s'agit d'u?e variable quantitative ., mais la valeur zéro a une signification suffisamment différen- te du reste pour au 'on en fasse une modalité non floue.
ICOD. FLOU] 421
L'importance de cette constatation reste néanmoins peu claire , car il est bien connu que les pourcentages d'inertie sont très diffé- rents dans une même A. C M . selon qu'elle est faite sur un tableau lo- gique Z ou sur le tableau de Burt associé.
4. 4 Ecait-tuvz de-6 contribution* dz* vaniablz* aux. fiactzuK* : Quand il s'agit d'interpréter un facteur, on peut désirer choisir un sous- ensemble de variables qui contribuent le plus à la formation de cha- que facteur. Ces contributions sont calculées par addition de celles de leurs modalités, car toutes les modalités d'une variable doivent être interprétées ensemble. Une question se pose alors : combien de variables doit-on choisir ? Il s'agit de déterminer un seuil de con- tribution â partir duquel on considère que la variable est importan- te dans ce facteur. Il n'y a pas pour le moment de critère objectif pour guider ce choix, qui est d'autant plus difficile que les valeurs des contributions sont plus proches les unes des autres. Il est donc intéressant d'observer si les contributions des variables aux fac- teurs sont dispersées par l'emploi d'un certain codage. Dans ce cas l'écart-type a été utilisé comme mesure de dispersion, et il est net- tement plus fort avec le codage flou qu'avec le disjonctif dans les analyses faites sur les données des comptes trimestriels ; cette ca- ractéristique est beaucoup moins claire sur les données de naja. On peut être tenté de donner des résultats plus précis sur ce point en faisant des tests sur les écarts-types, mais les tests classiques seraient trop forcés puisqu'une hypothèse d'indépendance n'est nulle- ment admissible.
Facteur 1 2 3 4 5
Comptes Trimestriels 1 2
Naja dis
55.4 35.8 28.4 49.4 50.6
flou 66.7 47.5 45.3 41.6 40.3
dis 41.4 26.6 37.2 50.0 33.0
flou 65.7 43.0 66.0 46.3 58.6
dis 27.2 24.3 26.2 26.4 27.1
flou 39.2 34.1 28.7 21.4 36.1
dis 22.7 29.6 25.1 20.5 20.6
flou 35.3 31.8 28.9 34.5 20.Q
dis 42.6 28.8 36.2 44.7 33.1
flou 43.3 44.8 33.6 32.5 38.8
Tab. 2 : Ecarts-types des contributions relatives des variables aux cinq premiers facteurs (en millièmes).
4.5 Composition dz* fiactzun.* zt ahpzct dzà gfiapkiQuzà plan* : Les observations qui viennent d'être énumérées ne peuvent justifier que très partiellement l'emploi du codage flou. La question qui se pose avant tout est : est-ce que le codage flou permet de déceler des ca- ractéristiques des données qui n'auraient pas pu être trouvées par le codage disjonctif? Autrement dit : est-ce que les rapports non- linéaires sont mieux décrits par le codage flou que par le disjonc- tif ?
Un premier avantage, qui est sans doute général, est celui de la régularisation des trajectoires associées aux variables, due à la diminution de la distance entre modalités contiguës, qui rend plus agréable l'observation des plans, les rapports entre les variables devenant plus clairs.
La constitution des facteurs, mesurée par les contributions des variables a été nettement différente avec les deux codages, et cette
422 F-J- GALLEGO
différence est d'autant plus grande que la taille du tableau est petite.
Dans le § 5, cette variation sera précisée un peu plus en termes de cor- rélations.
On ne présentera pas les résultats de toutes les analyses dont on a parlé, mais on en choisira deux paires, une concernant chacun des deux problèmes traités.
4.5.1 Commzntaifizs aux analyszh Azlativzs aux comptz* tn.imzAtn.izl& : Les figures 3 à 6 représentent les plans 1-2 et 1-3 de la paire d'a- nalyses n° 1 sur les comptes trimestriels. On constate que le PIB et l'Investissement, qui apparaissent avec des contributions importantes sur les deux premiers axes de l'analyse disjonctive sont nettement plus ajustées au premier axe que dans le cas flou. La Consommation est déplacée du plan 2-3 au plan 1-2, les Dépenses de l'Administra- tion le sont du plan 2-3 au deuxième facteur, les Prestations socia- les du troisième au deuxième facteur, etc. .
On trouve d'une façon assez générale ce phénomène de plus forte attraction vers les premiers axes du codage flou, ce qui n'est pas étonnant, vu que leur pourcentage d'inertie a augmenté.
L'augmentation de l'écart-type des contributions est associée au fait que chacune des variables apparaisse sur un plus petit nombre de facteurs. Ainsi, en regardant la figure 4, on peut baptiser le pre- mier axe d'axe "de croissance", alors que le deuxième est associé à
l'inflation. Il est beaucoup plus difficile de baptiser les axes de l'analyse disjonctive.
Quel que soit l'intérêt de ces constatations, la question fonda- mentale reste : est-ce que l'on trouve avec Ole codage flou des phéno- mènes qui seraient restés inaperçus avec le codage disjonctif ? Dans
le problème des comptes trimestriels, les séries n'ont pas été obser- vées directement, mais calculées à partir d'observations auxiliaires à l'aide d'un modèle qui présuppose certaines relations qui consti- tuent l'essentiel de ce qui est trouvé dans les analyses. Il s'agit d'un ensemble de données bien connues où l'intérêt de l'application de l'A. C M . peut être contestable du point de vue économique, mais qui sert fort bien pour tester une méthode parce qu'on sait à peu près ce qu'on devrait trouver comme résultat.
La différence constatée entre les deux codages réside surtout dans la clarté et la facilité de lecture, associées au codage flou, bien qu'un phénomène inattendu soit apparu avec ce codage flou après avoir échappé au disjonctif : dans le plan 1-3 , on observe un effet Guttman affectant le PIB, Investissement (INV), Importations (IMP), et Balance Commerciale (BAL), alors que la trajectoire des Exporta- tions (EXP) est associée au troisième axe (fig. 6 ) , ce qui suggère une association des faibles valeurs de EXP avec les niveaux inter- médiaires de la croissance. Le nuage des trimestres projeté sur les plans EXP-IMP et EXP-PIB présente des formes plus ou moins para- boliques. Les questions qui se posent alors sortent du domaine de l'analyse des données qui aurait déjà accompli son rôle en lançant une hypothèse.
[COD. FLOU] 423
Axe 1 6.39%
INV+
ADM+
Fip 3: ^ CM sous codage disjonctif de 12 taux d'évolution trimes- trielle. Variables plus contribuantes au plan 1-2
ADM+.
PIÛ+
INV+
DPS +
A A I
Axe 1 Axe 2
7.8%
PCO-
IMP-
Fig. 4: ACM du mime tableau sous codage flou
424 F.J. GALLEGO
IMP+
ADM+\\ *r.
DPS-
STO-
INV+1 I.'
.'V
ADM- CNS+
Fig 5: Analyse de là Fig 3 . Plan 1-3
6 . 3 0 %
TJt ^^% ^ j O ? ' ' "* ST0+ N
I M P -
CNS-
Fig. 6: ACM sous codage flou. Plan 1-3
ICOD. FLOU] 425
Fig. 7: Expérience "venin Naja". A . C M . sous codage disjonctif des variations relatives. Plan 1-2
F8+* - . vi- v:
Fig. 8: A.CM. sur le même tableau avec codage flou. Les sujets traités sont numérotés de 1 à 10, et les témoins de 11 à 20.
426 F.J. GALLEGO
4.5.2 CommzntainzA 6UK Iz moblzmz mzdical : Avant l ' A . C M . plusieurs études avaient été faites sur les données, qui avait fourni des ren- seignements qu'on peut résumer ainsi :
Des tests fishériens de permutation sur les variations, sur les valeurs absolues des variations, et sur un indice d'importance globa- le de la réaction de chaque individu face au traitement permettent de dire :
Les individus traités réagissent plus violemment que les place- bos (probabilité critique <10 ), réaction qui est observable en par- ticulier pour les variables : facteur C4 du complément sérique
(p<10 ) , facteur VIII de coagulation (p^0.008), proportion de neu- trophiles (p=0.015), et protéines dotées dans le sérum (p^0.045).
Pour trois variables les variations se produisent dans le même sens pour l'ensemble des traités : diminution de la vitesse de sédi- mentation première heure (p=0.02) et deuxième heure (p=0.02) , et augmentation de FVIII (p=0.006).
Les résultats d'une analyse en composantes principales sont con- cordants avec ceux des tests : les témoins apparaissent concentrés autour du point qui représente un individu hypothétique sur lequel toutes les variations auraient été nulles, et les traités sont plus*
éloignés, mais les directions de cet éloignement sont disparates.
Les réactions des individus sont donc qualitativement diverses, et dépendent de leut typologie. Le problème est maintenant de classer et caractériser les types de réaction.
Le problème étant clairement non-linéaire, on a voulu décrire la situation par une A. C M . ; vu la taille de la population, chaque variable a été éclatée en quatre modalités avec un critère d'équipon- dération approximative comme on l'a déjà dit.
L'A.CM. sous codage disjonctif, dont le plan 1-2 est représen- té dans la figure 7, donne des trajectoires-variable qui se bouclent souvent sur elles-mêmes, et offre un aspect peu lisible, en partie à cause des grandes distances que le codage a produites entre valeurs qui étaient proches. Ces distances artificielles ont dispersé les individus témoins (numérotés de 11 à 20), ce qui n'est pas cohérent avec les résultats antérieurs.
Le codage flou a rapproché les modalités contigues entre elles, et le plan 1-2 de l'A.CM. offre l'aspect de la figure 8, où les deux populations sont assez bien discriminées sur le premier axe.
Les trajectoires associées aux variables sont plus régulières et trois d'entre elles suivent le premier axe, il s'agit de VI et V2
(vitesse de sédimentation première et deuxième heures), et FVIII (facteur VIII de coagulation), précisément celles qui discrimi - naient les deux sous-populations dans le test des variations ho- mogènes (sur les variations signées). Les variables GR (globules rouges), HE (hématocrite), CS (complément sérique), et FI (fibri- nogène)longent plutôt le deuxième axe, alors que C4, PR (proaccé- lérine), et FVII décrivent des trajectoires "paraboliques" avec des modalités intermédiaires (faibles variations) associées aux su- jets placebos, et les fortes variations d'un sens et de l'autre ap- paraissent du côté des traités, ce qui est cohérent avec les résul- tats des tests sur les valeurs absolues des variations . C3 semble subir l'effet contraire (fortes variations associées plutôt à cer- tains témoins) bien que cette hypothèse ne soit pas appuyée par les résultats des tests.
\COD. FLOU] 427 Une classification ascendante hiérarchique de tous les individus avec la métrique du x2 sur le tableau des modalités floues, et un critère d'agrégation de minimisation de l'inertie perdue dans chaque pas, donne le découpage décrit dans le tableau ci-dessous.
sujets dans la classe 1,3,8
6,11,12,16
9,13,17,18 14,15
7,10,20 2,4,5,19
Rho-2 8.79
6.47
5.35 13.94
8.08 6.13
fortes contributions CSU.41) , F7(1.27) F8(0.94), C4(0.73) PR(0.67) , GR(0.67) HE(0.62)
C3U.27) , SE(0.96) PR(0.55), C4(0.54) Vl(1.05), 2(0.83) CS(0.59)
HE(2.24), F2(1.86) C4(1.68), CS(1.4P) F7(1.41), PR(1.08) PR(1.83), CS(1.47) FI(0-85)
F7(0.78), C4(0.77) VK0.62)
modalités dominantes CS++, F7++
F8++, C4++
PR++, GR++
HE++
C3++, SE+
PR+ , C4+
V1++, V2++
CS+,++
HE+ , F2++
C4- , CS- F7++, PR+
PR- , CS — F I —
F7--, C 4 - , — VI-, —
Tab. 3 : Description des classes obtenues par découpage de la C.A.H. sur le tableau des modalités floues. Les quatre rodalitês de chaque variable sont notées : --, -s +3 ++ (fortes et faibles diminutions et augmentations). Les sujets traités sont numérotés de 1 à 10 et les témoins de 11 à 20. ç>-2 est le carré de la dis- tance du barycentre global j son objet n 'est pas de mesurer l 'ex- centricité de la classe, qui n'a pas d'intérêt dans ce cas3 mais d'évaluer l 'importance des contributions des variables.
5 Le tablzau dz Suit abbociz à un codagz filou
Il a déjà été dit au § 1 que l'analyse des correspondances du tableau logique disjonctif Z,.est équivalente à celle du tableau de Burt B, = Z , Z, quant à la description de. l'ensemble des modali- tés J . Il est facile de vérifier que l'équivalence est aussi vraie pour l'ensemble I des observations si Z, est ajouté en supplémen- taire à B, (cf. 1, pp 311 sqq ; voir aussi LBIN. BURT], C.A.D. Vol.
II, n° 1 , pp 55 -71). Parallèlement, si Zf est le tableau logique issu d'un codage flou, son A.C est équivalente à celle de B'=Zt f Zf
avec Zf ajouté en supplémentaire (*).
(•*) Les indices d et f sont introduits là où il y a une possibilité de confusion entre tableaux issus du codage disjonctif ou flou.
428 F-J. GALLEGO
B" n'est pourtant pas le tableau de Burt associé à 2f , au moins si l'on admet sa définition comme juxtaposition des tableaux des marges binaires du tableau de contingence K à Q entrées.
K(j, j ) = E{Z(i,J1) x •x z< i f JQ> 1}
les sous-tableaux qui se trouvent à la diagonale de B étant des tableaux diagonaux contenant les marges simples de K. (cf. 4) .
Ce tableau est trouvé pareillement si l'on considère chaque in- dividu composé de 2^ morceaux ayant chacun un poids
m = Z(i,j ) x... *Z(i,j ) , appartenant à la case < jj_. . . JQ) r
ce qui nous place dans un schéma de codage disjonctif avec une pondé- ration particulière, et l'on calcule le tableau de Burt Bf correspon- dant. Bf peut encore être calculé à partir de B'f en rapportant à la diagonale la masse hors de la diagonale des blocs B' qui se trouvent dans la diagonale de B' .
On a maintenant intérêt à comparer trois résultats : ceux des analyses de correspondances de z d<B d) * Zf(B'f), et Bf , ce que nous ferons par les corrélations des coordonnées factorielles des obser- vations I, puisque l'ensemble des modalités J est différent au moins en Z, et Z,. et les corrélations de leurs coordonnées factorielles
d f
n'ont pas de sens. Dans le cas de Bf ces coordonnées sont obtenues en ajoutant Zf comme supplémentaire.
L'essai a été fait sur le tableau issu de l'expérience "venin Naja", et les corrélations obtenues ont été :
Facteurs Z,.
Facteurs Z .
391 -22 35 -94 759 40
-43 -210 -123 -794 -875
129 -81 207 -253 -180
294 116 99 258 -93
-767 205 46 290 269 129 -225
272 43 -49 675 180 266 317
28 272 117 72 82 246
127 41 -47 169 4 -288 -223 -644
Tab. 4 : Corrélations des facteurs calculés sur I dans les A. C. de Z, et Z_ (en millièmes).
d f
ICOD. FLOU] 429
Facteurs
Zd
Tab. 5
Facteurs B 2
f
3 4 454
38 -75 -777 -95 -890 233 -114 139 147 709 -166 209 35 103 307 -234 -141 -144
84 -212 -736 285 35 229 321 92 -199
240 89 34 26 310 23 -65 106 -28 689 175 01 171 137 10 172 314 -311 254 -144 -733
Corrélations entre les premiers facteurs calculé dans les A.C. de Zj et B„ (en millièmes). sur I
°d
Facteurs B,
Facteurs 986 106
•110 -67 3 -9 -11
-116 991 -56 13 13 3 -3
126 76 985 77 19 27 -23
78 -13 -96 989 -40 -3 -54
0 -20 -23 57 971 -167 146
8 -13 -41 13
30 13 31 68 179 -158 966 21
9 981
Tab. 6 : Corrélations entre les premiers facteurs calculés sur I d'ans les A.C. de B„ et Z„ (en millièmes).
On constate dans ces tableaux :
- Les A.C. de Bf et B' (Zf) donnent pratiquement le même résultat. En effet, les différences entre les trajectoires associées aux variables dans les deux analyses sont négligeables et les différences d'inter- prétation sont inexistantes.
- Chacun des cinq premiers facteurs de l ' A . C de B , correspond à peu près à un facteur de l'A.C. de B,. (ou de 3-.,), mais il y a un mélange important et-l'ordre est complètement bouleversé.
On signalera finalement les valeurs propres, traces et contributions des premiers facteurs qui ont été obtenues dans les A.C. de B, , Bf , et B' toujours pour l'expérience "venin Naja".
430 F. J. GALLEGO
On y voit la fragilité des constatations faites au § 4.3 à pro- pos des pourcentages d'inertie. Les traces dans le cas des tableaux de Burt ont d'ailleurs une interprétation plus claire que dans le cas des tableaux logiques (cf. 4 pp 148 sqq).
Bf
v.p. % v.p. % v.p. % v-p. % 109 18.7
47 19.3 55 15.6
101 36.0 45 37.8 52 30.4
72 48.4 34 51.9 40 41.9
54 57.6 26 62.7 32 51.1
v.p. % 47 65.7 17 60.6 21 57.0
trace
0.583 0.244 0.349
Tab. 7 : Valeurs propres (en millièmes)9 pourcentages cumulés d'inertie des premiers facteurs, et traces des l'A.C.
des tableaux de Burt issus des données "venin Naja".
6 Biblio gfiaphiz
(1) Benzécri J.P:, Bastin Ch. , Bourgarit Ch. , Cazes P. - Pratique de l'Analyse des Données - Vol. 2 - Dunod - 1980.
(2) Benzécri J.P. - Sur l'analyse des tableaux binaires associés à une correspondance multiple - C.A.D. Vol. 2, n° 1-1977.
(3) Cazes P. - Etude de quelques propriétés extrémales des facteurs issus d'un sous-tableau d'un tableau de Burt - C.A.D. Vol. 2, n° 2 - 1977.
(4) Cazes P. - L'analyse de certains tableaux rectangulaires décom- posés en blocs - C.A.D. Vol. 5 nos 2 et 4 - 1980.
(5) Gallego F.J. - Un codage flou pour l'Analyse des Correspondances.
Analyse des données des comptes trimestriels. - thèse de 3° cycle - Université Pierre et Marie Curie (Paris VI) - 1980.
(6) Guitonneau G.G. , Roux M. - Sur la taxinomie du genre Erodium. - C.A.D. - Vol. 2 n° 1 - 1977.
d) Lebart L. , Morineau A., Tabard N. - Techniques de la description statistique - Dunod - 1977.
(8- Le Foll Y. - Sur les propriétés de l'Analyse des correspondances pour certaines formes complètes de données - Thèse 3° cycle - Univer- sité Pierre et Marie Curie (Paris VI) - 1979.
(9) Maïti D. - Programme d'homogénéisation et d'analyse d'un tableau de données hétérogènes - C.A.D. Vol. 4 nc 4 - 1979.