L ES CAHIERS DE L ’ ANALYSE DES DONNÉES
J. P. B ENZÉCRI
Ajustement d’un tableau à des marges sous l’hypothèse d’absence d’interaction ternaire
Les cahiers de l’analyse des données, tome 8, n
o2 (1983), p. 227-232
<http://www.numdam.org/item?id=CAD_1983__8_2_227_0>
© Les cahiers de l’analyse des données, Dunod, 1983, tous droits réservés.
L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:
//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
Les Cahiers de l'Analyse des Données Vol VIII-1983 n°2 p. 227 232
AJUSTEMENT D'UN TABLEAU A DES MARGES SOUS L'HYPOTHÈSE D'ABSENCE
D'INTERACTION TERNAIRE
[AJUT. MARGES INTER]
parJ.P. Benzécri(l) j Le. px.oble.mz de, l' aju6te.me.nt : En 1980, la présente revue a pu- blié trois articles consacrés à ce problème : ce sont LMETH. AJUS.
MARGES] (J.L. Madré ; CAD Vol V n° 1 pp 87-99) ; ZAJUS. MARGES FAC.]
(J.P. B. ; Ch. Bourgarit ; J.L. Madré ; ibid n° 2 pp 163-172) ; et VEXEMP. AJUS. MARGES] (V. Cholakian ; ibid pp 173-176). Aux critères considérés dans ces articles on propose ici d'adjoindre une autre méthode (qui aboutit d'ailleurs à des formules classiques) : en bref on considère que le tableau cherché forme avec le tableau donné un tableau à deux étages, auquel on impose l'absence d'interaction ter- naire ; (au sens de A. Bener : TINTER. CORR. MULT.] in CAD Vol VII n° 1 pp
25*-32 ; 1982). Avant de donner explicitement les formules de cette méthode, nous rappelons pour la commodité du lecteur, l'énoncé du problème dont il s'agit ; les notations étant choisies pour la mé- thode proposée.
Etant donné un tableau de correspondance f__ (ou loi de proba- bilité sur le produit des ensembles finis I et J ) , et deux lois de
2 2 2 probabilité f et f ; trouver un tableau de correspondance f__
X J 9 "5 " ^
ayant pour marges les lois données f _ et f _ , et aussi voisin que 1 i J
possible du tableau f1J (le sens du mot "voisin" restant à préci- ser.
2 Conttn.uctA.on d'une, coA.A.e.Apondance. multiple, AOUA V hypotnlbe.
cf' ab&e.nce. ri' lntzA.action : En l'absence d'interaction ternaire, un tableau de correspondance fTTfn s'exprime en fonction de ses mar-
J.J i
ges simples et binaires par la formule :
f . .. = f . . f. + f.. f. + f .^ f. - 2f. f. f .
J O t 13 t ît j Dt 1 1 3 t
Cette formule ne sert pas seulement à calculer les f. .. en fonction des marges données ; elle peut permettre de calculer l'en- s'emble des f... f en partant d'une connaissance partielle des f. ..
et des marges. Supposons par exemple que soient données les marges fI T et f (satisfaisant à la condition de compatibilité d'avoir une même marge f ) ainsi que l'étage fT J 1 , du tableau ternaire cor- respondant à la valeur t = 1 ; et satisfaisant de même aux condi- tions de compatibilité (avec les marges f__ et fT_) :
(1) Professeur de statistique . Université P. et M. Curie.
2 2 8 «f.P. BENZECRI
V i e I : ï C f± j l| j * J ) = f± 1 ; V j e J : Z { f± j l| i e 1} = f ^ .
On a pour déterminer la marge f , (sous l'hypothèse d'absen- ce d'interaction ternaire) les équations :
£ijl = fij fl + fil fj + fjl fi " 2 fi fj f! ' ^ - ! f
i j = ^h
)if±ji'
fn
ft-
fj i
fi
+ 2fi
fj V
;et à partir des marges binaires désormais toutes trois connues, on calcule l'ensemble du tableau ternaire suivant la formule initiale
(laquelle, en particulier, redonne pour l'étage f-r-™ *e s valeurs de départ).
Il est facile d'imaginer des généralisations du procédé à la construction de correspondances d'ordre supérieur à 3 (e.g. qua- ternaires) , données par certaines marges et certains étages, sous l'hypothèse que sont nulles certaines interactions.
La seule difficulté est que le tableau construit peut compor- ter des valeurs négatives : mais à la vérité, comme il n'y a pas d'autre solution aux équations linéaires que celle que nous avons calculée, cette difficulté est inévitable ; au moins si on s'en tient strictement aux conditions posées. Autrement, il est possible , d'une manière ou d'une autre, de modifier le tableau construit pour éliminer les valeurs négatives (cf. infra).
Application au pKoblzme. de. I' aju&te.me.nt : On considère le ta- 1 2 bleau donné f_ et le tableau cherché fT T , comme les profils de deux étages d'un tableau ternaire f,™ , avec T = {1 , 2} ; et (par
± j i
exemple) f. = f- = 1/2. Alors les marges binaires fT T et f7 T sont connues, car on *a pour t e {1 , 2} :
fi t - fi *t-( 1/2 ) f ti -• fj t - f tj ft - ( 1 / 2 ) f
et de même l'étage fT7/i n'est autre que le tableau binaire donné f* multiplié par f _ = (1/2) . La méthode du § 2 permet de calcu- la 1 y 1er l'étage fTJ2 ' le<3uel n'est autre que fTJ à un coefficient
(1/2) près. On aboutit aux résultats suivants : f.. = f * . + (l/2)f? f2. - (l/2)f* f* ; f2. - f*. + f2 f2 - f1. f1. .
Cette formule est classique : comme l'indique J.L. Madré (cf.
ZMETH. AJUS. MARGES] § 2.2) elle est obtenue par Froment et Lenclud
2 1 en imposant à fT T d'être aussi proche que possible de f pour
une distance quadratique convenable (qui n'est autre que la distan- ce du Y2 de centre f_ f_ , entre mesures sur I* J ; cf. §§ 5 et 6) .
[AJUS. MARGES INTER.] 2 2 9
2 Quant aux valeurs négatives éventuellement présentes dans fT , on peut les remplacer par des zéros ; et si cette correction altère trop les marges appliquer une méthode itérative pour réduire cet écart (cf. J.L Madré op. laud. § 1.4).
4 Extrapolation tzmpoKtlle. : Au § 2 on propose de construire tous les étages fT J t à partir d'un seul d'entre eux fJ T 1 et des marges fIT , f : dans la pratique on connaît souvent plusieurs étages f ; voire tous à l'exception d'un seul, le dernier qu'on
IJt
désire prédire. En général l'analyse factorielle montre clairement l'existence d'une interaction ternaire. Si par exemple on désigne par T' l'ensemble des temps pour lesquels on a des données complètes et par f__ le tableau de marge binaire associé à f___t , on peut
x j J. J i
analyser f__ en y adjoignant en supplémentaire (comme lignes et co- lonnes) d'une part les tableaux réels fI T t ; et d'autre part des tableaux fictifs f' . reconstitués sous l'hypothèse d'absence d'in-u t teraction ternaire. De ce point de vue pour tenir compte des inte- ractions ternaires on est conduit à des méthodes de prédiction fon- dées sur une extrapolation indépendante des marges f_. , f _. et des
it it
facteurs pour les profils f , , fJ_ ; suivie de l'applica- tion de la formule de reconstitution en fonction des facteurs.
4f Re.maA.que. : décomposition de.* lnte.Kactlont e.t ajuete.me.nt à de.*
w a*3£j : D a ns la présente note, on a proposé de réaliser l'a- justement a des marges, en construisant un tableau à deux éta a es pour lequel s'annule l'interaction ternaire. Réciproquement la^dé- composition des interactions peut être associée à la construction d une suite de tableaux ajustés à leurs marges simples, binaires etc. : construction plus complexe que la décomposition linéaire faite dans CINTER. CORR. MULT.], mais qui présente l'avantage dé- cisif de ne pas introduire de valeurs négatives. Expliquons cela.
La présence d'interaction ternaire dans un tableau Ix J X T , se manifeste en ce que le tableau I * J x T diffère de ce que lais- sent attendre ses marges IJ, J T , TI : "ce que laissent attendre"...
ce peut être la formule de f.jt rappelée au § 2 ; mais ce peut être également un tableau ternaire ajusté aux marges binaires sui- vant un algorithme de type R.A.S. (cf. Madré ; op. laud.) ; avec comme état initial : r t ,
f ((?ï = f f f
rijt £i fj f t
et comme cet algorithme itératif d'ajustement aux marges binaires :
f(n+lL (n)(( /f( n )w / f( n ) ,f ,-(11).
rijt tijtU fij/ fij > (f jt/f jt' (fti/fti > •
(éventuellement si, comme c'est souvent le cas dans la pratique, les interactions entre i et t ou j et t sont faibles relativement à celles entre i et j , on prendra pour état initial f. . f ) .
230 J.P. BENZECRI
Ceci fait, on dira que l'existence d'interaction ternaire se manifeste entre f ??J. et fT T_ ; i.e. entre le tableau reconstitué
1J t ±u 1
par ajustement à partir des seules marges binaires et le tableau réel. Cette différence pourra être rendue sensible si à l'analyse du tableau binaire fT^ , on adjoint p en éléments supplémentaires
i j
(comme lignes ou colonnes suppl.) les étages t du tableau ternai- re f ^ et ceux du tableau réel : ainsi on comparera les points fi- guratifs des profils f1 des lignes réelles à ceux des profils f _'x des lignes reconstiruëes.
J
On peut, dans cette même voie, définir l'interaction quaternai- re dans un tableau IJST, comme la différence entre ce tableau réel et celui qu'on peut reconstituer par ajustement à l'ensemble de ses marges ternaires.
5 Un énoncé d' e.xe.ficlce.
Il ne nous a pas paru utile de publier en détail les calculs des contructions et démonstrations de la présente note. Nous p r é - férons en donner le plan sous la forme d'un exercice, qui pourra aider le lecteur désireux de vérifier nos assertions ; ou servira à l'enseignement de l'analyse des données.
Exercice : On rappelle qu'une correspondance ternaire, ou loi de probabilité f,,™ sur le produit de trois ensembles finis I, J, T
x J i
est dite dépourvue d'interaction ternaire, si elle s'exprime en fonction de ses marges simples et binaires par la formule (valant quels que soient i, j , t) :
f. .. = f. f .,_ + f . f.. + f . . f. «- 2 f. f. f.
îjt i j t 3 it i] t i 3 t
Dans la suite on supposera toujours que fT T m désigne une cor- x j i
respondance dépourvue d'interaction ternaire.
5* 1 Soit un élément de l'ensemble T : on se propose de déterminer complètement fT T m en fonction de l'étage f,..,, et des marges f__ et
*r 1 J X X J 1 XT
rJ T *
5..7 a) i et j étant des éléments de I et J , déterminer f . en fonction de f±^1 , f± 1 , f.. 1 , f± , f_. , f
1"
5. J b) i, j , t étant des éléments de I, J, T, déterminer f.-. en fonction de f± j l , f± 1 , f.t , f ^ , f j t , f ± , f. , ^ , ffc.
5.2 On suppose désormais que l'ensemble T ne comporte que deux éléments : T = { 1 , 2 } ; et que de plus f. = f_ = 1/2. Pour chacun des étages t on note :
fI J = ( 1/ft) fI J t; >••*• fi3 = fi j t /ft
et on désigne par f _ et f T les lois marginales sur I et J de x j
la loi de probabilité f__ sur I x j .
\_AJUS. MARGES INTER.] 231
5- ? a)Trouver des coefficients réels v, w, x, y, z tels que
f
u=
vfi J
+ w fi •
fJ
+ x fi •
fJ
+y
fi •
fJ
+ z fi •
fJ •
(on rappelle qu'on note gT ® gT la mesure hT T sur I x j telle que :
x J x J
V i , j : h. . - g. g. ) .
iD i j
5.2 b)Trouver des coefficients réels v, w, x, y, z tels que :
f
IJ - *
fi j
+ 0 fi ®
fJ
+*
fi •
fî
+y
fi •
fJ
+ 2 fi •
fJ
5-2 c) Trouver des coefficients réels a, b, c, d tels que :
2<f lu - fij> -
(1^+ f^) ® ( a f j + bf2j) + ( f ^ - f2z) « ( c f ^ * df2j)
5. 3 Soit gT_ une mesure sur I x j dont l e s deux marges soient nul- l e s ; i . e . :
V i e I : K g . j l j e J } = g± - 0 ;
V j e J : £ { gi : j| i c 1 } = 9 j = 0 .
Calculer dans la métrique du x2 d e centre f ®f , l e produit
1 2 i J
scalaire <(fTT - f - , ) , gT,> .(On se souviendra dans ce calcul de XJ XJ XJ
5.2c ) ,
S. 4 plus généralement soit g une mesure quelconque sur I x j . Exprimer le produit scalaire :
1 2
<(fIJ " fIJ)' gIJ > fl®fj ' en fonction des produits scalaires :
< gi ' fi » f i <• < gi ' ^ " f i; < gj 'fj " f J ; < gj 'fj*fj •
5» 5 on note L le sous-espace des mesures sur I x J ayant pour lois 2 2
marginales f j et f , : déterminer quel est le point de L le plus proche de f , au sens de la métrique du x2 de centre f ® f j .
232 J.P. BENZECRI
Solution abn.e\go.e.
6.1 a, b 6.2 a
6.2 b 6.1 c
cf. § 2.
(v,w,x,y,z) = (1, -1/2, 0, 0, 1/2) (v,ft,x,y,z) = (i, - i , o, 0, 1 ) . (a , b , c , d)= (1, - 1 , 1, 1) 6.3 le produit scalaire demandé est nul
6.4 le produit scalaire demandé s'exprime sous la forme :
< gx . f \ > - <gx , f \ > + <9 j , f \> - <g j , f 2j ;
6.5 le point demandé n'est autre que it- : en effet t%- est la 2 ?
— i XJ x j
projection orthogonale de f^ sur L ; car si h désigne un point quelconque de L , la différence gI J = hZJ - f2j a ses deux marges nulles ; donc, (cf. 3°)) le produit scalaire <g,f1 - f2> est nul.
Autrement dit la droite joignant f * à f2 est perpendiculaire à toute droite de L passant par f2 C'est le résultat de
XJ
Froment et Lenclud cité par J.L Madré ; et rappelé ci-dessus au
§ 3.