• Aucun résultat trouvé

Méthodes et critères pour l'ajustement d'un tableau à des marges imposées

N/A
N/A
Protected

Academic year: 2022

Partager "Méthodes et critères pour l'ajustement d'un tableau à des marges imposées"

Copied!
6
0
0

Texte intégral

(1)

L ES CAHIERS DE L ’ ANALYSE DES DONNÉES

V. C HOLAKIAN

Méthodes et critères pour l’ajustement d’un tableau à des marges imposées

Les cahiers de l’analyse des données, tome 9, n

o

1 (1984), p. 113-117

<http://www.numdam.org/item?id=CAD_1984__9_1_113_0>

© Les cahiers de l’analyse des données, Dunod, 1984, tous droits réservés.

L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:

//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

Vol IX -1984 -noi-p. 113-117

METHODES ET CRITÈRES POUR L'AJUSTEMENT D'UN TABLEAU A DES MARGES IMPOSÉES

[AJUST. MARGE CRIT.]

par K Cholakian

0 Le présent article fait suite aux travaux publiés dans cette revue (cf. Références) . Dans le § 1, on rappelle le problème en citant quelques résultats. Au § 2, on démontre que la méthode d'ajustement d'après la formule de reconstitution de l'a. des correspondances , équivaut à minimiser une certaine distance quadratique. Au § 3 on reprend le problème de l'ajustement suivant la distance du x2> e n

tirant parti des propriétés mises en évidence par l'analyse des correspondances.

1 Rappzt dz& psiobZè.me.4 de. Va.ju&£e.me.vi£

Nous reprenons les notations usuelles en analyse des correspon- dances pour une mesure f__ (ou gT J) s u r u n produit de deux ensembles finis I et J et ses marges f_ , f _ (ou g_ , g_). De plus nous notons

IJ IJ i J i J

f (ou g ) la fonction densité par rapport au produit des marges :

f i j

- V<

f

iV»

g i j = g

i j

/ ( g

i

g

j

)

Le problème de l'ajustement est le suivant : étant donnés deux ensembles finis I et J, une loi de probabilité f sur I x j, et deux lois g_ , g_ sur I et J, trouver une loi g__ ayant pour marges gT et

x J XJ X

g_ et "ressemblant le plus possible" à fTT.

J Xd

Ici, ce qui nous intéresse est le critère de distance suscep- tible de donner un sens précis à cette ressemblance maxima. Dans le

§ 2 de son article J.L. Madré [6], introduit ou rappelle plusieurs formules de distance :

a) minimiser la distance :

^ U ^ U * = ^^it-9it)2/(bi,c.)\i c I, j « J}

(où les b. , c . sont des coefficients qui peuvent dépendre des données f^ i f • , g. / g.) conduit au résultat :

g . = f. . + ((g.- f,)c,/c.) + ((g,-^) b / b )f où bt = E,{b.};

et = Zj{c.} . En particulier, lorsque b. = (fi + g.)/2, il vient :

*ij

= f

ij

+ g

i

g

j -

f

i V

Le même résultat est obtenu par J.P. Benzécri dans ClJ, par une autre voie.

(1) Docteur 3° cycle en statistique.

(3)

114 V. CHOLAKIAN

b) minimiser le critère d'entropie relative :

H ( gI J; fI J) = Z {9 . • l o g ( gi j/ fi j ) I1 e I' j € J }'

conduit à l'équation suivante que résout l'algorithme R.A.S. : (1) V i, j : l o g O g ^ / f . ^ ) = ai + 3j

où les a, B sont des coefficients à déterminer (pour une interpréta- tion géométrique, cf. [ 6 ] , § 2 . 3 ) .

c) une autre solution est donnée dans [ 2 ] , en partant de la formule de reconstitution, mais sans proposer de critère.

(2) g1* = 1 + ZaU ;V 2 (FB(i) - Aa) ( Ga( j ) - B,) } ; OÙ

Ac - £i < * i V i ) } * Ba = Zj{ gj Ga( j ) ) ,

et où les A, F, G sont les v.p. et facteurs issus de l'analyse de

2 Formule, de. KiQ.onà£JL£u.£lQn modJJ{Â.le. <L£ t*iX.£zh.e. du dlâ£ance. e.n£x.e.

de.nt>À„£e\t> de, i e.£ g

On démontrera qu'on obtient (2) en minimisant :

D ( fI J ' gU} = ^gigj <f i j * gi j)2| i e l , J e J ) ,

sous les contraintes de marges (g- , g ) imposées à gT J- E n effet on a:

B D / B g ^ = 2 ( gi j - fi j) . Las équations constantes sont :

( 3 ) V i ' = Ui Dl 3 « J l ' Î ^ I j dg.. = 0 ; V j : Z{g..li e I} = g . =* I. d .. = 0 ;

J ^i]' aH x gxj

la condition dD = 0, doit être équivalente à une combinaison linéai- re de ces contraintes, avec des coefficients y1, y3 convenables ; on doit donc avoir :

(4) V i, j : gi j - fi j = u1 + uj ;

En sommant l'équation (4) d'abord par rapport à i et j en pondé- rant par g. g. ; puis par rapport à une variable seulement, il vient après simplifications :

(5) V ïi{ gi y1} + Ej{ gj yj} = 1 - l± . ( g ^ f± j} = 1 - B (6) 2.{gi y1} + yj = l - z±{g± fi j} = i - 3j ; (7) ^{g.. yj) + y1 = 1 - Z^ig^ fi j} = 1 - 31.

Où il est possible de récrire les définitions de 6, 61, 33

dans les notations usuelles du calcul des transitions :

S = fI Jo ( gi g j) ; ( 6T= ( f ^ o g j / f j )1; BJ= (f j ° g ^ f -,) J-

(4)

En additionnant les équations (6) et (7) et retranchant (5) il vient :

(8) y1 + yj « 1 - (B1 + 3j) + B = gi j - fi j ;

reste à démontrer l'équivalence entre (2) et (8). La formule de re- constitution s'écrit :

fi j = 1 + Z X"1/2F (i) G (j) ; a a a a J/

la formule (2) peut être récrite :

*i j= x + V âV 2<Fa( i ) " ï±. « i - ^ d ' ) ) (G a(j)-ïj.gj.(Ga(j')) ; à l'intérieur des sommations en i', j1 q u e comporte c e t t e f o r m u l e , o n voit apparaître les termes de ( 8 ) . E n e f f e t , e . g . :

=

Z

i- V V

X

â

7 2

«V

1

')

G

«

(

= Ei, g i I( fi , j- i ) = - i + ^ , g±. fi , j = Bj - 1 ;

de même la sommation en i', j' donne (1 - S ) . D ' o ù f i n a l e m e n t p o u r gi j :

gij = fi j + x _ ( &i + g j} + B f

qui n'est autre q u e la formule (8) c i - d e s s u s .

Ce résultat p e u t d'ailleurs être affirmé sans faire d a n s le d é - tail la vérification de l'égalité ; c a r i l e s t clair q u e d'une p a r t la formule (2) donne p o u r g ^ - f1^ une expression en somme d e d e u x fonctions l'une de i l'autre de j e t q u e d'autre part c e t t e f o r m u l e satisfait a u x contraintes marginales ; ce q u i nous r a m è n e à (8) .

3 AjuA£e.mzn£ 6u*Lvan£ la. dÂ.A£ance. du x2 de. ce.n£tie. (J.*, On considère le critère :

S = E U f . . - g ^ / f i j H « I. 1 e J}= l f „ " Vjffzy pour que ce critère soit applicable il faut que les f.. soient stric- tement positifs quels que soient i et j. Le critère S a été considéré par Deming et Stéphan [4] : et ce sont ces deux auteurs qui ont pour la première fois proposé l'algorithme R.A.S. en supposant (indûment:

cf. § l.b) que RAS minimise S. On a en fait : a s /3 g i j = 2(g± j - f^)/tLi.

avec les équations de contrainte (3) du § 2 ; et comme précédemment dS = 0 doit résulter des équations (3) ; d'où ici, V i, j :

(9) (gij/fij) = i + y1 + yj ;

où o n remarquera l'analogie avec ( 1 ) . E n sommant (9) p a r r a p p o r t à i o u j en pondérant p a r f.., on a le système :

V i £ I : f. y1 + Z.{f. . yj} = g. - f.

(10) x D 1 D x

V j € J : f. y] + Z j / f i j U1} = 9 j - f

• ] - •

(5)

116 V. CHOLAKIAN

On peut reporter dans les équations indicées par j (2-ême ligne de (10)) les valeurs de y1 issues des équations indicées par i (1-ère ligne) ; il vient :

(il) f. ^ = ^.,.(^.,^. **'/££+ ?s ~ M

f

ij V

f

i

K

Le système de ces équations (que Deming et Stéphan ont proposé de résoudre par des méthodes classiques) prend une forme particuliè- rement claire si on divise chaque équation par f. et utilise les no- tations classiques du calcul des transitions ; 3 il vient :

(12) yJ - yJ o f^o f J x + F J

où Fj = (g./fj) - 2i{fl j g±} ; c'est-à-dire :

yJ • (1 - t \ o fJ ) = F J ; yJ = FJ • (1 - f^ • f^ ) " * Or il est bien connu en analyse des correspondances que la tran- sition composée f* ° fJ_ a toutes ses valeurs propres comprises entre 0 et 1 ; il en est donc de même de (1 - f o f) : ce qui permet de ré- soudre l'équation proposée. Plus présisément, à condition que le ta- bleau fT, ne soit pas décomposé en blocs diagonaux, la transition f 0 f

IJ

n'admet comme vecteur propre relatif à la v.p. 1, que le facteur tri- vial 6 = 1 ; par conséquent l'application :

yJ 0 (1 _ fZa fJ )

est une surjective sur l'ensemble des fonctions de moyenne nulle pour la loi f,., fonctions qui sont les combinaisons linéaires des facteurs

J

relatifs à une v.p. éventuellement nulle mais non égale à 1. Or on vé- rifie que FJ est de moyenne nulle pour la loi f . On pourra, si on le désire, obtenir itérativement une solution approchée :

VJ = FJ + FJ o ^ o fJ+. . .+ F J o (f^ • fJx)n+...

(suivant la formule usuelle (1 - t )- 1 = 1 + t +...+ tn ; qui s'appli- que ici parce que dans le sous-espace des fonctions de moyenne nulle,

f o f a toutes ses valeurs propres strictement inférieures a l ) . Remarque : On sait (cf. UNF. TAB.l TI B n° 5 ) , que pour gI J

sroisin de f (c'est-à-dire ici si Sj * f j et gj^fj) on a l'équiva- lence entre les critères du § 1.b et du § 3 :

2 H

< * i j '

f

u > ~ "

f

u " s u ' k r

Ce qui a attiré notre attention, c'est l'analogie entre les équa- tions (9) et (1) qui peuvent s'écrire respectivement selon les modèles additifs et multiplicatifs.

»i J. lA . trr /f ) = M * M^

ij

Et nous nous proposons d'utiliser ces modèles pour l'étude des interactions multiples,

( gi j/ fi j) - i + v1 + vx ; ( g . y f ^ ) = MAKJ

(6)

REFERENCES

[1] BENZECRI J.P. : IAJUST. MARGES IBTBR.l, CAD Vol VIII, 1983, n°2, pp 227-233.

[2] BENZECRI J.P., BOURGARIT Ch., MADRE J.L. : LAJUS. MARGES FAC], CAD Vol V, 1980, n° 1, pp 87-99.

C3] CHOLAKIAN V. : lEXEMP. AJUST. MARGES], CAD Vol V, 1980, n° 2, pp 173-176.

[4] DEMING W.E. and STEPHEN F.F. : "On a least squares adjustment of a sampled frequency table when the expected marginal totals are known", Ann. Math. Stat., II, 1940, pp 427-444.

£5] FADDEEVA V.N. : Computational Methods of Linear Algebra, 1959, Dover publication.

[6] MADRE J.L. : IMETR. AJVST. MARGES], CAD Vol V, 1980, n° 1, pp 87-99.

Références

Documents relatifs

Parmi les 31 cellules que nous avions essay é es pour établir le compte rendu publié dans notre num éro du 20 mai , nous en avons choisi une dont la compliance , c ' est -à-dire

Une méthode d'ajustement possède la propriété d'agrégation forte si le tableau obtenu en agrégeant deux lignes (ou colonnes) avant ou après l'ajustement est toujours

Aux critères considérés dans ces articles on propose ici d'adjoindre une autre méthode (qui aboutit d'ailleurs à des formules classiques) : en bref on considère que le

dans cette formule les A. Nous pouvons noter Ftfjj) l'ensemble (ou fibre) des tableaux qu'on peut ainsi obtenir à partir de £ _. soient tous strictement positifs) les fibres F (fjj)

2.3 Etude cfu.fi modèle continu : Notre but est d'apprécier qualitati- vement l'écart entre le nuage N (I) des profils f*_ issus du tableau principal f__ , et le nuage tf'(I)

des correspondances ; en modifiant les facteurs issus du tableau de base pour les rendre orthogonaux relativement aux nouvelles marges imposé-es : nous dirons en bref : méthode

Ce problème peut se ramener à la recherche de la plus longue chaîne dans un graphe orienté à 50 sommets possédant un circuit (comme justifié ci-dessous), ce qui est un problème

A. - Comme Io montrent les tracés respectifs de la fréquence du pouls et des variations de Io pression artérielle, on voit que la co urbe du pouls varie à peu