Une démarche méthodologique en modélisation statistique

(1)

des données

M ICHEL B ONNEU

Une démarche méthodologique en modélisation statistique

Statistique et analyse des données, tome 12, n

^o

1-2 (1987), p. 28-45

<http://www.numdam.org/item?id=SAD_1987__12_1-2_28_0>

L’accès aux archives de la revue « Statistique et analyse des données » im- plique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/

conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

UNE DEMARCHE METHODOLOGIQUE EN MODELISATION STATISTIQUE Michel BONNEU

L a b o r a t o i r e de S t a t i s t i q u e et P r o b a b i l i t é s U-A. CNRS 745

Université Paul Sabatier - TOULOUSE

Résumé : Un probtème de choix de mode € es est ittustré sur des données médicales : **tobjectif est dexpliquer t*évotut ion de ta masse osseuse chez une femme par des modèles de régression linéaire gaussienne, utitisant des variabtes quantitatives**

{ou €eurs transformations) et un facteur qualitatif. Le critère de choix de modètes est une fonction de risque de **prédiction dont t'est imat ion dans te cas d* un p€an expérimentai déséquilibré, est une statistique qui généralise**

€e Cp-Mattows [<5j. Le traitement informatique est réalisé par des macros en tangage de commandes GLIM [<?]•

Abstract : A probtem of modet choice is ittustrated on medicat data : the aim is to exptain women minerat bone toss by means of gaussian tinear régression modets which use quantitative covariates (or their transformât ions) and a quatitat ive factor, The criteria of modet choice is a Prédiction risic f une t ion the estimation of which

^%

in an unbatanced expérimentât design, is a stat istic which generatizes the Cp-Mattows ,The computer Processing is done by macros in GLIM commande tanguage .

Mot s clés : fonction de risque de prédiction - Cp Mattows - Indices de classification STMA : 07-0TO, 07-070.

Manuscrit reçu le 13.7.87, révisé le 26.10.87

(3)

0 - I N T R O D U C T I O N

En r é g r e s s i o n linéaire m u l t i p l e , il e x i s t e une a b o n d a n t e l i t t é r a t u r e sur la s é l e c t i o n de v a r i a b l e s e x p l i c a t i v e s * Des r è g l e s de d é c i s i o n pour choisir les " m e i l l e u r s " sous e n s e m b l e s de v a r i a b l e s e x p l i c a t i v e s ont été d é v e l o p p é e s soit pour m e t t r e au point des s t a t i s t i q u e s b a s é e s sur les m o i n d r e s carrés quand le m o d è l e de r é g r e s s i o n l i n é a i r e est d é f i n i a priori (carré m o y e n r é s i d u e l , s t a t i s t i q u e de F i s h e r , c o e f f i c i e n t de c o r r é l a t i o n m u l t i p l e , . . . ) , soit pour d é f i n i r des c r i t è r e s qui permettent de c h o i s i r un sous e n s e m b l e de v a r i a b l e s e x p l i c a t i v e s quand le m o d è l e de r é g r e s s i o n n'est pas défini a priori : c r i t è r e d ' A k a i k e [ 1 ] , c r i t è r e C p - M a l l o u s , erreur q u a d r a t i q u e m o y e n n e de p r é d i c t i o n , c r i t è r e de v a l i d a t i o n c r o i s é e , . . *

Dans le cas de m o d è l e s de r é g r e s s i o n u t i l i s é s pour la p r é d i c t i o n , les v a r i a b l e s e x p l i c a t i v e s r e t e n u e s dans le m o d è l e sont c e l l e s qui rendent m i n i m u m la f o n c t i o n de r i s q u e

de p r é d i c t i o n définie dans le p a r a g r a p h e 1. U n e e s t i m a t i o n de cette f o n c t i o n de risque est p r o p o s é e dans le cas

linéaire g a u s s i e n ainsi que sa m i s e en o e u v r e .

D a n s le p a r a g r a p h e 2 , les d o n n é e s sont p r é s e n t é e s et d é c r i t e s par des r é s u m é s et g r a p h i q u e s s t a t i s t i q u e s é l é m e n t a i r e s .

La m i s e en oeuvre de l ' e s t i m a t i o n de la f o n c t i o n de risque est r é a l i s é e dans le p a r a g r a p h e 2 . 3 , pour d é f i n i r un p r e m i e r m o d è l e de r é f é r e n c e . Dans le p a r a g r a p h e 2 . 4 , on décrit la s t r a t é g i e de r e c h e r c h e e x p l o r a t o i r e des m e i l l e u r s m o d è l e s , basée sur le r i s q u e de p r é d i c t i o n et des m o d è l e s , parmi les m e i l l e u r s , sont p r o p o s é s pour la p r é d i c t i o n de la m a s s e o s s e u s e chez la femme*

1 - F O N C T I O N DE RISQUE DE P R E D I C T I O N 1 * 1 - Définit ion

La d é f i n i t i o n est f o r m u l é e dans le cas où les d o n n é e s e x p é r i m e n t a l e s sont s t r u c t u r é e s de la façon s u i v a n t e :

le v e c t e u r a l é a t o i r e Y (nxl) à e x p l i q u e r , des observât ions y. j .

k c o n d i t i o n s e x p é r i m e n t a l e s avec un n o m b r e inégal de

(4)

r é p é t i t i o n s n£ tel que n = 2u ni * i = l

la m a t r i c e Xp (kxp) de P v a r i a b l e s e x p l i c a t i v e s de rang p, r e l a t i v e aux k c o n d i t i o n s e x p é r i m e n t a l e s .

Cet e n s e m b l e de p v a r i a b l e s e x p l i c a t i v e s n'est pas s u p p o s é avoir été choisi a priori et peut contenir toute t r a n s f o r m a t i o n ou c o m b i n a i s o n de v a r i a b l e s e x p l i c a t i v e s , j u g é e s i n t é r e s s a n t e s .

- l'objectif est de p r é d i r e le vecteur Z de k variables a l é a t o i r e s f u t u r e s c o r r e s p o n d a n t aux k conditions e x p é r i m e n t a l e s * à partir d'un m o d è l e faisant appel au plus petit n o m b r e p o s s i b l e de v a r i a b l e s e x p l i c a t i v e s . Le vecteur a l é a t o i r e Z est indépendant de Y.

La f o n c t i o n de r i s q u e de p r é d i c t i o n a s s o c i é e au modèle courant est d é f i n i e par a n a l o g i e au critère d ' A k a i k e , par la f o n c t i o n de perte a s s o c i é e qui est égale à 2 fois le l o g a r i t h m e du rapport de la v r a i s e m b l a n c e du m o d è l e exact sur la v r a i s e m b l a n c e e s t i m é e du m o d è l e courant*

Le m o d è l e exact est le m o d è l e qui contient autant de p a r a m è t r e s i n c o n n u s que de c o n d i t i o n s e x p é r i m e n t a l e s .

L a f o n c t i o n de r i s q u e de p r é d i c t i o n a été explicitée dans le cas de m o d è l e s l i n é a i r e s g é n é r a l i s é s (M. B 0 N N E U . 1 9 8 6 [ 3 ] ) .

L ' e s t i m a t i o n de ce r i s q u e de p r é d i c t i o n est toujours p o s s i b l e soit à partir d'un estimateur simulé du b o o t s t r a p , soit par un calcul a s y m p t o t i q u e . Elle a été mise en oeuvre d a n s des m o d è l e s g é n é r a l i s a n t le m o d è l e logit (M* B 0 N N E U . 1 9 8 7 [ 4 ] ) .

Par c o n t r e , dans le cas linaire g a u s s i e n , un calcul a n a l y t i q u e exact permet de d é t e r m i n e r un estimateur sans b i a i s de v a r i a n c e m i n i m a l e de la fonction de risque*

1*2 - E s t i m a t i o n dans le cas linéaire gaussien

Le m o d è l e e x a c t , dont . le vecteur m o y e n n e m ( k x l ) est i n c o n n u , est défini par :

I Y = Am + £ avec £ ~ Nn (0,cr2In ) pour les données e x p é r i m e n t a l es*

| Z = m + £ avec £ ^ ^ ( 0 . o2Ik ) pour les v a r i a b l e s à p r é d i r e .

(5)

La matrice A (nxk) du plan expérimental est telle que le vecteur Y(kxl) des m o y e n n e s a r i t h m é t i q u e s y$ par c o n d i t i o n expérimentale est :

Y = L "

1

A

T

Y , où L ( k x k ) est la m a t r i c e d i a g o n a l e des r é p é t i t i o n s n j . La fonction de risque de p r é d i c t i o n a s s o c i é e au modèle courant dont le sous ensemble S de s v a r i a b l e s e x p l i c a t i v e s est défini par la matrice X

g

( k x s ) , s'écrit :

= — E llm - n

Q

Yll

2

avec ÏT

q

= X, jlXgXgl Xg

Le risque r

s

s'explicite en fonction de l'erreur quadratique moyenne de prédiction M S E P ( Z

s

) = EH 2 — n

s

Y II , définie pour des p o n d é r a t i o n s égales à 1, le c a s où les p o n d é r a t i o n s sont différentes étant largement étudié par O . B U N K E , B . D R 0 G E U 9 8 4 ) [ 5 ] , dans un cadre a n a l o g u e :

r

g

= — M S E P ( Z 1

g

) - k

a2

Compte tenu de la relation déduite de l'indépendance d e s v . a . Y et Z :

EHZ-nsYII2 = EllZ-mll2 + Elin3Y-ml|2 = ka2 + EIIITsY-mll2

**Propr ié t é : Dans te cas où n>fc+2, t* est imateur de variance minimate dans ta ctasse des estimateurs sans biais de r**

s

est:

X

s

= — HY-n

s

Yll

2

+ 2tr TïgL"

1

- tr L "

1

**l'estimateur o* de la variance des r é s i d u s o est :**

n-k-2

i = 1 j = 1 \ l 3 >)

Remarques :

1° Dans l'estimation de — , on divise par n - k - 2 au lieu 1

de n-k, pour avoir un estimateur sans biais (cf [ 3 ] )

(6)

2° L ' e x p r e s s i o n de fts met en évidence la nécessité pour un bon m o d è l e d'un équilibre entre les 2 termes :

Il y - nsvl|2 qui m e s u r e l'adéquation des données au m o d è l e et qui diminue quand on augmente le nombre de v a r i a b l e s e x p l i c a t i v e s *

- tr TTgL'1 qui diminue quand on diminue te nombre de v a r i a b l e s e x p l i c a t i v e s *

3° Dans le cas où n=k, il n'y a pas de répétition et il n'est pas p o s s i b l e de déterminer un estimateur optimal de r3

quand o*2 est inconnu*

L ' e s t i m a t i o n de a2 pose un problème et il faut la d é t e r m i n e r â partir d'un m o d è l e de référence < M0) défini par un sous ensemble S0 de v a r i a b l e s explicatives* Le paramètre cr sera estimé par le carré moyen résiduel du modèle (Mft) :

'o'

D* o

^2 _ o u D = iiY-n Yll d é v i a n c e du modèle

n-card S0 so 3o

( M0) qui n'est a u t r e , dans le cas linéaire gaussien, que la somme des carrés résiduelle*

La s t a t i s t i q u e 3tg a une expression simplifiée quand il n'y a pas de r é p é t i t i o n , qui est analogue â la statistique de M a l l o u s , â l'estimation de a près :

Ds

e

s

= — + 2 card S - n

1.3 - S t r a t é g i e de choix de m o d è l e s

Dans le cas linéaire gaussien le choix de modèles se r a m è n e â trouver le sous ensemble S qui minimise le rique de p r é d i c t i o n rs.

On c o n s i d è r e un ensemble de modèles â explorer qui est défini par le s p é c i a l i s t e et le statisticien : par exemple le s p é c i a l i s t e a p p o r t e sa c o n n a i s s a n c e du problème a priori, a l o r s que le s t a t i s t i c i e n propose dans un premier temps des m o d è l e s , à partir des r é s u l t a t s d'une première analyse

d e s c r i p t i v e des données* Cet ensemble de modèles s'enrichit au cours de l'exploration et de la validité de certains r é s u l t a t s .

(7)

La stratégie d i f f è r e selon les 2 cas s u i v a n t s : 1.3.1 - Les r é p é t i t i o n s sont en nombre suffisant < n > k + 2 )

Pour chaque m o d è l e courant ( Mg) , on c a l c u l e la s t a t i s t i q u e de p r é d i c t i o n %s, au m o y e n de m a c r o s é l a b o r é s dans le logiciel GLIM .

Le m o d è l e ( Ms) est a c c e p t a b l e si la v a l e u r de fts est f a i b l e , c o m p a r a t i v e m e n t à d'autres m o d è l e s et si l'analyse des e s t i m a t i o n s des c o e f f i c i e n t s de r é g r e s s i o n et l ' a n a l y s e des r é s i d u s sont s a t i s f a i s a n t e s .

On obtient ainsi un ensemble des m e i l l e u r s m o d è l e s a c c e p t a b l e s dans lequel le s p é c i a l i s t e peut c h o i s i r celui dont l ' i n t e r p r é t a t i o n est la plus simple*

1.3.2 - Il n'y a pas de r é p é t i t i o n (n=k)

Le p r o b l è m e est de définir un m o d è l e de r é f é r e n c e qui p e r m e t t e d'estimer a2. On peut trouver des é l é m e n t s de r é p o n s e en étudiant l'influence d'un petit n o m b r e de v a r i a b l e s importantes sur la v a r i a b l e à e x p l i q u e r : on r e g r o u p e alors les d o n n é e s pour o b t e n i r de n o u v e l l e s c o n d i t i o n s e x p é r i m e n t a l e s avec des r é p é t i t i o n s . Il est a l o r s p o s s i b l e de calculer la s t a t i s t i q u e ft3 et de s u i v r e la s t r a t é g i e décrite au p a r a g r a p h e 1*3.1, pour d é t e r m i n e r la prise en compte é v e n t u e l l e d'une v a r i a b l e ou de sa t r a n s f o r m é e dans le m o d è l e de r é f é r e n c e ( M0) .

Le m o d è l e de r é f é r e n c e < M0) étant d é t e r m i n é , l'estimation de a1 est alors r é a l i s é e . On r e p r e n d a l o r s les étapes de la s t r a t é g i e décrite au p a r a g r a p h e 1*3*1, en calculant la s t a t i s t i q u e de M a î l o w s pour e s t i m e r le r i s q u e de prédict ion.

2 - A P P L I C A T I O N A DES D O N N E S R E E L L E S 2*1 - O r i g i n e des données

L e s données ont été r e c u e i l l i e s a u p r è s de f e m m e s en c o n s u l t a t i o n au service d ' E n d o c r i n o l o g i e du C . H . U . T o u l o u s e - P u r p a n du docteur C . R I B O T .

A p r è s é l i m i n a t i o n d ' i n d i v i d u s pour l e s q u e l s des v a l e u r s étaient a b e r r a n t e s ou m a n q u a n t e s , ou bien d ' i n d i v i d u s

(8)

p a t h o l o g i q u e s (individus sous traitement hormonal, f u m e u r s . . * . ) , un échantillon de 778 femmes a été constitué pour répondre â l'objectif : "Pour mieux prévenir les risques d ' o s t é o p o r o s e , comment peut-on expliquer la perte de m a s s e osseuse chez la femme ?"

L ' o b j e c t i f est de déterminer un modèle qui prédise au mieux la masse osseuse mesurée par la variable BMD (Bone Mass D e n s i t y ) en g/cm , notée y.

On dispose de la variable à expliquer BMD et des v a r i a b l e s e x p l i c a t i v e s :

- â g e , en ans : x - p o i d s , en kg : x2

- taille, en cm : x

- surpoids : variable quantitative rendue qualitative â 2 m o d a l i t é s : SP* = avec surpoids ; SP " = sans surpoids.

- statut m é n o p a u s i q u e : variable qualitative â 5 m o d a l i t é s :

AJ : adulte jeune non m é n o p a u s é e d'âge inférieur â 45 ans*

MN : m é n o p a u s e naturelle de plus de 45 ans*

MP : m é n o p a u s e précoce avant 40 ans*

M P C : m é n o p a u s e post chirurgicale après 40 a n s .

PM : p é r i m é n o p a u s e : encore réglées et plus de 4 5 ans*

- a n c i e n n e t é de m é n o p a u s e , en ans : x4 (quand il y a 1 i e u ) *

Dans une étude antérieure (C.RIBOT, F.TREM0L1ERES, J.M.

P O U L H E S , M . B O N N E U , F. GERMAIN, J.P.LOUVET-1987) [ 7 ] , une a n a l y s e de variance dans un plan complet déséquilibré â 2 f a c t e u r s contrôlés (statut ménopausique et surpoids) a permis de conclure que la variable surpoids n'avait pas d'effet sur le B M D pour les femmes non ménopausées* Les 2 facteurs ont été r e g r o u p é s en une seule variable, la variable TYPE ayant 8 m o d a l i t é s :

TYPE1 = AJ ; T Y P E 2 = MN et S P '; TYPE3 = MN et SP* ; TYPE4 = MP et SP" i TYPES = MPC et SP" i TYPE6 = PM i T Y P E 7 = MP et SP* i TYPE8 = MPC et SP**

2*2 - Traitement descriptif

Une description statistique des données a été réalisée au moyen de calculs et graphiques classiques :

- calculs de paramètres statistiques, selon le type (cf tableau 1)

- calculs des coefficients de corrélation linéaire (cf

(9)

tableau 2 )

b i - p l o t s : B M D en f o n c t i o n de l'âge, s e l o n le type B M D en f o n c t i o n de l ' a n c i e n n e t é de la m é n o p a u s e , * *.

h i s t o g r a m m e s : de la v a r i a b l e B M D , s e l o n le t y p e ,

a n a l y s e f a c t o r i e î l e : a n a l y s e en c o m p o s a n t e s p r i n c i p a l e s ï a n a l y s e f a c t o r i e î l e d i s c r i m i n a n t e pour le facteur t y p e .

C e t t e p r e m i è r e a n a l y s e d e s c r i p t i v e d e s d o n n é e s est a b s o l u m e n t n é c e s s a i r e et a n t é r i e u r e à t o u t e m o d é l i s a t i o n * elle permet notamment de p r é c i s e r la l i a i s o n e n t r e c e r t a i n e s v a r i a b l e s et dans n o t r e c a s , de m e t t r e en é v i d e n c e l ' i n f l u e n c e p r é p o n d é r a n t e des v a r i a b l e s t y p e , â g e et p o i d s sur la v a r i a b l e B M D .

Type »* ^poids

•ne. de

«ènopeuse 89e de

•enopauss

33.9 i 7.9 2 0 - — p . 45

56.6 1 7 . 8 4 0 4 — * 88

161.6 J. 5.B 136 «—*173

1.14 jt 0.11 0.84—1.52 58.9 * 8.5

47«—»95 55.1 ± 6 . 6

37«—,. 80 158.8 i 5.6

142«—-175 8.0 1 8.4 0 4-4.45

O.95±0.13 0.47,« 1.33 5 0 . 9 1 ?-9

41 — 5 9 57.1 1 5.2

4 8 * - » 72 71.2 « 11.0 49«—» 103

15B.3 1 6 . 2 142«—».170

5.7 ± 4 . 8

1 . - , . 2 0 1.01 10.12

|0.79«~»1.27 51.4 1 2 . 7 4 6 « - « 57 44.B± 11.7

29 <^-> 71

54.2 4 6.6

3 8 * - » 64 160.4 * 6.4

148 * - ^ 1 7 1 11.0 1 10.2

0 « »44 0.93 1 0 . 1 3 0.69*+ 1.Z4 3 3 . 8 1 5.1

2 0 « - » 40 51.1 1 6.2

40*—» 66 55.6 1 6 . 2

43«—»71 159.6 1 6.7

144«-* 175 5 . 8 l 4.8 0 * — ^ 2 0

0.9610.13

0-67«-1.30 45.3 1 4 . 0 40«—»56 50.9 1 3.0

4S«—v 57

60.0 * 10.5 41«—» 95

159.7 • 5.9

146 «-»172 1.09 i 0.11

O.BB**1.4|

44.61 '.9

3 2 « - » 59 70.4 * 10.5

54 «>T^ 90 160.0 4 6.4

1 4 7 « - ^ 174 12.BJ. 8-8 I * — • » 31

0.99 j . 0.14 0 . 7 B * * 1 . 3 6

3 1 . 8 1 . 5 . 6 2 1 4 - ^ 40

53.6 * 6.9 4) ,

70.0 * 8.3

52 « ^ » 8 8 158-0 ± 6 . 0

143 «—»168 9.0 4 . 7 . 1 0 « - » 22

0.99 4 0.13 0.72*^1.26 44.61.3.6

40 «\ »5B

1.0] 4 0.14

TABLEAU 1 : Calcul des paramètres statistiques m + DS min«>* max moyenne min = valeur minimum DS = déviation standardj max = valeur maximum

(10)

L ' a n a l y s e d e s c r i p t i v e a mis également en évidence que le p h é n o m è n e de perte de masse osseuse commençait environ vers 2 5 ans et qu'au delà de 75 a n s , la mesure du BMD n'était plus p e r t i n e n t e . Après é l i m i n a t i o n des femmes âgées de moins de 25 ans et de plus de 70 a n s , l'échantillon de 716 femmes a été retenu pour déterminer le m o d è l e de prédiction*

AGE POIDS TAILLE A N C I E N N E T E

-0.48 0.19 0*23 - 0 . 4 8

0*03 0*23 0*68

0*35 -0.1 -0.1

T A B L E A U 2 ; C o e f f i c i e n t s de corrélation linéaire 2.3 - Modèle de référence

Ne disposant pas d'un plan expérimental avec répétitions pour les 7 1 6 femmes c o n s i d é r é e s , nous avons appliqué la s t r a t é g i e explicitée dans le paragraphe 1*3*2 pour définir un m o d è l e de r é f é r e n c e .

2*3.1 - Quelle t r a n s f o r m a t i o n de la variable âge choisir ? Compte tenu de l'intérêt de ta variable âge et des r é s u l t a t s de l'analyse descriptive mettant en évidence la d é c r o i s s a n c e du BMD en fonction de l'âge pour certains types, on se propose de préciser la transformation de l'âge la plus a d é q u a t e selon le type» La variable poids non corrélée avec

la v a r i a b l e âge est conservé dans le modèle*

Pour le type 2 : pour les 256 femmes du type 2 , les données ont été regroupées sous forme d'un plan d'expérience où la condition e x p é r i m e n t a l e est définie par le couple (âge, p o i d s ) avec des r é p é t i t i o n s en nombre inégal de la variable B M D :

yi 5 = i* + a* ' « < * ; >

+ b. xt + e

_{i j}

i=l à 178 j=l â n4

178

2 n

£

=256 i = l

e£ ji .i .dMsKO.o*2)

(11)

où la t r a n s f o r m a t i o n f

w

est :

f

o<

<x)=x

OÏ

pour ote{l ,0,-1 , - 2 , - 3 , - 4 }

Le choix des m e i l l e u r e s t r a n s f o r m a t i o n s f

tt

c o r r e s p o n d a u x v a l e u r s minimum de la statistique e x p l i c i t é e au p a r a g r a p h e

**1*2 :**

R = ft+trL"

1

= — HY-nYI|

2

+2trnL'

1

Les r é s u l t a t s relatifs aux d i f f é r e n t s m o d è l e s selon les v a l e u r s de a et selon la nullité du c o e f f i c i e n t de r é g r e s s i o n **b du p o i d s , sont donnés dans le t a b l e a u 3* Le choix d e s m e i l l e u r s m o d è l e s correspond aux plus p e t i t e s v a l e u r s de la**

s t a t i s t i q u e R ! la t r a n s f o r m a t i o n r e t e n u e c o r r e s p o n d à u n e valeur a égale à - 1 , - 2 . - 3 ou - 4 et le m o d è l e e x p l i c a t i f doit prendre en compte la v a r i a b l e poids*

Pour avoir un nombre plus important de r é p é t i t i o n s , on peut r e g r o u p e r la v a r i a b l e poids en classe d ' é t e n d u e 5 kg et considérer les centres de classe pour la v a r i a b l e p o i d s . On obtient une nouvelle valeur R' de la s t a t i s t i q u e de p r é d i c t i o n . Il est intéressant de c o m p a r e r la s t a t i s t i q u e r au C p - M a l l o u s , e x p l i c i t é e dans le p a r a g r a p h e 1.2 i

Déviance ~

7

**C = e+n = + 2 s pour cT = 0 * 0 1 3** Z

2

On r a p p e l l e que s correspond au nombre de v a r i a b l e s dans le modèle *

modèle âqe + poids

l/âge+poids t/dge'tpoids l/3geJ+poids I/âge"+poids

poids âge 1/age 1/age*

1/age1

1/age*

Calculs intermé- diaires

Statistique R de prédiction Hy-nyï1

1.760 1.746 1.742 1.739 1.738 2.025 1,860 1.846 1.842 1.839 1.839

2 tri.1*' S. 163 5.161 5.160 5.160 5.161 3.469 3.348 3.345 3.345 3.345 3.345

R 140.7 139.6 139.2 139.0 139.0 159.3 146.5 145.4 145.1 144.9 144.9 Nombre de conditions expérimentales k-Ui trace de la matrice L"1 : tr L'*-M7. 1 estimation de la variance o1 : d'-0.ul29S

statistique R*

42.95 42.6 42.6 42.6 42.7 51.8 45.4 45.15 45.13 45.19 45.34

k • 91 trC* - 52 7 à1- 0013

C.lteHoHS 254.1 243.8 243.5 243.4 243.4 270.8 252.2 251.0 250.6 250.5 250.6 n > 26 d* - 0-013

Tableau 3 S t a t i s t i q u e s R

t

R ' et C. pour le type 2 .

(12)

Dans le tableau 3, les résultats comparatifs des s t a t i s t i q u e s R* R' et C conduisent aux remarques suivantes :

le classement des modèles suivant R est légèrement différent de celui obtenu à partir de R' ou C

pour les 3 critères R,R' ou C, il apparait que le m o d è l e de référence doit prendre en compte la variable poids et que la transformation de l'âge la plus adéquate correspond à a égal à - 2 ou - 3 *

Pour les autres types

Les calculs explicités précédemment ont été de même réalisés pour les types 1,3 et 6, dans la mesure où il y avait des r é p é t i t i o n s .

2.3.2 Définition du modèle < M0)

Pour la variable x , ancienneté de ménopause, on a pu vérifier que le pourcentage moyen de perte osseuse par an pour les premières années d'ancienneté de ménopause était plus grand que pour les s u i v a n t e s .

On considère alors le modèle de régression le plus général :

yâ j = S i + a ^ ^ x î ^ + b ^ î j + C j x î j + d . C a ^ . x î j + e ^ (1) L'indice i

1'indice j est

"«(Ji ⁿ i ^{= 7 i 6} l-

est l'indice du type qui varie de 1 â 8, et relatif â l'individu, qui varie de 1 â

Le coefficient d*(a.) de la variable x est relatif à la perte m o y e n n e osseuse par an sur les xt premières années d'ancienneté de m é n o p a u s e pour le type i :

d . ( aâ) =

d^oc.) si x _ij d2( ai) si xij > ai

Ce coefficient n'intervient pas pour les types 1 et 6,

car

<5 =

Le

paramètre inconnu a. est un entier qui peut prendre une valeur dans l'ensemble {-1,0,1,*.*,10>* Le cas où 0^=-1, correspond au cas d'un pourcentage moyen de perte osseuse par an identique quelle que soit l'ancienneté de la ménopause*

Les erreurs e centrée de variance & ²

sont indépendantes de loi normale

(13)

L ' e n s e m b l e des t r a n s f o r m a t i o n s îi est ;

| fM( x ) = x0 ,/ o c e { lfO , - l , - 2 , - 3 , - 4 > |

Compte tenu des r é s u l t a t s sur la v a r i a b l e x r e l a t i f s â la comparaison de pentes de r é g r e s s i o n , la v a l e u r X j = 8 a été retenue pour tous les types, afin de d é f i n i r le m o d è l e ( M0) .

Le m o d è l e de référence C M0) est donc défini comme un cas p a r t i c u l i e r du modèle (1) pour :

(O si i=l

fjCx) = -Ix si i=6 et o u = 8 pour i e { 2 , 3 , 4 , 5 , 7 , 8 } , O s i n o n .

(

^{O si i=l}^{x si i=6}1/x3 sinon Ce m o d è l e contient 33 p a r a m è t r e s i n c o n n u s * Il n'est pas a c c e p t a b l e car il a trop de p a r a m è t r e s et c e r t a i n s c o e f f i c i e n t s sont mal e s t i m é s . N é a n m o i n s il n o u s d o n n e une e s t i m a t i o n de cr2 , qui comme on peut le v é r i f i e r d a n s les r é s u l t a t s du p a r a g r a p h e suivant, est a c c e p t a b l e (cf. t a b l e a u 4 ) .

Pour une déviance de 8*035 c o r r e s p o n d a n t â 6 8 3 d e g r é s de liberté, l'estimation de cr2 est a2= 0 * 0 1 1 7 6 .

2*4 - R e c h e r c h e e x p l o r a t o i r e des m e i l l e u r s m o d è l e s

Les m o d è l e s â explorer sont, soit des sous m o d è l e s de

< M0) o b t e n u s en regroupant ou en éliminant c e r t a i n s c o e f f i c i e n t s , soit des m o d è l e s d é f i n i s pour d ' a u t r e s t r a n s f o r m a t i o n s f-x et des v a l e u r s ai a u t r e s que c e l l e s du modèle ( M0) .

Pour chaque m o d è l e , on a calculé la d é v i a n c e , le carré moyen résiduel et le C p - M a l l o w s qui est l ' e s t i m a t i o n du risque de p r é d i c t i o n :

Déviance

r = + 2 c a r d S

s 0.01176

La valeur de Cs constitue le critère m a j e u r de choix des m e i l l e u r s m o d è l e s * N é a n m o i n s , pour c e r t a i n s m o d è l e s , des tests de s i g n i f i c a t i o n des c o e f f i c i e n t s de r é g r e s s i o n et de leurs d i f f é r e n c e s ont été r é a l i s é s , afin de t r o u v e r les h y p o t h è s e s sur les c o e f f i c i e n t s les p l u s a d é q u a t e s * La p r i s e en compte de ces h y p o t h è s e s permet d ' e n r i c h i r ou de r é d u i r e

l'ensemble des m o d è l e s â e x p l o r e r .

(14)

2.4.1 - H y p o t h è s e s sur les coefficients

Les principales hypothèses amenant les modifications intéressantes de la valeur Cs par rapport à la valeur C0= 7 4 9 du modèle < M0) sont :

- pour le coefficient g. , relatif au type : H9= { g i = g > Hg p = { g1= g6; g 2 = g4S 9 3 = g7= gBï g5>

Hg p=< 91= g6ï g2= 94= g5i g 3 = g8= gr>

- pour le coefficient aL , relatif â l'âge : Ha = •{a1=0 ï aj=a sinon}

Hx = •Ca1=0;a2=a5 ; a3= a4= a7= aB ïa6>

Hx l = •Ca1=0;a2 î a3= ar= a8 ;a4;a6>

- pour le coefficient bi , relatif au poids : Hb = <bi=b> Hz = { b5= O i b1= b sinon}

- pour le coefficient Ci t relatif â la taille :

Hc = {C.=C} Ht = { C3= C7= CB= 0 ; CX= C2= C4= C5= C6} pour le coefficient d*(ai>, relatif â l'ancienneté de ménopause :

Hd 8 = <àl(&) = d2< 8 ) } Hj = {a.=a}

H* = { d . ( ai) = di>

2*4.2 - Analyse des résultats

Dans les tableaux 4 et 5, figurent les résultats correspondant â l'exploration de quelques modèles i n t e r m é d i a i r e s . Parmi les sous modèles de H0 considérés, les deux meilleurs sont :

- M0O Hg pn Hx ln H2n Ht : modèle à 12 paramètres obtenu pour la valeur C3= 7 2 1 . 5 ( R M S = 0 . 0 1 1 6 5 ) .

" N on Hg p in Hx in Hzn Ht : modèle à 13 paramètres obtenu pour la valeur Cs= 7 2 2 < R M S = 0 . 0 1 1 6 4 ) .

Les estimations des coefficients de régression et leurs tests de signification sont données au tableau 6, pour ces 2 m o d è l e s . Une analyse des résidus permet d'accepter

l'hypothèse de normalité des erreurs, pour ces 2 modèles.

(15)

Modèle H$

H0

V " .

MgMa^OJ

H0flHb H0ntb.=0)

M0ftH2 H0nC i= 0 VHd 8 H0ftld(8i=0) V " g p

VHx W^Hc W ' x V WHz

WHcB Hg p VHbf t Hcn H x

déviance

8.04 8.10 8".3Ï 8.33 8.10 8.26 6.12 8.20 8.03 0.14 8.07 8.07 8.18 8.10 8.75 8.23 8.20

d . d . l .

683 690

" 6 8 9 "

690 690 691 690 691 684 689 688 687 697 692 704 702 701

RMS - en 10'*

1.176 1.174 1.21 1.21 1.174 1.195 1.177 1.186 1.181 1.188 1.174 1.174 1.173 1.171 1.24 1.172 1.169

CS 749 741

~76i 760 741 75?

743 747 751 754 743 744 733 737 768 728 727

Modèle Mj L

HS*M0 |

W g p^{f t H}x

V W

l c

r

0 ) HgpftHxhHc.tb,=0J

Hz

Ht

V^Ht

HgPW"t V V t

VHx i * VHt

Hgp1ftHx1*HznHt

Hx1

' W V

H

b

Hgp1ftHx1AHzflHc

HgP1ftHx1ftHbrtHc HgpAHxlftHzAH^di

évlance

8.31 8.17 8.21 8.39 8.46 8.10 8.09 8.14 8.28 8.18 8.20 8.19 8.07 8.21 8.20 8.22 8.26

d . d . t

706 699 699 707 707 690 690 697 706 702 704 703 685 703 703 703 705

RMS en l u "2

1.177 1.169 1.174 1.186 1.196 1.173 1.172 1.168 1.172 1.166 1.165 1.164 1.177 1.167 1.167 1.169 1.172

CS 7Z7 729 7J2 731 737 740 740 730 724 7L4 7215 7£2*

748 724 723,' 725 724

T A B L E A U 4 - D é v i a n c e , RMS (carré m o y e n r é s i d u e l ) et Cs- M a l l o u s pour des s o u s - m o d è l e s de M0 .

Parmi les m o d è l e s c o n d i d é r é s soit pour une a u t r e t r a n s f o r m a t i o n f£, soit pour une autre h y p o t h è s e sur <xi , n o u s avons obtenu des m o d è l e s m e i l l e u r s que les p r é c é d e n t s uniquement pour c e r t a i n e s t r a n s f o r m a t i o n s p r é c i s é e s dans le tableau 5 . Le m e i l l e u r de ces m o d è l e s , noté M * , est o b t e n u pour la valeur Cs= 7 2 0 . 5 < R M S = 0 . 0 1 1 6 3 ) * L ' a n a l y s e d e s e s t i m a t i o n s des c o e f f i c i e n t s ainsi que des r é s i d u s est s a t i s f a i s a n t e (cf. tableau 6 ) . D ' a u t r e s sous m o d è l e s de M ont été e x p l o r é s sans apporter d ' a m é l i o r a t i o n au c r i t è r e Cg.

Le choix d é f i n i t i f incombe au s p é c i a l i s t e qui c h o i s i r a , parmi les m e i l l e u r s m o d è l e s a c c e p t a b l e s s é l e c t i o n n é s par les

(16)

c r i t è r e s s t a t i s t i q u e s ( v a l e u r de Cs i n f é r i e u r e à 7 2 2 , c o e f f i c i e n t s s i g n i f i c a t i f s , n o r m a l i t é des r é s i d u s ) , c e l u i pour l e q u e l l ' i n t e r p r é t a t i o n des c o e f f i c i e n t s e s t l a p l u s s i m p l e .

modèles M1

!»>

^déviance ^d.d.1 _{en 10} ^{modèles H}¹^iî2) déviance d.d.1 RMS . en 10"'

"|-

^H

S

M| n H2

«l»Hd

N..HJ

V " d H,«ig

8.20 8.24 6.26 8.25 8.26 8.23 8.23 6.23 8.25 8.21 8.26 8.23

704 704 704 704 704 704 706 704 704 704 705 700

1.165 1.170 1.173 1.172 1.173 1.168 1.169 1.169 1.170 1.167 1.172 1.176

721,5 724 726.5 726 726 723.5 724 724 725 723 724.5 732

1

^{0 si 1-1}x si 1-3,4,7.6 1/x* sinon

fi(x) (0 si 1

• X Si 1 ( l / x2s

-3,6,7,8 sinon 10 si 1-1 M x i - x si 1-3,6,7,8

(1/xz sinon

1

^{0 si 1-1}^{x si 1-6}^1/x²^sinon

I

^{D si 1-1}^{x si 1-6}^{1/x sinon}

8.20

8.19

B.19 704

704

704 1.163

1.164

720.5

721

TABLEAU 5 - Déviance,RMS et C

3

-Mallous pour les modèles suivants :

M £

J )

définis par H

gp

fiH

xl

nH

z

fiH

t

et f

Î ^{O si i=l} ^{x si i=6} ^{1/x sinon}

M

s 2 >

définis par H

g p

n H

x l

n H

z

n H

t

**n H * d'autres transformations.**

(17)

TYPE V a r i a b l e s

CONSTANTE g l AGE ou 1/AGE1 a l

POIDS bi

T A I L L E c l ANCIENNETE] d'rs.

|4- O 585-—->|t — 0-401 >k- 11590 4751 0.002-

20510

^

0.003

-lt::::::::::::.„-o.

t ::::::::-"o;

0 895-

< ™ 3350-TKT

t — 0-00 2 ^

VW/Ms.

01

ofsr

^:

"

:::::::=

v

\y//////,

TABLEAU 6 a c c e p t a b l e s .

E s t i m a t i o n s des p a r a m è t r e s pour 3 m o d è l e s

T o u s les tests de s i g n i f i c a t i o n des c o e f f i c i e n t s sont s i g n i f i c a t i f s (P<0.01) sauf ceux m a r q u é s du signe [ . ] ( P < 0 . 1 ) .

C O N C L U S I O N

Dans un problème de choix de m o d è l e s en v u e de la p r é d i c t i o n , quand le m o d è l e de r é g r e s s i o n n'est p a s défini a priori et qu'il contient beaucoup de p a r a m è t r e s i n c o n n u s p o s s i b l e s , la démarche m é t h o d o l o g i q u e basée sur l ' e s t i m a t i o n Rs du risque de p r é d i c t i o n peut être r é s u m é e par le s c h é m a suivant :

(18)

AJUSTEMENT DU MODELE COURANT Ms

Calcul : R» , Déviance Dq

Calcul des estimations et erreurs standards des coefficients de régression

;oefficients signif lifférents de O

i

ENSEMBLE DES MODELES A EXPLORER

i

(spécialiste+statisticien)

> /

Contrôle des résidus : calcul de RMS

normalité des résidus

i

^

' ENSEMBLE DES MEILLEURS MODELES ACCEPTABLES

(19)

REFERENCES BIBLIOGRAPHIQUES

[1] AKAIKE H. : "Information theory and an extension of the maximum likelihood principle". Proceedings of the 2nd International Symposium of Information theory 1973, 2 6 7 - 2 8 1 .

[2] BAKER R.J. et NELDER J.A. : "The GLIM System Generalized linear Interactive Modelling". Rothamsted expérimental station, Harpenden Hertforshire ALD ZJQ G . B r i t a i n , 1978.

[3] BONNEU M : "Choix de modèles linéaires généralisés en vue de la prédiction". Thèse de 3ème cycle, 1986 - Laboratoire de Statistique et Probabilités - Université Paul Sabatier TOULOUSE.

[4] BONNEU M. (â paraitre) : "Model choice for p r é d i c t i o n " . Statistics,1988,19,3.

[5] BUNKE O. et DROGE B. : "Estimators of the mean squared error of prédiction in linear r é g r e s s i o n " . Technometrics, 1984,26,145-156.

[6] MALLOUS C L . ï "Some comments on C ". T e c h n o m e t r i c s , 1973,15,661-675.

[7] RIBOT C. TREMOLLIERES F., POULHES J*M., BONNEU M., GERMAIN F., LOUVET J.P. (â paraître) : "Obesity and Postmenopausal boneloss : the influence of overueight on vertébral density and bone turnover in post menopausal uomen". Bone - U.S.A*.

Une démarche méthodologique en modélisation statistique

des données

M ICHEL B ONNEU