REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L'ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MENTOURI CONSTANTINE FACULTE DES SCIENCES EXACTES DEPARTEMENT DE MATHEMATIQUES

(1)

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L'ENSEIGNEMENT SUPERIEUR

ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MENTOURI CONSTANTINE

FACULTE DES SCIENCES EXACTES DEPARTEMENT DE MATHEMATIQUES

N° d'ordre :.../ TE / 2006 série : ... / MAT / 2006

THESE PRESENTEE POUR L'OBTENTION DU DIPLOME DE DOCTORAT D'ETAT EN MATHEMATIQUES.

‹‹ETUDE DE DONNEES LONGITUDINALES ET DE MESURES REPETEES DESEQUILIBREES DANS UN MODELE MIXTE : DIFFERENTES APPROCHES››

OPTION : STATISTIQUES APPLIQUEES

Par Ahsène Lanani

Soutenue le : 19/12/2006 devant le jury composé de :

Mr Z. MOHDEB Pr U. Mentouri Constantine Président Mme F. MESSACI M.C U. Mentouri Constantine Rapporteur Mr L. ABBAOUI Pr U. de Sétif Examinateur

Mme N. SEDDIK AMEUR M.C. U. de Annaba Examinateur Mr F. L. RAHMANI M.C. U. Mentouri Constantine Examinateur Mr M. REGHIOUA M.C. E.N.S de Constantine Examinateur

(2)

Remerciements

Je voudrais tout d'abord exprimer ma profonde reconnaissance et remercier mon directeur de thèse le Professeur James K.Lindsey, Professeur à Liège et au L.U.C en Belgique, pour avoir accepté de m'encadrer malgré les difficultés de l'éloignement.

Je voudrais remercier le Professeur Geert Molenberghs, Directeur du laboratoire de Biostatistiques au L.U.C en Belgique, qui m'a fait un grand honneur en acceptant de consacrer une partie de son temps précieux pour juger cette thèse.

Je tiens à remercier Madame Fatiha Messaci Maître de conférences à l'université de Constantine pour avoir accepté d'être mon Co-encadreur puis mon encadreur ainsi que pour ses encouragements et sa permanente disponibilité.

Mes remerciements vont également :

A Monsieur Zoheir Mohdeb Professeur à l'université de Constantine pour avoir accepté de présider ce jury.

A Monsieur Lyazid Abbaoui Professeur à l'université de Sétif pour avoir accepté d'être membre du jury.

A Madame Nacéra Seddik Ameur Maître de conférences à l'université de Annaba pour avoir accepté d'être membre du jury.

A Monsieur Fouad Lazhar Rahmani Maître de conférences à l'université de Constantine pour avoir accepté d'être membre du jury.

(3)

A Monsieur Mohammed Reghioua Maître de conférences à LE.N.S de Constantine pour avoir accepté d'être membre du jury.

Je tiens aussi à remercier :

Madame Vigeannel Odile Larive, responsable de la bibliothèque de Jussieu-Chevaleret à l'université de Paris5, pour sa disponibilité permanente et son accueil.

Monsieur le Professeur Pièrre Cartigny, Directeur du Laboratoire LASB, unité de biométrie à l'ENSAM-INRA Montpellier pour son chaleureux accueil et pour sa disponibilité, ainsi qu'à tous les membres de son équipe, qui ont essayé de près ou de loin à rendre mon séjour agréable.

Le Professeur Hélène Jacqmin-Gadda de l'université de Bordeaux pour sa documentation.

Le professeur Deborah Crane tufts-nemc ( New England Medical Center USA ) pour le temps consacré à me procurer et à m'envoyer la documentation demandée.

Enfin je tiens à remercier Monsieur A.Ouakas, qui était doctorant à l'ULB en Belgique pour le traitement des données.

(4)

Résumé :

Les modèles linéaires mixtes sont largement utilisés dans plusieurs domaines (surtout en génétique quantitative; en médecine; en biologie ; ou en écologie). Ces modèles s'avèrent s'adapter convenablement aux données longitudinales et aux mesures répétées équilibrées ou déséquilibrées, également en présence de données manquantes.

Cette thèse présente l'estimation des paramètres d'un modèle linéaire mixte, ainsi que ceux générant sa matrice de variance-covariance, d'une part; d'autre part, la recherche d'un choix parcimonieux de la structure de cette matrice a été concrétisée par l'application d'une première approche à un exemple de données dentaires. L'approche considérée est celle du maximum de vraisemblance (ML) ou du maximum de vraisemblance restreinte (REML). Les équations normales obtenues sont souvent non linéaires, d'où l'utilisation pour leur résolution de procédés itératifs ou algorithmes, tels que, Newton-Raphson; l'algorithme EM ou celui des scores de Fisher.

Nous introduisons ensuite une deuxième approche; c'est celle des modèles de quasi- vraisemblance et de quasi-vraisemblance étendue, d'où l'utilisation des modèles linéaires généralisés (GLM). Une extension de ces modèles, nous a permis d'introduire les modèles marginaux. Ces derniers, utilisent les équations d'estimation généralisées (GEE).

Enfin, nous terminons ce travail par la confrontation de cette approche à la première, celle des modèles à effets aléatoires utilisant le maximum de vraisemblance (ML) ou le maximum de vraisemblance restreinte (RE ML).

Mots clés : Algorithme des scores de Fisher; EM algorithme; Estimation des composantes de la variance; GEE; Modèles linéaires mixtes; Newton-Raphson; Structure de Variance- Covariance.

(5)

Summary :

The mixed linear models are largely used in several fields (especially in quantitative genetics; medicine; biology; ecology...). These models prove to adapt suitably to the longitudinal data and repeated balanced or unbalanced measurements, also in the presence of missing data.

This thesis presents, on the one hand, the estimate of the parameters of a mixed linear model, like those generating its variance-covariance matrix; on the other hand, the search for a parsimonious choice of the structure of this matrix was concretized by the application of a first approach to an example of dental data. The considered approach is the maximum likelihood (ML) or restricted maximum likelihood (REML) applied to mixed linear models.

The obtained normal equations are often nonlinear, from where the use of iterative processes or algorithms for their resolution, such as, Newton-Raphson; the EM algorithm or the Fisher scoring ones.

We introduce then a second approach; it is that of the quasi-likelihood models and extended quasi-likelihood, from where the use of the generalized linear models (GLM). An extension of these models, enabled us to introduce the marginal models. The latter, use the generalized estimating equations (GEE).

Lastly, we complete this work by the confrontation of this approach to the first, that of the random effects models using the maximum likelihood (ML) or restricted maximum likelihood (RE ML).

key Words : EM algorithm; Estimate of the variance components; Fisher Scoring Algorithm; GEE; Mixed Linear Models; Newton-Raphson; Variance-Covariance Structure.

(6)

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

(44)

(45)

(46)

(47)

(48)

(49)

(50)

(51)

(52)

(53)

(54)

(55)

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)

(65)

(66)

(67)

(68)

(69)

(70)

(71)

(72)

(73)

(74)

(75)

(76)

(77)

(78)

(79)

(80)

(81)

(82)

(83)

(84)

(85)

(86)

(87)

(88)

(89)

(90)

(91)

(92)

(93)

(94)

(95)

(96)

(97)

(98)

(99)

(100)

(101)

(102)

(103)

(104)

(105)

(106)

(107)

(108)

(109)

(110)

(111)