HAL Id: tel-00987441
https://tel.archives-ouvertes.fr/tel-00987441v2
Submitted on 24 Mar 2015
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire
Joyce Giacofci
To cite this version:
Joyce Giacofci. Classification non supervisée et sélection de variables dans les modèles mixtes fonc- tionnels. Applications à la biologie moléculaire. Mathématiques générales [math.GM]. Université de Grenoble, 2013. Français. �NNT : 2013GRENM025�. �tel-00987441v2�
Pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE
Spécialité : Mathématiques Appliquées
Arrêté ministériel : 7 août 2006
Présentée par
Joyce-Madison Giacofci
Thèse dirigée par Sophie Lambert-Lacroix et codirigée par Franck Picard
préparée au sein du Laboratoire Jean Kuntzmann
et de Ecole Doctorale Mathématiques, Sciences et Technologies de l’Information, Informatique
Classification non supervisée et sélection de variables dans les
modèles mixtes fonctionnels.
Applications à la biologie moléculaire
Thèse soutenue publiquement le 22 Octobre 2013, devant le jury composé de :
M. Anatoli Juditsky
Professeur, Université Grenoble 1, Président
Mme Béatrice Laurent
Professeur, INSA Toulouse, Rapporteur
M. Hervé Cardot
Professeur, Université de Bourgogne, Rapporteur
M. Vincent Rivoirard
Professeur, Université Paris-Dauphine, Examinateur
Mme, Sophie Lambert-Lacroix
Professeur, Université Grenoble 2, Directrice de thèse
M. Franck Picard
Chargé de Recherche, CNRS, Co-Directeur de thèse
Au même titre que la soutenane, le temps des remeriements est un moment
souventfantasméau oursdu longetparfois laborieuxparoursd'un thésardomme
le symbole d'un point nal à tous nos eorts. On se rend bien vite ompte que e
n'est enréalité qu'unpassageparmi d'autresmais ilal'avantagede mepermettrede
rendre hommage à toutes les personnes qui ont pu ontribuer à la réussite de ette
épopée.
Je souhaite remerier en premier lieu mes deux rapporteurs Béatrie Laurent-
Bonneau et Hervé Cardot de m'avoir fait l'honneur d'aepter de rapporter e tra-
vail de thèse. Vos reletures attentives et vos ritiques onstrutives m'ont permis
d'apporter un autre regard à e travail et d'en améliorer la nalisation. Je remer-
ie aussi haleureusement Vinent Rivoirard et Anatoli Juditsky d'avoir aepté de
fairepartiede monjury. Enn,desremeriementstous partiuliersvont àmesdeux
direteurs de thèse, Sophie Lambert-Laroix et Frank Piard. Vos apports tant sur
le plan professionnel qu'humain m'ont permis de devenir la jeune herheuse que
je suis aujourd'hui. Je ne suis pas sûre de pouvoir résumer ma reonnaissane en
quelques lignes mais je souhaite sinèrement à tout dotorant de pouvoir avoir la
même hane que elleque j'ai eu en entamant ette aventure à vos tés.
J'adresseaussiun meripartiulieràAnestisAntoniadis,pourleprofesseurqu'il
a été et surtout pour le modèle professionnel et humain qu'il reste à mes yeux.
La vie d'un dotorant ne se résume heureusement pas à la leture d'artiles ou
au développement de odes.J'ai eu lahanede pouvoir enseignerdurantes quatre
années au sein de l'IUT STID et pour ela, je tiens à remerier haleureusement
l'ensemblede l'équipe enseignante del'IUT STID, quim'aformé au métier d'ensei-
gnant herheur et auprès de laquelle j'ai toujours pu trouver une oreille attentive
lorsquej'en ai eu besoin.
Meri à Manu, Fred et Frank pour les doubles disputés, je vais ontinuer à
travaillermonservieetmonjeuaulet,peut-êtrequ'onremettraçaundeesjours!
Je pense aussi à tous les dotorants et post-dotorantsdu labo, toutes es personnes
quipassentetrepartentetauprèsdequij'aitoujoursbeauoupappris,beauoupri, et
grandement améliorémon niveau de oinhe,de potins ou demots éhés! Envra,
jeiterai Roland, Chloé,Bertie Love,Thomas, Matthias, P-O, Pierre-Jean, Lukas,
Vinent, Euriell, Alexandre, Samuel, Christophe, Brie, Meryam, Emilie, Mélanie,
Rémi, Claire, Ibrahim, Azmi, Souleymane, David... J'en oublie sûrement beauoup
mais je vous adresse à tous un grand meri pour toutes es joyeuses années.
Plutt que de simples remeriements, les suivants peuvent aussi être lus omme
de sinères exuses. La rédation d'une thèse peut être un exerie totalitaire et j'ai
bien peur d'en avoir fait subir bien des onséquenes à mes prohes. Meri à mes
Un merispéial à mesparents pourleur soutienindéfetible, j'espère être digne
de la onane que vousm'avez toujours aordée.
Enn, meri à toi, Philippe, qui a été le garant de mon bonheur pendant toutes
es années, tu as été ma famille, mon pilier, mon repère. Je te souhaite à présent
de pouvoir en trouver un qui soit moins instable queelui que j'ai pu être.
1 Introdution générale 9
1.1 Contexte appliatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Outils de modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Classiation non supervisée dans les modèlesmixtes fontionnels . . 12
1.4 Estimationdans les modèles mixtes fontionnels . . . . . . . . . . . . 15
I Vers le modèle mixte fontionnel et la lassiation non supervisée 21 2 Modèle mixte pour données longitudinales 25 2.1 Modèle général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Approhe marginale. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Estimation des eets xes par maximum de vraisemblane . . 27
2.2.2 Estimation des paramètres de variane :MLE et REML . . . 27
2.2.3 Inférene dans lemodèle marginal . . . . . . . . . . . . . . . . 28
2.3 Approhe jointe etprédition des eets aléatoires . . . . . . . . . . . 29
2.4 Algorithmesd'estimation . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Modélisation fontionnelle par ondelettes 33 3.1 Modélisationfontionnelle . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Ondelettes et espaes de Besov . . . . . . . . . . . . . . . . . . . . . 35
3.2.1 Analyse multirésolution . . . . . . . . . . . . . . . . . . . . . 35
3.2.2 Espaes de Besov . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Transforméeen ondelettes rapide et approximation . . . . . . 40
3.2.4 Modélisationstatistiquepar ondelettes . . . . . . . . . . . . . 42
3.3 Seuillageet régressions pénalisées . . . . . . . . . . . . . . . . . . . . 43
3.3.1 Seuillage par ondelettes etrisque . . . . . . . . . . . . . . . . 43
3.3.2 Lien ave les régressions pénaliséeset propriété orale . . . . . 49
4 Modèles à variables latentes 55 4.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Estimationdans les modèles àvariableslatentes . . . . . . . . . . . . 55
4.2.1 Contexte général . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Un modèle de lassiation de ourbes . . . . . . . . . . . . . . . . . 60
4.3.1 Classiation non-supervisée . . . . . . . . . . . . . . . . . . . 60
4.3.2 Modèle fontionnel . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.3 Rédution de dimension dans lesmodèlesfontionnels . . . . . 63
4.3.4 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . 64
4.4 Modèle mixtefontionnel. . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1 Modèle général . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4.2 Modélisationde la variabilitéindividuelle . . . . . . . . . . . . 66
II Classiation non supervisée dans les modèles mixtes fontionnels 79 5 Modèle de mélange mixte fontionnel 83 5.1 Présentation du modèle omplet . . . . . . . . . . . . . . . . . . . . . 83
5.2 Proédure d'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.1 Étape de rédution de dimension . . . . . . . . . . . . . . . . 85
5.2.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . 86
5.2.3 Choix du nombre de groupes- Bayesian Information Criteria . 91 6 Appliations 93 6.1 Étude de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.1.1 Cadre de simulation . . . . . . . . . . . . . . . . . . . . . . . 93
6.1.2 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . 98
6.2 Appliationà des données réelles . . . . . . . . . . . . . . . . . . . . 102
6.2.1 Données de spetrométrie de masse . . . . . . . . . . . . . . . 103
6.2.2 Données de miroarray CGH. . . . . . . . . . . . . . . . . . . 110
III Rédution de dimension dans les modèles mixtes fon- tionnels 115 7 Seuillage pour le modèle hétérosedastique 119 7.1 Modèle marginaletproblématique. . . . . . . . . . . . . . . . . . . . 119
7.2 Proéduresde seuillagepourmodèleshétérosédastiquessansrépétition120 7.3 Proédures de seuillagepour modèleshétérosédastiques ave répéti- tions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7.4 Considérations asymptotiques . . . . . . . . . . . . . . . . . . . . . . 122
7.5 Estimationde l'eet xe fontionneletrisque quadratique . . . . . . 124
7.6 Estimationdes varianes . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.6.2 Estimation pénalisée . . . . . . . . . . . . . . . . . . . . . . . 127
8 Séletion de variables dans les modèles mixtes 131 8.1 Modèle etvraisemblanepénalisée. . . . . . . . . . . . . . . . . . . . 132
8.2 Propriétés asymptotiques des estimateurs . . . . . . . . . . . . . . . 133
8.2.1 Hypothèses sur les pénalités . . . . . . . . . . . . . . . . . . . 135
8.2.2 Hypothèses sur la vraisemblane . . . . . . . . . . . . . . . . . 136
8.2.3 Propriétés oraulaires . . . . . . . . . . . . . . . . . . . . . . . 137
8.3 Proédure de séletion des eets xes et aléatoires . . . . . . . . . . . 138
8.3.1 Reparamétrisation du modèle mixte fontionnel . . . . . . . . 138
8.3.2 Algorithme EM pour laséletion . . . . . . . . . . . . . . . . 140
8.3.3 Comparaison ave l'approhe de Bondelletal. (2010) . . . . . 144
9 Simulations 147 9.1 Approhe marginaleetseuillagehétérosédastique . . . . . . . . . . . 147
9.1.1 Constrution de jeux de données simulées. . . . . . . . . . . . 148
9.1.2 Proédures omparées etindiateurs de performane . . . . . 149
9.1.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
9.2 Approhe jointe etséletionde variables . . . . . . . . . . . . . . . . 154
9.2.1 Données onsidéréeset proédures testées . . . . . . . . . . . 159
9.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
9.3 Comparaison des approhes sur données réalistes. . . . . . . . . . . . 163
9.3.1 Simulation de données réalistes . . . . . . . . . . . . . . . . . 163
9.3.2 Comparaison des approhes marginaleet jointe . . . . . . . . 164
10 Conlusion et perspetives 177 10.1 Classiation non supervisée dans les modèlesmixtes fontionnels . . 177
10.2 Séletiondevariablesetestimationdanslesmodèlesmixtesfontionnels178 A Vitesse de onvergene de l'estimateur de seuillage hétérosédas- tique 181 B Propriétésoraulairespourla séletiondes eetsxeset aléatoires187 B.1 Vériation des hypothèses sur la vraisemblane . . . . . . . . . . . 187
B.2 Propriétés oraulaires des estimateurs . . . . . . . . . . . . . . . . . . 190
B.2.1 Preuve du théorème 8.1 . . . . . . . . . . . . . . . . . . . . . 190
B.2.2 Preuve du théorème 8.2 . . . . . . . . . . . . . . . . . . . . . 193
C Mise à jour des paramètres pour la proédure de séletion de va- riables 201 C.1 Mise àjour des paramètres d'eets xes βjk . . . . . . . . . . . . . . 201
C.2 Mise àjour des varianesdes eets aléatoiresγjk . . . . . . . . . . . . 203
Introdution générale
1.1 Contexte appliatif
Les dernières déennies ont vu le développement rapide du domaine de la bio-
logie moléulaire et, grâe à des progrès tehniques onstants, l'émergene d'une
biologie dite à "haut-débit" se traduisant par une forte augmentation de la quan-
tité de données disponibles. L'analyse de e type de données ore au statistiien
de nombreux hallenges : en eet, une de leurs prinipales aratéristiques est que
le nombre d'individus observés (de l'ordre de la entaine) est relativement faible
devant lenombre de variablesonsidérées(souventen dizainesde milliers).Lespro-
blématiques d'intérêt restent généralement les mêmes, à savoir, la déouverte de
groupes, ladisrimination,l'estimationetlaprédition pourn'en iterquequelques
unes. Cependant, les méthodes lassiquement utilisées à es ns néessitent d'être
adaptéesàlagrandedimensionde es donnéesar ettearatéristiquelesrend peu
performantes.
Deux types de données issues du domaine de la biologie moléulaire à haut-
débitontmotivée travailde thèse: lesdonnées de miroarrayCGH(Comparative
GenomiHybridization) et les données de spetrométrie de masse. Les données de
miroarray CGH sont des données visant à l'étude du génome et plus partiuliè-
rement, à la mesure du ratio du nombre de opies des gènes entre un éhantillon
d'intérêt etun éhantillonde référene. Latehnologiedelaspetrométriede masse
vise quant à elle à l'étude du protéome et sert à déterminer, par un proédé d'io-
nisation, la omposition en protéines ou polypeptides d'un éhantillon biologique.
Unevaste littérature a été développée onernant l'étudede telles données et pour
unpanoramades approhes adoptées,nousrenvoyons leleteuràlarevue devande
Wielet al. (2011) pour les données de miroarray CGHet à la revue de Roy et al.
(2011)pour lesdonnées de spetrométrie de masse.
Les aratéristiques ommunes de es tehnologies sont de produire des don-
nées de grande dimension mesurées à haut-débit et présentant des omportements
fortement disontinus. À e titre, notre hoix de modélisation s'est porté sur une
approhe fontionnelle de l'étude de telles données. En eet, de par leurs araté-
ristiques, es données s'insrivent naturellement dans le paradigme développé par
Ramsay etSilverman (1997).Dansleur adre,des données sontdites fontionnelles
si elles sont mesurées sur une grille de disrétisation ne et régulière et pour les-
quelleslanotionde ourbesreprésente l'unitéidéaled'observation, 'est-à-direpour
lesquelleson souhaites'intéresser àdes quantités n'ayant un sens que dans une ap-
prohe fontionnelle, omme la régularité par exemple. De plus, alors que jusqu'à
présent, les eorts de reherhe ont été onentrés sur la aratérisation de la va-
riabilitédiretement imputable aux appareils de mesure, une nouvellevoie émerge,
visant à étudier la variabilité biologique propre aux individus inhérente à de telles
données. En eet, les réations physiologiques dans une ironstane donnée (fae
à une maladie par exemple), peuvent se révéler très diérentes selon les individus
onernésetlamodélisationde ettevariabilitédans l'optiqued'unemeilleureom-
préhension du phénomène étudié est atuellement un enjeu majeur. Dans le adre
del'étudede donnéesnon omplexes,lesmodèlesmixtes représententl'outild'étude
ad-ho pourla modélisationde lavariabilitéindividuelle.Dansleontexte des don-
nées omplexes, l'extension des modèles mixtes à un adre fontionnel en devient
alors l'outild'analyse privilégié.
Le doument présent est onstitué de trois parties. Dans la première partie,
nous nous attahons à la desription des prinipaux outils de modélisation statis-
tique représentant les fondements de e travail : les modèles mixtes et l'approhe
fontionnelle basée sur les ondelettes. Dans une deuxième partie et aussi première
ontribution de e travail, nous étudions la problématique de la lassiation non
supervisée au sein des modèles mixtes fontionnels. Enn, dans une troisième par-
tie, représentant la deuxième ontribution de e travail,nous nous onentrons sur
des problématiques d'estimation dans lesmodèles mixtes fontionnels au sein d'un
groupe homogèned'individus.
1.2 Outils de modélisation
Résumé de la Partie I
Dansettepartie,notre volontéest d'introduirelesprinipauxonepts assoiés
audéveloppement des ontributions proposées dans ette thèse. Nous ommençons
pardériredansunpremierhapitre,lanotiondemodèleslinéairesmixtes (Lairdet
Ware1982).Cetteintrodutionest réaliséedans leaspartiulierde lamodélisation
dedonnées longitudinales.Desdonnées sontdites longitudinaleslorsque lesmesures
réaliséessur lesdiérents individuslesontselon unegrilledetempsoud'espae, in-
duisantun ordrenaturelsurlesdonnées, etdeefait,onstituantunebasenaturelle
à une future extension aux données fontionnelles. Pour une introdution détaillée
desmodèles linéairesmixtes appliquésauxdonnées longitudinales,leleteurpourra