Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire

(1)

HAL Id: tel-00987441

https://tel.archives-ouvertes.fr/tel-00987441v2

Submitted on 24 Mar 2015

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire

Joyce Giacofci

To cite this version:

Joyce Giacofci. Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire. Mathématiques générales [math.GM]. Université de Grenoble, 2013. Français. �NNT : 2013GRENM025�. �tel-00987441v2�

(2)

Pour obtenir le grade de

DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE

Spécialité : Mathématiques Appliquées

Arrêté ministériel : 7 août 2006

Présentée par

Joyce-Madison Giacofci

Thèse dirigée par Sophie Lambert-Lacroix et codirigée par Franck Picard

préparée au sein du Laboratoire Jean Kuntzmann

et de Ecole Doctorale Mathématiques, Sciences et Technologies de l’Information, Informatique

Classification non supervisée et sélection de variables dans les

modèles mixtes fonctionnels.

Applications à la biologie moléculaire

Thèse soutenue publiquement le 22 Octobre 2013, devant le jury composé de :

M. Anatoli Juditsky

Professeur, Université Grenoble 1, Président

Mme Béatrice Laurent

Professeur, INSA Toulouse, Rapporteur

M. Hervé Cardot

Professeur, Université de Bourgogne, Rapporteur

M. Vincent Rivoirard

Professeur, Université Paris-Dauphine, Examinateur

Mme, Sophie Lambert-Lacroix

Professeur, Université Grenoble 2, Directrice de thèse

M. Franck Picard

Chargé de Recherche, CNRS, Co-Directeur de thèse

(3)

(4)

Au même titre que la soutenane, le temps des remeriements est un moment

souventfantasméau oursdu longetparfois laborieuxparoursd'un thésardomme

le symbole d'un point nal à tous nos eorts. On se rend bien vite ompte que e

n'est enréalité qu'unpassageparmi d'autresmais ilal'avantagede mepermettrede

rendre hommage à toutes les personnes qui ont pu ontribuer à la réussite de ette

épopée.

Je souhaite remerier en premier lieu mes deux rapporteurs Béatrie Laurent-

Bonneau et Hervé Cardot de m'avoir fait l'honneur d'aepter de rapporter e tra-

vail de thèse. Vos reletures attentives et vos ritiques onstrutives m'ont permis

d'apporter un autre regard à e travail et d'en améliorer la nalisation. Je remer-

ie aussi haleureusement Vinent Rivoirard et Anatoli Juditsky d'avoir aepté de

fairepartiede monjury. Enn,desremeriementstous partiuliersvont àmesdeux

direteurs de thèse, Sophie Lambert-Laroix et Frank Piard. Vos apports tant sur

le plan professionnel qu'humain m'ont permis de devenir la jeune herheuse que

je suis aujourd'hui. Je ne suis pas sûre de pouvoir résumer ma reonnaissane en

quelques lignes mais je souhaite sinèrement à tout dotorant de pouvoir avoir la

même hane que elleque j'ai eu en entamant ette aventure à vos tés.

J'adresseaussiun meripartiulieràAnestisAntoniadis,pourleprofesseurqu'il

a été et surtout pour le modèle professionnel et humain qu'il reste à mes yeux.

La vie d'un dotorant ne se résume heureusement pas à la leture d'artiles ou

au développement de odes.J'ai eu lahanede pouvoir enseignerdurantes quatre

années au sein de l'IUT STID et pour ela, je tiens à remerier haleureusement

l'ensemblede l'équipe enseignante del'IUT STID, quim'aformé au métier d'ensei-

gnant herheur et auprès de laquelle j'ai toujours pu trouver une oreille attentive

lorsquej'en ai eu besoin.

Meri à Manu, Fred et Frank pour les doubles disputés, je vais ontinuer à

travaillermonservieetmonjeuaulet,peut-êtrequ'onremettraçaundeesjours!

Je pense aussi à tous les dotorants et post-dotorantsdu labo, toutes es personnes

quipassentetrepartentetauprèsdequij'aitoujoursbeauoupappris,beauoupri, et

grandement améliorémon niveau de oinhe,de potins ou demots éhés! Envra,

jeiterai Roland, Chloé,Bertie Love,Thomas, Matthias, P-O, Pierre-Jean, Lukas,

Vinent, Euriell, Alexandre, Samuel, Christophe, Brie, Meryam, Emilie, Mélanie,

Rémi, Claire, Ibrahim, Azmi, Souleymane, David... J'en oublie sûrement beauoup

mais je vous adresse à tous un grand meri pour toutes es joyeuses années.

Plutt que de simples remeriements, les suivants peuvent aussi être lus omme

de sinères exuses. La rédation d'une thèse peut être un exerie totalitaire et j'ai

bien peur d'en avoir fait subir bien des onséquenes à mes prohes. Meri à mes

(5)

Un merispéial à mesparents pourleur soutienindéfetible, j'espère être digne

de la onane que vousm'avez toujours aordée.

Enn, meri à toi, Philippe, qui a été le garant de mon bonheur pendant toutes

es années, tu as été ma famille, mon pilier, mon repère. Je te souhaite à présent

de pouvoir en trouver un qui soit moins instable queelui que j'ai pu être.

(6)

1 Introdution générale 9

1.1 Contexte appliatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Outils de modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Classiation non supervisée dans les modèlesmixtes fontionnels . . 12

1.4 Estimationdans les modèles mixtes fontionnels . . . . . . . . . . . . 15

I Vers le modèle mixte fontionnel et la lassiation non supervisée 21 2 Modèle mixte pour données longitudinales 25 2.1 Modèle général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2 Approhe marginale. . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2.1 Estimation des eets xes par maximum de vraisemblane . . 27

2.2.2 Estimation des paramètres de variane :MLE et REML . . . 27

2.2.3 Inférene dans lemodèle marginal . . . . . . . . . . . . . . . . 28

2.3 Approhe jointe etprédition des eets aléatoires . . . . . . . . . . . 29

2.4 Algorithmesd'estimation . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Modélisation fontionnelle par ondelettes 33 3.1 Modélisationfontionnelle . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Ondelettes et espaes de Besov . . . . . . . . . . . . . . . . . . . . . 35

3.2.1 Analyse multirésolution . . . . . . . . . . . . . . . . . . . . . 35

3.2.2 Espaes de Besov . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.2.3 Transforméeen ondelettes rapide et approximation . . . . . . 40

3.2.4 Modélisationstatistiquepar ondelettes . . . . . . . . . . . . . 42

3.3 Seuillageet régressions pénalisées . . . . . . . . . . . . . . . . . . . . 43

3.3.1 Seuillage par ondelettes etrisque . . . . . . . . . . . . . . . . 43

3.3.2 Lien ave les régressions pénaliséeset propriété orale . . . . . 49

4 Modèles à variables latentes 55 4.1 Présentation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2 Estimationdans les modèles àvariableslatentes . . . . . . . . . . . . 55

(7)

4.2.1 Contexte général . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3 Un modèle de lassiation de ourbes . . . . . . . . . . . . . . . . . 60

4.3.1 Classiation non-supervisée . . . . . . . . . . . . . . . . . . . 60

4.3.2 Modèle fontionnel . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3.3 Rédution de dimension dans lesmodèlesfontionnels . . . . . 63

4.3.4 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . 64

4.4 Modèle mixtefontionnel. . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4.1 Modèle général . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4.2 Modélisationde la variabilitéindividuelle . . . . . . . . . . . . 66

II Classiation non supervisée dans les modèles mixtes fontionnels 79 5 Modèle de mélange mixte fontionnel 83 5.1 Présentation du modèle omplet . . . . . . . . . . . . . . . . . . . . . 83

5.2 Proédure d'estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.2.1 Étape de rédution de dimension . . . . . . . . . . . . . . . . 85

5.2.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . 86

5.2.3 Choix du nombre de groupes- Bayesian Information Criteria . 91 6 Appliations 93 6.1 Étude de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.1.1 Cadre de simulation . . . . . . . . . . . . . . . . . . . . . . . 93

6.1.2 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . 98

6.2 Appliationà des données réelles . . . . . . . . . . . . . . . . . . . . 102

6.2.1 Données de spetrométrie de masse . . . . . . . . . . . . . . . 103

6.2.2 Données de miroarray CGH. . . . . . . . . . . . . . . . . . . 110

III Rédution de dimension dans les modèles mixtes fontionnels 115 7 Seuillage pour le modèle hétérosedastique 119 7.1 Modèle marginaletproblématique. . . . . . . . . . . . . . . . . . . . 119

7.2 Proéduresde seuillagepourmodèleshétérosédastiquessansrépétition120 7.3 Proédures de seuillagepour modèleshétérosédastiques ave répéti- tions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

7.4 Considérations asymptotiques . . . . . . . . . . . . . . . . . . . . . . 122

7.5 Estimationde l'eet xe fontionneletrisque quadratique . . . . . . 124

7.6 Estimationdes varianes . . . . . . . . . . . . . . . . . . . . . . . . . 126

(8)

7.6.2 Estimation pénalisée . . . . . . . . . . . . . . . . . . . . . . . 127

8 Séletion de variables dans les modèles mixtes 131 8.1 Modèle etvraisemblanepénalisée. . . . . . . . . . . . . . . . . . . . 132

8.2 Propriétés asymptotiques des estimateurs . . . . . . . . . . . . . . . 133

8.2.1 Hypothèses sur les pénalités . . . . . . . . . . . . . . . . . . . 135

8.2.2 Hypothèses sur la vraisemblane . . . . . . . . . . . . . . . . . 136

8.2.3 Propriétés oraulaires . . . . . . . . . . . . . . . . . . . . . . . 137

8.3 Proédure de séletion des eets xes et aléatoires . . . . . . . . . . . 138

8.3.1 Reparamétrisation du modèle mixte fontionnel . . . . . . . . 138

8.3.2 Algorithme EM pour laséletion . . . . . . . . . . . . . . . . 140

8.3.3 Comparaison ave l'approhe de Bondelletal. (2010) . . . . . 144

9 Simulations 147 9.1 Approhe marginaleetseuillagehétérosédastique . . . . . . . . . . . 147

9.1.1 Constrution de jeux de données simulées. . . . . . . . . . . . 148

9.1.2 Proédures omparées etindiateurs de performane . . . . . 149

9.1.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

9.2 Approhe jointe etséletionde variables . . . . . . . . . . . . . . . . 154

9.2.1 Données onsidéréeset proédures testées . . . . . . . . . . . 159

9.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

9.3 Comparaison des approhes sur données réalistes. . . . . . . . . . . . 163

9.3.1 Simulation de données réalistes . . . . . . . . . . . . . . . . . 163

9.3.2 Comparaison des approhes marginaleet jointe . . . . . . . . 164

10 Conlusion et perspetives 177 10.1 Classiation non supervisée dans les modèlesmixtes fontionnels . . 177

10.2 Séletiondevariablesetestimationdanslesmodèlesmixtesfontionnels178 A Vitesse de onvergene de l'estimateur de seuillage hétérosédas- tique 181 B Propriétésoraulairespourla séletiondes eetsxeset aléatoires187 B.1 Vériation des hypothèses sur la vraisemblane . . . . . . . . . . . 187

B.2 Propriétés oraulaires des estimateurs . . . . . . . . . . . . . . . . . . 190

B.2.1 Preuve du théorème 8.1 . . . . . . . . . . . . . . . . . . . . . 190

B.2.2 Preuve du théorème 8.2 . . . . . . . . . . . . . . . . . . . . . 193

C Mise à jour des paramètres pour la proédure de séletion de variables 201 C.1 Mise àjour des paramètres d'eets xes βjk ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ²⁰¹

C.2 Mise àjour des varianesdes eets aléatoiresγ_jk ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ²⁰³

(9)

(10)

Introdution générale

1.1 Contexte appliatif

Les dernières déennies ont vu le développement rapide du domaine de la bio-

logie moléulaire et, grâe à des progrès tehniques onstants, l'émergene d'une

biologie dite à "haut-débit" se traduisant par une forte augmentation de la quan-

tité de données disponibles. L'analyse de e type de données ore au statistiien

de nombreux hallenges : en eet, une de leurs prinipales aratéristiques est que

le nombre d'individus observés (de l'ordre de la entaine) est relativement faible

devant lenombre de variablesonsidérées(souventen dizainesde milliers).Lespro-

blématiques d'intérêt restent généralement les mêmes, à savoir, la déouverte de

groupes, ladisrimination,l'estimationetlaprédition pourn'en iterquequelques

unes. Cependant, les méthodes lassiquement utilisées à es ns néessitent d'être

adaptéesàlagrandedimensionde es donnéesar ettearatéristiquelesrend peu

performantes.

Deux types de données issues du domaine de la biologie moléulaire à haut-

débitontmotivée travailde thèse: lesdonnées de miroarrayCGH(Comparative

GenomiHybridization) et les données de spetrométrie de masse. Les données de

miroarray CGH sont des données visant à l'étude du génome et plus partiuliè-

rement, à la mesure du ratio du nombre de opies des gènes entre un éhantillon

d'intérêt etun éhantillonde référene. Latehnologiedelaspetrométriede masse

vise quant à elle à l'étude du protéome et sert à déterminer, par un proédé d'io-

nisation, la omposition en protéines ou polypeptides d'un éhantillon biologique.

Unevaste littérature a été développée onernant l'étudede telles données et pour

unpanoramades approhes adoptées,nousrenvoyons leleteuràlarevue devande

Wielet al. (2011) pour les données de miroarray CGHet à la revue de Roy et al.

(2011)pour lesdonnées de spetrométrie de masse.

Les aratéristiques ommunes de es tehnologies sont de produire des don-

nées de grande dimension mesurées à haut-débit et présentant des omportements

fortement disontinus. À e titre, notre hoix de modélisation s'est porté sur une

(11)

approhe fontionnelle de l'étude de telles données. En eet, de par leurs araté-

ristiques, es données s'insrivent naturellement dans le paradigme développé par

Ramsay etSilverman (1997).Dansleur adre,des données sontdites fontionnelles

si elles sont mesurées sur une grille de disrétisation ne et régulière et pour les-

quelleslanotionde ourbesreprésente l'unitéidéaled'observation, 'est-à-direpour

lesquelleson souhaites'intéresser àdes quantités n'ayant un sens que dans une ap-

prohe fontionnelle, omme la régularité par exemple. De plus, alors que jusqu'à

présent, les eorts de reherhe ont été onentrés sur la aratérisation de la va-

riabilitédiretement imputable aux appareils de mesure, une nouvellevoie émerge,

visant à étudier la variabilité biologique propre aux individus inhérente à de telles

données. En eet, les réations physiologiques dans une ironstane donnée (fae

à une maladie par exemple), peuvent se révéler très diérentes selon les individus

onernésetlamodélisationde ettevariabilitédans l'optiqued'unemeilleureom-

préhension du phénomène étudié est atuellement un enjeu majeur. Dans le adre

del'étudede donnéesnon omplexes,lesmodèlesmixtes représententl'outild'étude

ad-ho pourla modélisationde lavariabilitéindividuelle.Dansleontexte des don-

nées omplexes, l'extension des modèles mixtes à un adre fontionnel en devient

alors l'outild'analyse privilégié.

Le doument présent est onstitué de trois parties. Dans la première partie,

nous nous attahons à la desription des prinipaux outils de modélisation statis-

tique représentant les fondements de e travail : les modèles mixtes et l'approhe

fontionnelle basée sur les ondelettes. Dans une deuxième partie et aussi première

ontribution de e travail, nous étudions la problématique de la lassiation non

supervisée au sein des modèles mixtes fontionnels. Enn, dans une troisième par-

tie, représentant la deuxième ontribution de e travail,nous nous onentrons sur

des problématiques d'estimation dans lesmodèles mixtes fontionnels au sein d'un

groupe homogèned'individus.

1.2 Outils de modélisation

Résumé de la Partie I

Dansettepartie,notre volontéest d'introduirelesprinipauxonepts assoiés

audéveloppement des ontributions proposées dans ette thèse. Nous ommençons

pardériredansunpremierhapitre,lanotiondemodèleslinéairesmixtes (Lairdet

Ware1982).Cetteintrodutionest réaliséedans leaspartiulierde lamodélisation

dedonnées longitudinales.Desdonnées sontdites longitudinaleslorsque lesmesures

réaliséessur lesdiérents individuslesontselon unegrilledetempsoud'espae, in-

duisantun ordrenaturelsurlesdonnées, etdeefait,onstituantunebasenaturelle

à une future extension aux données fontionnelles. Pour une introdution détaillée

desmodèles linéairesmixtes appliquésauxdonnées longitudinales,leleteurpourra