Algorithmes d'estimation - Classification non supervisée et sélection de variables dans les mod

= ¹ σ2 E _X_T iY_i Z^T i Y_i . (2.9)

L'intérêt alulatoire d'un tel système est de permettre d'éviter l'étape

d'inver-siondes matriesde ovarianes(V_i)_i₌₁_,...,N enseramenantàl'inversionde matries detaillesinférieures,oustruturéesparblospourlesquellesdesalgorithmesrapides

d'inversion existent. Cependant, et avantage disparaîtlorsque l'on est onfronté à

de grands jeux de données pour lesquels la résolution numérique du système (2.9)

peutserévéleroûteusearlesdiérentsblosdeviennenteux-mêmesdetaille

onsé-quente.Onpréférera,danseas,utiliserdesalgorithmesitératifsd'estimationbasés

sur lesexpressions (2.8)et(2.4). Lesdeux prinipauxalgorithmes utiliséspour

l'es-timationausein des modèlesmixtes sontprésentés dans la setionsuivante.

2.4 Algorithmes d'estimation

Le problème d'optimisation des vraisemblanes (2.3) ou (2.5) n'admet pas de

solution expliite en règle générale. Leur maximisation néessite don le reours à

des algorithmes itératifs. Les deux prinipaux algorithmes utilisés à ette n sont

l'algorithmeEM(Dempster etal.1977)etl'algorithmede Newton-Raphson adapté

àl'estimation dans lesmodèles mixtes (Lindstrom et Bates 1988).

Pour es deux méthodes, l'utilisateur xe des valeurs de départ pour les

para-mètresdu modèle. Ces valeurs sont ensuite mises àjour à haque itération jusqu'à

est aussi onnu pour avoir une onvergene lente, surtout onernant les

estima-teurs des paramètres de variane (Laird et Ware 1982). De son oté, l'algorithme

de Newton-Raphson est un algorithme rapide de reherhe des zéros d'une

fon-tion. Une des prinipales launes de et algorithme est sa sensibilité partiulière

aux éventuelles mauvaises spéiations des paramètres de variane, 'est-à-dire à

l'introdution d'eets aléatoires non pertinents. Il onduit dans e as à des

esti-mations de varianes situées sur le bord de l'espae des paramètres, 'est-à-dire,

tendant vers zéro. Son appliation néessite don un travail de séletionen amont.

Cetteproblématiquede séletiondes eets aléatoiresseraabordéedans latroisième

partiede e manusrit dans leadre des modèles mixtes fontionnels et laquestion

destabilisationdes algorithmesd'estimationenreprésenteunepremièremotivation.

Néanmoins, en pratique, et algorithme reste aujourd'hui la méthode de résolution

laplus populaire pour lesmodèles mixtes, prinipalement du fait de sa rapidité de

onvergene. Pour une revue détaillée des problèmes liés à l'estimation des

para-mètresausein des modèlesmixtes, leleteurpourra onsulterl'ouvragede Verbeke

etMolenberghs (2000).

Auoursdeemanusrit,nousutiliseronsprinipalementl'algorithmeEMomme

algorithmed'estimationauseindesmodèlesmixtesetelui-iseradéritdemanière

détailléeauChapitre 4.Cet algorithmeprésentel'avantage,dans notreontexte, de

s'adapter naturellement à laproblématique de lassiation non supervisée au sein

desmodèlesmixtesgrâeauparadigmegénéraldesmodèlesàvariableslatentes (.f.

Modélisation fontionnelle par

ondelettes

Dansehapitre,nousprésentonslanotiondemodélisationfontionnelleàpartir

de projetion sur des bases de fontions. Nous présentons en partiulier les bases

d'ondelettes et les espaes de Besov, outil de modélisation fontionnelle privilégié

dans e manusrit et bien adapté à l'étude de données fontionnelles irrégulières.

Enn, nous introduisons les prinipales tehniques de régression non paramétrique

basée sur les ondelettes, regroupées sous le terme de tehniques de seuillage, ainsi

queleurs liens ave lalasse plus large des régressions pénalisées.

3.1 Modélisation fontionnelle

Demanièreformelle,lemodèlefontionnelsimplepeutêtre éritde lafaçon

sui-vante:nousdisposonsd'unsignalmesuréenM pointsdetemps,notést= (t1, . . . , tM). Aupointtm (m= 1, . . . , M), ona alors :

Y(tm) = µ(tm) +E(tm), ave E(tm)∼N(0, σ²_E), (3.1) où Y(tm) est le signal observé, µ(tm) le signal fontionnel moyen et E(tm) un termed'erreurde mesure,haunobservéaupointtm.Dans uneapprohe fontion-nelle, es quantités sont vues omme des disrétisations de ourbes sous-jaentes Y(t), µ(t), E(t).Dans un adrede régression, lebut est alors de donnerune estima-tion de l'eet xe fontionnelmoyen µ.

Si l'on dispose de onnaissanes a priori sur les données ou sur le proessus

générant es données, on peut alors, dans le adre du modèle (3.1), se plaer dans

leadre de larégression paramétrique et ainsi, spéier une formepour lafontion µ. L'objetif est alors d'estimer les paramètres gouvernant le modèle. L'exemple le plus simple d'une telle approhe est la régression linéaire où l'ajustement du

de régression. Cependant, lamodélisationparamétrique peut rapidement se révéler

trop ontraignante pour ertaines appliations.

Par oppositionauadre paramétrique, une autre stratégieappelée non

paramé-trique onsiste, dans le modèle (3.1), à ne pas spéier de forme partiulière pour

lafontion µ et don de se plaer dans un espae de dimension innie. Leprinipe est alors de faire peu d'hypothèses sur la fontion de régression µ. Usuellement, on se limite à supposer qu'elle appartient à un ertain espae fontionnel. Dans la

suitede e travail,nous nous intéresseronsplus partiulièrementauxfontionsd'un

sous-espae de L2([0,1]), ensemble des fontions de arré intégrable à support sur l'intervalle[0,1].

L'objetif dans e adreest alors de onstruire un estimateurde lafontion µ à partir de la onnaissane des données. Une tehnique lassique pour atteindre et

objetif onsiste à projeter les fontions du modèle sur une base de fontions de

l'espaefontionnelonsidéré.

Ainsi, pour {φk}k une base de Hilbert de l'espae L2([0,1]), toute fontion f ∈L2([0,1]) peut être représentée ommesuit :

f(t) = ∞

X k=0

ρkφk(t),

oùρk =hf, φkiestlek-ièmeoeientdelaprojetiondef danslabasedefontions etl'appliation h·,·i,le produitsalaire anoniquede l'espaeL2([0,1]).

Ilexistedenombreusesbasesdefontionsenvisageablespourtraitereproblème.

Toutes possèdent des propriétés propres les rendant adaptées ou non à diérents

typesde données etlehoixde ettebasedoitdon sefaireen aordave les

hypo-thèsesfaitessur lesdonnées. Ainsi,lesfontionssplines(Wahba1990)sontonnues

pourêtre partiulièrementadaptées àl'étudede données mesurées enpeu depoints

de disrétisationetmodéliséespar des fontionslisses tandisque lesrégressions

po-lynomialessont plus adaptées au traitement des données possédant un design plus

dense(Fan etGijbels1996).

Tout au long de e manusrit, nous nous onentrerons plus partiulièrement

sur un autre type de base de fontions : lesbases d'ondelettes. Celles-i possèdent,

ommenousledétailleronsplustard,despropriétésintéressantesentermesde

repré-sentation de l'information ontenue dans un signal et permettent de modéliser une

grandevariétéde struturesfontionnellesdontdes ourbesprésentantdes

disonti-nuités.Cedernierpointestapitalpour lessignauxquenousherhonsàtraiterar

lamajeurepartiedel'informationestsituéepréisémentdanslesirrégularitésde es

Dans le document Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire (Page 31-36)