= 1 σ2 E XT iYi ZT i Yi . (2.9)
L'intérêt alulatoire d'un tel système est de permettre d'éviter l'étape
d'inver-siondes matriesde ovarianes(Vi)i=1,...,N enseramenantàl'inversionde matries detaillesinférieures,oustruturéesparblospourlesquellesdesalgorithmesrapides
d'inversion existent. Cependant, et avantage disparaîtlorsque l'on est onfronté à
de grands jeux de données pour lesquels la résolution numérique du système (2.9)
peutserévéleroûteusearlesdiérentsblosdeviennenteux-mêmesdetaille
onsé-quente.Onpréférera,danseas,utiliserdesalgorithmesitératifsd'estimationbasés
sur lesexpressions (2.8)et(2.4). Lesdeux prinipauxalgorithmes utiliséspour
l'es-timationausein des modèlesmixtes sontprésentés dans la setionsuivante.
2.4 Algorithmes d'estimation
Le problème d'optimisation des vraisemblanes (2.3) ou (2.5) n'admet pas de
solution expliite en règle générale. Leur maximisation néessite don le reours à
des algorithmes itératifs. Les deux prinipaux algorithmes utilisés à ette n sont
l'algorithmeEM(Dempster etal.1977)etl'algorithmede Newton-Raphson adapté
àl'estimation dans lesmodèles mixtes (Lindstrom et Bates 1988).
Pour es deux méthodes, l'utilisateur xe des valeurs de départ pour les
para-mètresdu modèle. Ces valeurs sont ensuite mises àjour à haque itération jusqu'à
est aussi onnu pour avoir une onvergene lente, surtout onernant les
estima-teurs des paramètres de variane (Laird et Ware 1982). De son oté, l'algorithme
de Newton-Raphson est un algorithme rapide de reherhe des zéros d'une
fon-tion. Une des prinipales launes de et algorithme est sa sensibilité partiulière
aux éventuelles mauvaises spéiations des paramètres de variane, 'est-à-dire à
l'introdution d'eets aléatoires non pertinents. Il onduit dans e as à des
esti-mations de varianes situées sur le bord de l'espae des paramètres, 'est-à-dire,
tendant vers zéro. Son appliation néessite don un travail de séletionen amont.
Cetteproblématiquede séletiondes eets aléatoiresseraabordéedans latroisième
partiede e manusrit dans leadre des modèles mixtes fontionnels et laquestion
destabilisationdes algorithmesd'estimationenreprésenteunepremièremotivation.
Néanmoins, en pratique, et algorithme reste aujourd'hui la méthode de résolution
laplus populaire pour lesmodèles mixtes, prinipalement du fait de sa rapidité de
onvergene. Pour une revue détaillée des problèmes liés à l'estimation des
para-mètresausein des modèlesmixtes, leleteurpourra onsulterl'ouvragede Verbeke
etMolenberghs (2000).
Auoursdeemanusrit,nousutiliseronsprinipalementl'algorithmeEMomme
algorithmed'estimationauseindesmodèlesmixtesetelui-iseradéritdemanière
détailléeauChapitre 4.Cet algorithmeprésentel'avantage,dans notreontexte, de
s'adapter naturellement à laproblématique de lassiation non supervisée au sein
desmodèlesmixtesgrâeauparadigmegénéraldesmodèlesàvariableslatentes (.f.
Modélisation fontionnelle par
ondelettes
Dansehapitre,nousprésentonslanotiondemodélisationfontionnelleàpartir
de projetion sur des bases de fontions. Nous présentons en partiulier les bases
d'ondelettes et les espaes de Besov, outil de modélisation fontionnelle privilégié
dans e manusrit et bien adapté à l'étude de données fontionnelles irrégulières.
Enn, nous introduisons les prinipales tehniques de régression non paramétrique
basée sur les ondelettes, regroupées sous le terme de tehniques de seuillage, ainsi
queleurs liens ave lalasse plus large des régressions pénalisées.
3.1 Modélisation fontionnelle
Demanièreformelle,lemodèlefontionnelsimplepeutêtre éritde lafaçon
sui-vante:nousdisposonsd'unsignalmesuréenM pointsdetemps,notést= (t1, . . . , tM). Aupointtm (m= 1, . . . , M), ona alors :
Y(tm) = µ(tm) +E(tm), ave E(tm)∼N(0, σ2E), (3.1) où Y(tm) est le signal observé, µ(tm) le signal fontionnel moyen et E(tm) un termed'erreurde mesure,haunobservéaupointtm.Dans uneapprohe fontion-nelle, es quantités sont vues omme des disrétisations de ourbes sous-jaentes Y(t), µ(t), E(t).Dans un adrede régression, lebut est alors de donnerune estima-tion de l'eet xe fontionnelmoyen µ.
Si l'on dispose de onnaissanes a priori sur les données ou sur le proessus
générant es données, on peut alors, dans le adre du modèle (3.1), se plaer dans
leadre de larégression paramétrique et ainsi, spéier une formepour lafontion µ. L'objetif est alors d'estimer les paramètres gouvernant le modèle. L'exemple le plus simple d'une telle approhe est la régression linéaire où l'ajustement du
de régression. Cependant, lamodélisationparamétrique peut rapidement se révéler
trop ontraignante pour ertaines appliations.
Par oppositionauadre paramétrique, une autre stratégieappelée non
paramé-trique onsiste, dans le modèle (3.1), à ne pas spéier de forme partiulière pour
lafontion µ et don de se plaer dans un espae de dimension innie. Leprinipe est alors de faire peu d'hypothèses sur la fontion de régression µ. Usuellement, on se limite à supposer qu'elle appartient à un ertain espae fontionnel. Dans la
suitede e travail,nous nous intéresseronsplus partiulièrementauxfontionsd'un
sous-espae de L2([0,1]), ensemble des fontions de arré intégrable à support sur l'intervalle[0,1].
L'objetif dans e adreest alors de onstruire un estimateurde lafontion µ à partir de la onnaissane des données. Une tehnique lassique pour atteindre et
objetif onsiste à projeter les fontions du modèle sur une base de fontions de
l'espaefontionnelonsidéré.
Ainsi, pour {φk}k une base de Hilbert de l'espae L2([0,1]), toute fontion f ∈L2([0,1]) peut être représentée ommesuit :
f(t) = ∞
X k=0
ρkφk(t),
oùρk =hf, φkiestlek-ièmeoeientdelaprojetiondef danslabasedefontions etl'appliation h·,·i,le produitsalaire anoniquede l'espaeL2([0,1]).
Ilexistedenombreusesbasesdefontionsenvisageablespourtraitereproblème.
Toutes possèdent des propriétés propres les rendant adaptées ou non à diérents
typesde données etlehoixde ettebasedoitdon sefaireen aordave les
hypo-thèsesfaitessur lesdonnées. Ainsi,lesfontionssplines(Wahba1990)sontonnues
pourêtre partiulièrementadaptées àl'étudede données mesurées enpeu depoints
de disrétisationetmodéliséespar des fontionslisses tandisque lesrégressions
po-lynomialessont plus adaptées au traitement des données possédant un design plus
dense(Fan etGijbels1996).
Tout au long de e manusrit, nous nous onentrerons plus partiulièrement
sur un autre type de base de fontions : lesbases d'ondelettes. Celles-i possèdent,
ommenousledétailleronsplustard,despropriétésintéressantesentermesde
repré-sentation de l'information ontenue dans un signal et permettent de modéliser une
grandevariétéde struturesfontionnellesdontdes ourbesprésentantdes
disonti-nuités.Cedernierpointestapitalpour lessignauxquenousherhonsàtraiterar
lamajeurepartiedel'informationestsituéepréisémentdanslesirrégularitésde es