Contribution à la statistique des processus : modélisation et applications

(1)

HAL Id: tel-00762189

https://tel.archives-ouvertes.fr/tel-00762189

Submitted on 6 Dec 2012

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Contribution à la statistique des processus :

modélisation et applications

Anne Gegout-Petit

To cite this version:

Anne Gegout-Petit. Contribution à la statistique des processus : modélisation et applications. Statis-tiques [math.ST]. Université Sciences et Technologies - Bordeaux I, 2012. �tel-00762189�

(2)

UNIVERSITÉ BORDEAUX I

ECOLE DOCTORALE MATHÉMATIQUE ET INFORMATIQUE MÉMOIRE

pour obtenir

L’HABILITATION À DIRIGER DES RECHERCHES

Mention : Mathématiques appliquées

Présenté par Anne Gégout-Petit

Contribution à la statistique des processus :

modélisation et applications

préparé à l’Institut Mathématiques de Bordeaux et à INRIA Bordeaux Sud-Ouest, Equipe CQFD

19 novembre 2012

Jury :

Rapporteurs : _{Odd Aalen} Université d’Oslo

Fabienne Comte Université Paris Descartes

Jean-François Delmas Ecole Nationale des Ponts et Chaussées

Présidente : _{Sylvie Méléard} Ecole Polytechnique

Examinateurs : _{Daniel Commenges} INSERM

François Dufour Institut Polytechnique de Bordeaux

(3)

(4)

Remerciements

Je tiens tout d’abord à remercier chaleureusement Odd Aalen, Fabienne Comte et Jean-François Delmas qui, en cette période chargée de dossiers à rédiger, ont accepté de prendre le temps d’évaluer ce document de synthèse. Je suis bien évidemment très honorée de recevoir des avis positifs de personnalités scientifiques aussi prestigieuses.

Sylvie Méléard a été témoin de tous les moments clés de ma carrière y compris ceux qui ne m’ont pas menée tout droit vers cette habilitation. J’ai toujours apprécié sa lecture profondément humaine et sensible des situations et je suis particulièrement touchée de sa présence à Bordeaux pour cette nouvelle étape. Daniel Commenges m’a accueillie dans son équipe de biostatistique de l’INSERM alors que j’étais PRAG à l’Institut de Santé Publique de Bordeaux et a su créer un environnement propice à la reprise de mes activités de recherche, je l’en remercie. Je suis aussi tout particulièrement reconnaissante à François Dufour dont j’apprécie chaque jour les qualités professionnelles et humaines et qui m’a accordé sa confiance en me proposant de faire partie du projet INRIA CQFD, me permettant ainsi de bénéficier d’un environnement scientifique des plus dynamisants. L’aura et l’énergie d’Etienne Pardoux accompagnent ses étudiants longtemps après la thèse et c’est un très grand plaisir pour moi qu’il participe à ce jury.

Cette habilitation est aussi celle de mes coauteur-e-s : Benoîte de Saporta avec laquelle je confronte idées, humeurs et eaux chaudes presque chaque jour et bien sûr Laurence Marsalle qui rétablit l’ordre alphabétique entre femmes et hommes et complète efficacement notre trio ; Bernard Bercu qui a fait bifurquer mes recherches vers les BAR (j’explore toujours la branche !), Daniel Commenges, François Dufour et Jérôme Saracco. J’aime confronter les disciplines avec Marie Touzet et Lucia Guérin. Romain Azaïs et Camille Baysse sont de biens charmants cobayes sur lesquels j’ai exercé la direction de recherche avant cette habilitation.

Cette habilitation est aussi celle des personnes qui m’ont encouragée à la préparer, parmi elles mon mari Michel est sûrement le premier, il y a aussi beaucoup d’autres personnes dont Avner Bar-Hen, Gérard Biau, Thierry Colin, Michel Langlais, ...

Je n’aurais pu réaliser ce travail sans un environnement professionnel porteur et épa-nouissant : celui de l’ISPED et son équipe pédagogique des plus stimulantes : Marthe-Aline, Pierre, Valérie, Alioum notamment ; de l’UFR Sciences et Modélisation où règne un doux climat de "résistance" pour continuer à exercer au mieux notre mission de service public au-près des étudiants : Frédérique, Manue, Brigitte, Olivier, Vincent, Pierrick... et celui de mes collègues de l’IMB et d’INRIA (plusieurs ont déjà été cités) : Héloïse, Lisl, Cécile avec une mention toute spéciale à Marie Chavent et Jérôme Saracco. Ces derniers m’ont embarqué dans l’aventure JdS 2009 et SFdS qui a permis de fructueuses et enrichissantes collabora-tions avec Gérard Biau et Jean-Michel Poggi notamment. L’inclassable (et presque toujours formidable !) Ingrid Rochel m’assiste efficacement et assure l’ambiance dans ces différentes structures. J’aurais aimé dire plus et mieux sur chacune des personnes citées ici ainsi qu’à beaucoup d’autres personnes encore. A tous, je vous redis merci.

Last but not least, mes trois grands enfants ont su me dire qu’ils tenaient à ce que je persévère dans la voie scientifique, je leur dédie ce modeste mémoire.

(5)

(6)

Table des matières

Introduction v

1 Les processus pour l’étude des modèles d’histoire de vie 1

1.1 Vraisemblance et mécanisme d’observation . . . 1

1.1.1 Applications aux critères de choix de modèle . . . 3

1.2 Vraisemblance et modèle multi-états partiellement observés . . . 4

1.2.1 Processus multi-états et processus ponctuels . . . 4

1.2.2 Vraisemblance . . . 5

1.3 Indépendance locale entre processus . . . 6

1.3.1 Contexte . . . 6

1.3.2 Indépendance locale . . . 7

1.3.3 Représentation par un graphe . . . 9

1.3.4 Interprétation causale . . . 10

1.3.5 Lien avec l’indépendance conditionnelle . . . 11

1.4 Conclusion . . . 11

2 Processus de bifurcation 13 2.1 Contexte . . . 13

2.2 Quelques notations sur les arbres binaires . . . 15

2.3 Modèle pour la généalogie . . . 15

2.3.1 Définition . . . 16

2.3.2 Processus de Galton-Watson associé et propriétés . . . 17

2.4 Modèles de BAR . . . 18

2.4.1 BAR asymétrique d’ordre p . . . 18

2.4.2 BAR(1) avec données manquantes . . . 20

2.4.3 Observation de plusieurs arbres . . . 22

2.4.4 BAR à coefficients aléatoires . . . 24

2.5 La convergence presque sûre . . . 27

2.5.1 Méthode martingale . . . 27

2.5.2 Méthode chaînes de Markov bifurquantes . . . 29

2.6 Vitesse et loi forte quadratique . . . 30

2.7 Normalité asymptotique . . . 32

2.8 Etude de simulation et application au problème de vieillissement d’E. Coli . . 33

2.8.1 Problématique biologique . . . 33

(7)

iv TABLE DES MATIÈRES

2.8.2 Application aux données et simulation . . . 34

2.9 Conclusion et perspectives . . . 37

3 Travail autour des PDMP 39 3.1 Définition d’un PDMP . . . 39

3.2 Principe de la quantification optimale . . . 42

3.3 Modèles de propagation de fissures . . . 43

3.3.1 Contexte . . . 43

3.3.2 Modèle . . . 44

3.4 Estimation de l’intensité de saut d’un PDMP . . . 45

3.4.1 Contexte . . . 45

3.4.2 Cas fini et transition non-dépendante du temps . . . 46

3.4.3 Cas continu et transition non-dépendante du temps . . . 48

3.4.4 Q dépendant du temps . . . . 51

3.5 Modélisation d’un HUMS . . . 54

3.5.1 Modèle de Markov caché pour la détection d’un état dégradé . . . 54

3.5.2 Arrêt optimal pour une maintenance conditionnelle . . . 56

3.6 Quantification optimale et méthode SIR . . . 57

3.6.1 Estimation de l’EDR . . . 59

3.6.2 Loi conditionnelle de Y sachant X . . . . 59

4 Soutien méthodologique aux chercheurs d’autres disciplines 63 4.1 Modélisation de la dynamique de l’ESCA . . . 63

4.1.1 Contexte . . . 63

4.1.2 Etude temporelle . . . 64

4.1.3 Etude spatiale et spatio-temporelle . . . 64

4.2 Normes et traitements en pneumologie . . . 65

Bibliographie 69 Publications personnelles citées . . . 69

(8)

Introduction

Mes travaux de thèse de doctorat qui relèvent du calcul stochastique ont donné lieu à la publication de deux articles dans des revues internationales : le premier porte sur l’existence et l’unicité de la solution d’une Equation Différentielle Rétrograde Réfléchie dans un convexe (1). Le second, dans le prolongement des travaux de Jean Picard (114), propose un filtre approché et établit ses propriétés de convergence dans le cadre d’un processus partiellement observé (fonction d’observation dépendant d’une seule des composantes du processus à observer) (2). Suite à mes différentes affectation sur des postes du secondaire, mon activité de recherche s’est interrompue. Mon affectation en septembre 2001 sur un poste de professeur agrégé détaché à l’Institut de Santé Publique et du Développement (ISPED) de l’Université Bordeaux 2, m’a placée dans un cadre propice à la reprise progressive d’activités de recherche grâce mon intégration de l’équipe INSERM de Biostatistique. Le présent document décrit donc les travaux que j’ai menés depuis l’année 2003 et jusqu’à ce jour.

C’est l’étude ou l’utilisation des processus stochastiques qui unit l’ensemble de ces tra-vaux. Même si certains des résultats sont purement théoriques, l’application potentielle était présente ou imaginée lors de leur élaboration. C’est pourquoi les processus à sauts constituent une partie de l’objet d’étude dont certains très élaborés comme les Processus Markoviens Dé-terministes par Morceaux (PDMP) ; ces processus sont en effet souvent utilisés pour modéliser des problématique d’histoire de vie ou de survie en biostatistique ou l’état de systèmes com-plexes dans des problématiques de sûreté de fonctionnement. Une seconde thématique est consacrée à l’estimation de certains paramètres des processus de bifurcation adaptés à la modélisation de la division cellulaire binaire, soit la modélisation de la stricte descendance de la cellule, soit la modélisation d’une valeur quantitative attachée à chacune de ces cellules et modélisée par un processus autorégressif adapté à l’arbre binaire. Enfin, puisque nous sommes "dans la vraie vie" et que dans celle-ci l’observation des phénomènes est souvent partielle ou bruitée, les notions d’observation partielle ou de données non observées ou manquantes sont la plupart du temps prises en compte ou étudiées spécifiquement.

Notre présentation est divisée en quatre chapitres. Le premier présente les problématiques étudiées lorsque j’étais à l’équipe INSERM de biostatistique et traite de l’utilisation des processus pour la modélisation des modèles d’histoire de vie et de survie. Le second traite de nos travaux sur les processus de bifurcation avec application à la division cellulaire. Les travaux réalisés dans le cadre de l’équipe INRIA CQFD, souvent liés aux PDMP et parfois dans le cadre de collaborations industrielles et/ou de projet ANR font l’objet du chapitre suivant. Enfin, au chapitre quatre, nous présentons des collaborations avec des collègues d’autres disciplines qui correspondent à du soutien méthodologique en statistique.

(9)

(10)

Chapitre 1

Les processus pour l’étude des

modèles d’histoire de vie

Ce chapitre présente les travaux réalisés en collaboration avec Daniel Commenges (plus Pierre Joly et Benoît Liquet pour l’article (4)) lorsque j’étais dans l’équipe INSERM de biosta-tistique E0338 . Cette équipe développe des modèles appliqués en épidémiologie notamment par les autres équipes INSERM de santé publique, spécialistes par exemple de l’épidémiologie du VIH ou de la maladie d’Alzheimer. Mon insertion en tant que probabiliste a été possible par une approche théorique des modèles étudiés. D’un point de vue général, la thématique de recherche est « l’étude mathématique des modèles de survie et d’histoire de vie dans le cadre de données censurées ». Nous avons travaillé sur trois thèmes qui se recoupent : d’une part la modélisation du mécanisme menant aux données manquantes et son lien avec l’infé-rence sur le processus d’intérêt. Cette problématique, présentée à la section 1.1, est présente dans les trois articles publiés (3), (4) et (7). D’autre part nous avons justifié les écritures de vraisemblance, souvent heuristiques dans les articles de biostatistique, de modèle multi-états partiellement observé. C’est l’objet de la section 1.2 correspondant à l’article (3). Enfin, à la section 1.3.1 nous présentons les notions d’indépendance locale entre processus et le lien avec la causalité correspondant aux deux articles publiés (7) et (8).

1.1 Vraisemblance et mécanisme d’observation

Supposons que l’on veuille faire de l’inférence à partir de données "partiellement obser-vées" ; ce terme ne s’entend pas ici comme le "partiellement observé" du titre de ma thèse mais tente de traduire le "Coarsened Observations" du titre de l’article (3). Le processus d’intérêt n’est pas observé pour tout t ∈R et peut par exemple être censuré à droite (ce qui est standard dans des études de modèles de survie ou d’histoire de vie), ou observé à des dates ponctuelles (visites dans un établissement de santé, ou examens réguliers des études de cohortes) ce qui correspond à une censure par intervalle. On peut bien sûr varier les sché-mas d’observations en combinant observations ponctuelles et sur des intervalles. Un exemple concret d’observation mêlant observations ponctuelles et par intervalle est donné à la section 5.2. de (3) au sujet d’un modèle à cinq états "Démence-Institutions-Décès".

Pour faire une inférence correcte à partir des données observées, il convient de

(11)

2CHAPITRE 1. LES PROCESSUS POUR L’ÉTUDE DES MODÈLES D’HISTOIRE DE VIE

déliser le mécanisme d’observation et d’en vérifier le lien avec les données d’intérêt. Soit

X = (X1, . . . Xp) le processus d’intérêt à p composantes étudié sur un intervalle I = [0, C] :

Xj = (Xjt)t∈I pour 1 ≤ j ≤ p. Un mécanisme d’observation déterministe de X est résumé

par la donnée de r = (r1, . . . , rp) tel que pour tout j et t ∈ I, rj(t) = 1 si et seulement si

Xj(t) est observé à l’instant t. La tribu X engendrée par X et la tribu Xr des observations

de X sont alors définies par

X = σ{X_jt, t ∈ I, 1 ≤ j ≤ p} Xr _{= σ{r}

j(t)Xjt, t ∈ I, 1 ≤ j ≤ p}.

Bien sûr, un mécanisme d’observation n’est pas forcément déterministe et dans ce cas, on le notera R = (R1, . . . Rp). Pour en étudier la σ-algèbre notamment dans le cas d’observations

ponctuelles, il peut être nécessaire de représenter R lui-même par des processus ponctuels (voir pour cela la section 6.1. de l’article (51)). De même, les observations ponctuelles du pro-cessus d’intérêt peuvent nécessiter une représentation par un propro-cessus marqué. Cependant nous gardons la définition empirique suivante de la filtration et de la σ-algèbre observée sur I = [0, C] :

O_t= {R_j(s), R_j(s)X_js, s ≤ t, 1 ≤ j ≤ p} O = {R_j(t), R_j(t)N_jt, t ∈ I, 1 ≤ j ≤ p}. Si le mécanisme qui mène aux données manquantes est déterministe, alors O = Xr ⊂ X et la vraisemblance des observations est donnée simplement par Lθ_O =E0[LθX|Xr]. En revanche,

si R est aléatoire, sans hypothèse sur les liens entre les processus R et X, l’inférence sur X à partir de la tribu O n’est pas forcément la même que l’inférence que l’on ferait avec les observations de X si R était déterministe. En effet, les informations apportées par O sur le processus X ne se réduisent pas forcément à Xr sur l’événement (R = r). En effet d’une part, on n’a pas forcément O ⊂ X et de plus R peut être informatif sur le processus d’intérêt.

Soyons plus précis. Un modèle pour (X, R) est une famille de mesures {P_θψ}_{(θ,ψ)∈Θ×Ψ} sur un espace mesurable (Ω, F ). On pose F = R ∨ X . La vraisemblance à considérer pour une probabilité de référence P₀ donnée, est LPθψ/P0

F dont il va falloir prendre l’espérance

condi-tionnelle sachant O. Seul θ, qui donne des informations sur la loi de X, nous intéresse pour l’inférence. Aussi il faut "détricoter" θ et ψ d’une part et les informations venant de X et de

R dans F d’autre part. Plusieurs hypothèses sont données dans (4) à ce sujet. Premièrement,

le paramètre ψ doit être un paramètre de nuisance, c’est-à-dire que la restriction de Pθψ à

X ne dépend pas de ψ. Ensuite on doit avoir une condition de "non-information" sur le mé-canisme d’observation qui se traduit par le fait que la loi conditionnelle sachant X , P_θψ(.|X ) ne dépend pas de θ. Enfin, LP1/P0

R/X doit être O-mesurable pour toute probabilité P0 et P1

dans une famille de probabilité Q contenant {P_θψ}_{(θ,ψ)∈Θ×Ψ}. On dit alors que le mécanisme d’observation est CAR pour Coarsenong at Random. Sous ces hypothèses, en utilisant la décomposition LPθψ/P0

F = L Pθψ/P0

R/X L Pθψ/P0

X , on montre que pour de l’inférence sur θ, il suffit de

considérer E_P₀[LP_Xθ/X/P0/X|O]. Sous ces conditions, on peut presque reprendre les notations naïves du début de section et considérer Lθ_O=E₀[Lθ_X|O].

Ce résultat étant établi, sans condition supplémentaire, comme O * X , le calcul de l’espérance conditionnelle n’est pas facile. C’est pourquoi, il est intéressant d’étudier des

(12)

1.1. VRAISEMBLANCE ET MÉCANISME D’OBSERVATION 3

conditions dites d’ignorabilité, c’est-à-dire que l’inférence connaissant O est la même que l’inférence sachant Xrsur l’événement (R = r). Autrement dit, on procède comme si R avait été déterministe. Bien sûr cette notion n’est soigneusement définie que si (R = r) est de mesure non nulle (car les vraisemblances sont définies à un ensemble négligeable près). On peut trouver des conditions d’ignorabilité dans l’article (51). Ces conditions ne nécessitent pas l’indépendance des deux processus R et X mais de manière heuristique on peut les exprimer par "le processus R ne dépend pas des parties non-observées de X". On aura ignorabilité par exemple si le processus R est Ot prévisible. Ce cas est un cas particulier de la condition

CAR(DYN) énoncée dans la proposition 1.1.1. Nous le verrons, sa formulation est proche de la définition de l’indépendance locale que nous verrons à la section 1.3.2. Indépendamment de ce résultat, nous montrons au paragraphe 4.5. de (3) que la censure par le décès est un mécanisme ignorable.

Proposition 1.1.1 Supposons que le processus d’observation R est représenté par un proces-sus marqué Y , alors on dit que (X, R) satisfait la condition CAR(DYN) si le compensateur de Y est le même dans les deux filtrations O_t et F_t∗ = X ∨ O_t.

Sous la condition CAR(DYN), le mécanisme d’observation est ignorable.

1.1.1 Applications aux critères de choix de modèle

Nous avons utilisé la notion de Coarsening At Random pour établir un critère de choix de modèle pour l’inférence d’un modèle multi-états (voir section 1.2.1 pour une définition) dans un cadre partiellement observé. C’est l’objet de (4). En effet, il peut être utile d’avoir un ou des critères pour choisir par exemple entre un modèle multi-états markovien ou semi-markovien, pour choisir la dépendance par rapport aux covariables de manière multiplicative ou additive (101), ou pour choisir des paramètres de lissage, etc ... Pour cela, nous utilisons le critère EKL pour Expected Kullback Leibler et une approximation de EKL par un critère noté LCV pour Likelihood-based Cross Validation. Les définitions précises de ces critères sont disponibles dans (4). Nous ne sommes pas, comme nos co-auteurs pour cet article B. Liquet et D. Commenges spécialistes de choix de modèles, aussi nous ne passerons pas de temps sur ce sujet, sauf pour dire qu’une étude soigneuse du mécanisme de "coarsening" est nécessaire pour remplacer la tribu X par la tribu O dans les vraisemblances et dans les critères EKL et LCV. C’est notre contribution à ce travail.

Dans (4) nous généralisons aussi cette notion de CAR au cas où l’étude du processus d’intérêt X tient compte de l’information d’un processus de variables aléatoires explicatives

Z = (Zt)t∈I complètement observé. Nous supposons que seule la loi de X sachant Z a de

l’intérêt pour le statisticien (pas la loi marginale de Z). Le modèle a alors trois paramètres : γ qui paramétre la loi de Z, ψ la loi de R sachant X et Z, et θ la loi de X sachant Z. Des conditions de type CAR sont données dans ce cas et elles impliquent que seule la maximisation

deE_P₀[LP_{X |Z}θ/(X ,Z)/P0/(X ,Z)|O] est utile pour l’inférence sur θ. On peut alors considérer les critères

(13)

1.2 Vraisemblance et modèle multi-états partiellement

obser-vés

Le travail présenté ici, en collaboration avec Daniel Commenges, est la justification des écritures de fonction de vraisemblance dans le cas d’un processus ponctuel ou d’un processus multi-états partiellement observé correspondant à l’article (3).

1.2.1 Processus multi-états et processus ponctuels

Les modèles multi-états sont utilisés depuis longtemps par les bio-statisticiens notamment pour leur applications en biologie et épidémiologie. Un processus multi-états est un processus en temps continu, continu à droite prenant un nombre fini de valeurs, c’est donc un processus de Markov en temps continu comme défini par exemple dans (72)[Chapitre 7]. C’est à la fin des années 1970 que les modèles de Markov homogènes ont laissé la place à des modèles non-homogènes notamment dans Fleming (74), Aalen et Johansen (33), Lagakagos (98). Le modèle le plus étudié est bien sûr le célèbre modèle "illness-death" (34; 96). De nos jours, l’estimation des modèles multi-états est toujours étudiée d’un point de vue théorique comme par exemple dans (102; 48; 125; 97) et les applications en épidémiologie sont multiples (46; 124; 94).

Dans (33) et (35, Section IV.4), les auteurs utilisent les processus de comptage des tran-sitions pour utiliser les techniques usuelles d’inférence des processus ponctuels (l’estimateur de Nelson-Aalen !) pour faire de l’inférence sur les intensités de transition du processus multi-états étudiés. C’est ce que nous voulons faire ici pour écrire la vraisemblance d’un processus multi-états. En effet dans les applications biomédicales, la vraisemblance est souvent écrite de manière heuristique et nous voulons justifier rigoureusement les écritures de vraisemblance en faisant le lien entre les processus multi-états et les processus ponctuels puis en formalisant le mécanisme qui a mené aux données observées qui sont souvent incomplètes.

Soit (Xt) un processus multi-états à valeurs dans {0, 1, . . . , K − 1} sur un espace de

probabilité (Ω, F ,P). On appelle (A_t) la famille des Q-matrices associée à (X_t), A_t= (α_hj(t)) vérifiant les hypothèses habituelles : si h 6= j, αhj(t) ≥ 0 et αhh(t) = −Pj6=hαhj(t) et liée aux

probabilités de transition par les équations de Kolmogorov. Si le modèle n’est pas Markovien, ces intensité de transition sont en fait aléatoires et prévisibles dans la filtration considérée, on a alors α_hj(t, F_t−). Nous l’avons dit plus haut le processus d’intérêt n’est pas toujours complètement observé et la tribu Ft n’est pas forcément la filtration naturelle du processus

d’intérêt. Nous supposons que le processus multi-états est irréversible (i.e. α_hj(t) = 0 si h > j). Dans ce cas, nous donnons une représentation du processus (Xt) par un processus

ponctuel multivarié N = (N1, . . . , Np) où chacun des Nk est un processus à 1 saut. Cette

représentation est différente de celle de (33), nous ne la détaillons pas ici mais elle permet d’exprimer les intensités λ_kdes N_k en fonction des intensités de transition α_hj de (X_t). C’est l’objet du Théorème 1 de (3). On a alors que les filtrations engendrées par (Xt) et (Nt) sont

les mêmes, ce qui va nous permettre d’écrire la vraisemblance de (X_t) à partir des formules de vraisemblance de (N_t).

(14)

1.2. VRAISEMBLANCE ET MODÈLE MULTI-ÉTATS PARTIELLEMENT OBSERVÉS5

1.2.2 Vraisemblance

Jacod en 75 (91) a donné la formule de changement de probabilité pour des processus ponctuels marqués très généraux dans une filtration naturelle du processus N de la forme F_t= F₀∨N_tpour t ∈ I. Aalen (33), en se basant sur des résultats de Jacod et Mémin (92), en a déduit une formule simple du rapport de vraisemblance de processus ponctuels multivariés à un saut dans le cas d’une intensité absolument continue en prenant pour probabilité de référence, la probabilité P₀ qui rend les N_j indépendants et d’intensité 1. A l’aide de cette formule, si on suppose que I = [0, C], on peut alors écrire facilement la vraisemblance d’une probabilité Pθ<<P0 relativement àP0. Si dans cette vraisemblance, on enlève les termes qui

ne dépendent pas de θ, on a par abus de notation :

Lθ_F C = f θ C( ˜T1, . . . , ˜Tp) p Y j=1 eT˜j _p.s. avec ˜Tj = min(Tj, C), δj =1{ ˜Tj<C} et f_Cθ(s1, . . . , sp) = p Y j=1 h λθ_j( ˜Tj; ˜Tl∧ ˜Tj, l = 1, . . . , p) iδj exp[−Λθ_.(C, ˜Tl∧ C, l = 1, . . . , p)].

Ici, l’écriture est donnée dans le cadre non-markovien et la dépendance au passé est explici-tement décrite au travers de l’écriture de λθ en fonction des sauts passés.

Supposons maintenant que le processus Xt n’est que partiellement observé et que les

conditions d’ignorabilité sont satisfaites. La probabilitéP0qui rend les temps Tj indépendants

est particulièrement propice au calcul de l’espérance conditionnelle Lθ_O =E₀[Lθ_F

C|N

r

C]. Nous

donnons l’écriture de cette vraisemblance lorsque une seule des composantes de N est observée par intervalle et les autres sont complètement observées. C’est l’objet du lemme suivant.

Lemme 1.2.1 Pour N₁ observé aux temps discrets v₀, . . . , vm et Nk (2 ≤ k ≤ p) observés

en temps continu, la vraisemblance de N est donnée par

Lθ_O = m X l=1 1{vl−1<T1≤vl} p Y j=2 g(Γ) e−vl−1−evl Z vl vl−1 f_Cθ(s, Γ)ds +1_{T₁_>v_m_}g(Γ)evm " Z C vm f_Cθ(s, Γ)ds + f_Cθ(C, Γ) # avec Γ = ( ˜T1, . . . , ˜Tp), g(Γ) =Qpj=2e ˜ Tj _{et f}θ

C(t, Γ) une abbréviation pour fCθ(t, ˜T2, . . . , ˜Tp).

Nous donnons au Lemme 2 de (3) la formule obtenue lorsque les deux premières composantes sont observées par intervalle et l’on comprend rapidement que la formule se généralise mais qu’elle est de plus en plus difficile à écrire. C’est pourquoi nous montrons que le calcul de l’espérance conditionnelle dans le schéma d’observation entier n’est pas utile. En effet, le lemme de localisation de Kallenberg (95)[Lemma 6.2] nous permet de remplacer la tribu O = Nr

C du conditionnement par une tribu plus simple. En effet avec les données en main,

(15)

1. les composantes du processus N qui ont été observées exactement, 2. celles qui ont été observées par intervalle et l’intervalle correspondant, 3. celles qui ont été censurées à droite et la date de censure correspondante.

Ainsi pour les composantes de type 1, on peut faire comme si elles étaient partout observées, pour celles de type 2, on peut oublier les autres intervalles d’observation possibles et ainsi de suite. On a donc un événement A appelé "pseudo-atome" et qui s’est réalisé dans les données qui nous servent à faire l’inférence et une tribu ˜O ⊂ O telle que A ∩ ˜O = A ∩ O. Le lemme de localisation nous permet de dire que Lθ_O = Lθ_˜

O p.s. sur A. La définition précise d’un

pseudo-atome est donnée dans la définition 3 de (3) et le calcul de la vraisemblance sur un pseudo atome est donné dans le Théorème 2 du même article. Ils ne sont pas détaillés ici. Ce théorème permet de donner une expression simple de la vraisemblance et facilement utilisable en pratique. Et on retrouve les formules empiriques, écrites par les biostatisticiens.

1.3 Indépendance locale entre processus

Nous abordons ici les notions d’indépendance locale ou "d’influence" entre processus avec en filigrane une interprétation causale possible dans un modèle dynamique. Ces travaux ont été publiés dans les articles (7) et (8).

1.3.1 Contexte

La notion de causalité n’est pas l’apanage des statisticiens, elle est aussi centrale dans d’autres sciences et préoccupe les philosophes des sciences (45) (119). Même si les scienti-fiques sont d’accord pour reconnaître qu’une corrélation ou un lien statistique n’implique pas forcément de relation de cause à effet, les scientifiques qui utilisent la statistique et les sta-tisticiens eux mêmes se demandent de quelle manière la modélisation peut aider à découvrir des liens de causalité entre les phénomènes.

Parmi les modèles qui permettent de décrire d’éventuels liens causaux, les modèles gra-phiques sont particulièrement adaptés. Utilisés et développés par Wright (129; 130) dès les années 20, ils sont l’objet d’un regain d’intérêt récent notamment par Dawid et Didelez (56; 61; 65; 66; 67) et aussi par Pearl dans sa monographie (112). Nous renvoyons le lec-teur à Aalen et al. (31)[Chapitre 9] pour une revue complète des différentes approches de la causalité en statistique, notamment pour l’approche contrefactuelle et celle des modèles marginaux. Nous ne les aborderons pas ici sauf pour signaler les travaux récents et proches de cette thématiques de Chambaz et van der Laan (47) qui traitent de la mesure de l’impor-tance d’une variable d’exposition. En revanche, les auteurs de (31) développent l’approche des caractéristiques locales dans les modèles dynamiques et celle de Granger et Schweder. C’est dans ce cadre que nous plaçons nos travaux. C’est à la fin des années 70 et dans la lit-térature économétrique que Granger (77) a introduit la notion de causalité entre deux séries temporelles : de manière heuristique on peut dire que X n’influence pas Y selon Granger si la prédiction de Y sachant tous les "prédicteurs" n’est pas meilleure que celle basée sur tous les prédicteurs privés de X. Schweder (120) définit lui la notion d’indépendance locale entre deux composantes d’un processus de Markov multivarié en donnant des conditions sur les intensités de transition correspondantes. Ces travaux placent la causalité dans le cadre des

(16)

1.3. INDÉPENDANCE LOCALE ENTRE PROCESSUS 7

processus stochastiques et prennent en compte le déroulement du temps (ce n’était pas le cas dans l’approche contrefactuelle et les premiers modèles graphiques) et l’évidente vérité " la cause doit précéder les effets". Ces notions ont été développées pour des processus stochas-tiques plus généraux notamment pour les processus ponctuels dans (29; 70; 32; 75) grâce à la décomposition de Doob-Meyer de ces processus. A noter aussi, le travail récent de Røysland (118) qui place la notion d’indépendance locale de Didelez dans un cadre biostatistique et donne une caractérisation de mesure d’un essai randomisé en terme de martingale. Si le mo-dèle est observationnel, il est éventuellement possible de se ramener à un momo-dèle randomisé par changement de probabilité (Girsanov).

Suite à la lecture des articles (29; 32) et à la rencontre avec V. Didelez de University College London, spécialiste des modèles graphiques et qui a étudié des liens d’indépendance locale dans une famille de processus ponctuels marqués (66; 67), nous avons orienté notre recherche sur les critères d’indépendances locales dans une famille de semi-martingales, les modèles graphiques associés et tenter de formaliser les notions de causalité dans ce cadre.

1.3.2 Indépendance locale

Nous donnons ici la notion d’indépendance locale pour une classe de semi-martingales très générale qui est celle proposée dans (8) qui généralise la classe pour laquelle nous avions déjà proposé une définition dans (7)[Section 2.2].

Soit un espace de probabilité filtré (Ω, F , (Ft), P ) et un processus stochastique multivarié

X = (Xt)t≥0 à valeurs dans l’espace de Skorohod D(<m) des fonctions càdlàg de R+ dans

Rm_{. On a donc X = (X}

j, j = 1, . . . , m) avec Xj = (Xjt)t≥0. On appelle (Xt) = (Xt)t≥0

la filtration satisfaisant les conditions usuelles, engendrée par le processus X i.e. pour tout t ≥ 0, Xt= σ{Xu, 0 ≤ u ≤ t}. De manière similaire on définit (Xjt) la filtration associée à la

composante X_j de X. On définit F_t= H ∨ X_t; H peut contenir de l’information connue au temps t = 0 (covariables non dépendantes du temps par exemple) en plus de la valeur initiale de X. On note aussi F−jt = H ∨ X−jt avec X−jt = ∨l6=jXlt de sorte que la filtration (F−jt)

contient l’information de (F_t) moins celle propre à (X_jt).

On suppose que X appartient à la classe des semi-martingales spéciales dans la filtration (Ft). Les caractéristiques de la semi-martingale X sous la probabilité P sont notées (B, C, ν),

la partie martingale de X_j est notée M_j et la partie continue de cette dernière est notée M_jc. On note aussi (Bj, Cj, νj) les caractéristiques de la semi-martingale X_jsous P . Une définition précise des caractéristiques (B, C, ν) est disponible dans (93)[SectionII.2]. Pour se représenter le rôle de chacune des trois caractéristiques, si X était à accroissements indépendants, B serait sa dérive (son drift !), C la variance de sa partie gaussienne (son crochet oblique !) et ν sa mesure de Levy (ou compensateur de la composante de saut).

Nous faisons les hypothèses (H-M) et (H-MC) sur les semi-martingales étudiées.

(H-M) Pour tout j 6= k, Mj et Mk sont des martingales de carré intégrable orthogonales.

Sous (H-M), les parties sauts des martingales Mj et Mk sont orthogonales, il n’y a donc

pas de sauts simultanés. De plus, la caractéristique C de X (le crochet de la partie continue de la martingale) est une matrice diagonale. En effet, par définition, C_ij =< M_ic, M_jc >= 0 pour tout 1 ≤ i, j ≤ m ; on note Cj = C_jj.

(17)

Ces deux conditions pourraient être résumées en une seule, cependant elles sont de nature très différentes. En faisant l’hypothèse (H-M), nous supposons que deux composantes Xj et

Xkne peuvent pas refléter un même phénomène stochastique à travers leur partie martingale.

Cette association entre les deux composantes ne serait de toute façon pas causale. Pötter et Blossfeld (116) disent que les deux composantes, dans ce cas, sont "autonomes". Dans (31) un exemple concret exclu par cette hypothèse est le déclenchement de deux phénomènes d’irritation (yeux et nez par exemple) dû à la même allergie. (H-C), la deuxième hypothèse est, elle, plus technique et pour l’instant nous n’avons pas pu la contourner. Elle est liée au caractère mesurable du crochet de la partie continue de la martingale d’un processus dans la filtration propre de ce processus. L’influence d’une composante sur une autre par l’intermédiaire de ce crochet ne peut donc pas être captée par des notions de mesurabilité comme nous le faisons pour les autres caractéristiques dans la définition 1.3.1.

On appelle D0 la classe des semi-martingales spéciales qui vérifient (H-A) et (H-C). La classe D0 est stable par un changement de probabilité absolument continu (C ne change pas avec la proba). De plus D0 est une large classe, elle inclut par exemple les mesures aléatoires, les processus ponctuels marqués, les diffusions et les diffusions avec sauts.

Nous introduisons maintenant les notions d’indépendance locale et d’influence entre com-posantes d’un processus de D0.

Définition 1.3.1 (Weak conditional local independence (WCLI)) Soit X dans la classe D0. On dit que Xk est WCLI de Xj dans X pour t ∈ [r, s], si et seulement si les

ca-ractéristiques Bk et νk sont telles que B_kt− B_kr et ν_kt− ν_kr sont (F−jt)-prévisibles sur [r, s].

De manière équivalente, on peut dire que X_k a le même triplet de caractéristique (Bk, Ck, νk) dans les filtrations (Ft) et (F−jt) sur l’intervalle [r, s].

Remarquons que l’hypothèse CAR(DYN) que nous avons énoncée à la Proposition 1.1.1 s’énonce par une condition de mesurabilité sur le compensateur d’un processus marqué au-trement dit sur sa caractéristique locale (les deux autres sont dégénérées). Cependant elle n’est pas traduisible en une condition d’indépendance locale car l’information de X dans F_t∗= X ∨Otn’est pas dynamique mais donnée en 0. Les caractéristiques des semi-martingales

dépendent de la probabilité sous-laquelle elles sont considérées, c’est pourquoi la notion d’in-dépendance locale en dépend aussi. On peut donc imaginer des changements de probabilité qui font disparaître des dépendances ou qui rendent un facteur localement indépendant de tous les autres facteurs : ceci permet de mesurer leur influence sur un événement d’intérêt, c’est cette possibilité qu’envisage Røysland dans (118).

En ce qui concerne les changements de probabilité, nous énonçons ici un autre critère d’indépendance locale en fonction de l’existence d’un rapport de vraisemblance "ne concer-nant que" la loi d’une composante et vérifiant une condition de mesurabilité. Nous donnons cette définition ci-après. Les hypothèses sont discutées dans (8) où il est aussi montré l’équi-valence entre les deux notions WCLI et LWCLI pour une certaine classe de semi-martingales (Proposition 1).

Définition 1.3.2 [Likelihood-based weak conditional local independence (LWCLI)] Soit X dans la classe D0. On suppose l’existence d’une probabilitéP₀ telle que

(18)

1.3. INDÉPENDANCE LOCALE ENTRE PROCESSUS 9

(ii) les caractéristiques des semi-martingales Xi avec i 6= k sont les mêmes sous les

probabilités P et P0,

(iii) les P₀-caractéristiques (B₀k, C₀k, ν₀k) de la semi-martingale X_k sont déterministes. On dit que X_k est LWCLI de Xj dans X sur [0, t] si et seulement si le processus de

vraisemblance ZP /P0

t = L

P /P0

Ft est (F−jt)-mesurable sur [0, t].

La notion s’étend facilement sur un intervalle [r, s] en considérant le processus ZtP /P0

ZrP /P0

. Les conditions d’indépendance étant posées, on peut définir par contraposée des notions d’influence.

Définition 1.3.3 (Influence directe) Si Xk n’est pas WCLI de Xj dans X, on dit que Xj

influence directement X_k dans X et l’on note Xj −→X Xk.

Définition 1.3.4 (WCLI influence pour une groupe de composantes) Soit A, B des sous-ensemble de (1, . . . , m). On dit que X_A _{−→X X}_B s’il existe j ∈ A et k ∈ B tel que Xj −→X Xk.

Nous pouvons définir maintenant une notion plus forte d’indépendance locale entre pro-cessus.

Définition 1.3.5 (Strong conditional local independence (SCLI)) X_k est SCLI de Xj dans X si et seulement si Xj−→/ _{X X}k et il n’existe pas de XD ∈ X tel que Xj −→X XD

et XD −→X Xk. Dans ce cas, nous noterons Xj→→/ _{X X}k.

Définition 1.3.6 (Influence indirecte) Si Xk n’est pas SCLI de Xj, Xj influence (au

moins indirectement) X_k dans X et nous notons X_j _{→→X X}_k.

Si de plus Xj →→X Xk et Xj−→/ _{X X}k, on dit que l’influence est indirecte.

1.3.3 Représentation par un graphe

Nous serons très concis dans cette section mais comme l’a fait Didelez dans (66), à l’aide des définitions de la section précédente, il est facile et naturel de représenter les influences entre les composantes d’un processus dans un graphe orienté. Les sommets du graphe sont les composantes Xj de X et il y a une flèche de Xj vers Xk si et seulement si Xj −→X Xk. On

peut alors définir la notion de chemin entre deux composantes et l’existence d’un tel chemin signifie X_j _{→→X X}_k. Nous donnons à la figure 1.1 deux exemples de graphes emboîtés représentants les liens entre quatre variables d’intérêt (X1, . . . , X4) auxquelles on ajoute des

facteurs. En ajoutant des facteurs, certaines influences directes disparaissent et deviennent indirectes. Cette remarque nous conduit à considérer des systèmes emboités. C’est ce que nous faisons dans la prochaine section. Dans (7), nous présentons un modèle dynamique d’infection par le VIH et les graphes correspondants.

(19)

10CHAPITRE 1. LES PROCESSUS POUR L’ÉTUDE DES MODÈLES D’HISTOIRE DE VIE X X X X 1 2 3 4 X₁ X₂ X₃ X 4 X X 5 6

Figure 1.1 – Exemple de deux graphes emboîtés décrivant le même système physique.

1.3.4 Interprétation causale

Nous l’avons dit, tenter de définir un lien causal nous emmène vers la philosophie et vers des chemins au sol plus mouvant que celui de l’univers des mathématiques ou les assertions sont soit justes, soit fausses.... C’est l’objet de la discussion de la section 3. de (7). Pour tenter de définir un lien causal, nous y introduisons la notion de système dont l’état et les attributs à l’origine sont décrits par une tribu A et l’état au cours du temps est décrit par une filtration (X_t). Notre formation (ancienne certes !) à la physique, nous a toujours donné en filigrane un système régi par des lois physiques, mécaniques ou au moins issues de la nature (on parle bien de modèles mécanistes en biostatistique !). Par abus de notation, nous identifions le système à un processus stochastique et les lois mécanistes nous invitent à imaginer un système d’équations différentielles stochastiques et/ou de processus ponctuels d’intensité interprétables.

Dans ce système, on doit distinguer les événements ou processus d’intérêt des événements auxiliaires qui sont liés aux premiers. On comprend qu’un système trop pauvre ne prenant pas en compte tous les facteurs liés au processus d’intérêt va faire apparaître des liens injustifiés (ou de manière un peu moins probable, faire disparaître des liens réels). Les cas connus du paradoxe de Simpson en sont des exemples. Cependant il paraît illusoire de faire apparaître un niveau d’information trop pointu. On comprend cependant l’intérêt de définir des systèmes emboîtés. Un système Sm0 est emboité dans Smsi F_tm0 ⊂ Fm

t pour tout t : Sm

0

peut être plus riche que Sm soit du point de vue de ses attributs (Am0 ⊂ Am_{) et/ou de ses composantes}

(X_tm0 ⊂ Xm

t ). On peut considérer une suite de systèmes emboîtés S = {Sm}m>0 (on note

Sm _{∈ S et S}m _{⊂ S}m0 _{si m < m}0_{). Dans ce cas, à t fixé, la famille {F}m

t }m>0 forme une

filtration.

On appelle P∗ probabilité sur (Ω, F ) qui régit le système (c’est celle que l’on veut esti-mer) et on note P_F∗m sa restriction à Fm. L’idée est d’approcher et d’estimer P_F∗m par une

probabilité P_FSm donnée par des lois naturelles liant les composantes de Sm.

Revenons à un système S1 et à l’éventuel lien causal entre deux composantes j et k de S1_{. Si on fait l’hypothèse de l’existence d’un système S}m _{"parfait pour S}1_{" c’est-à-dire que}

(20)

1.4. CONCLUSION 11

P_FS1m= P_F∗1, alors nous pouvons tenter de définir un lien causal entre j et k par la définition

suivante.

Définition 1.3.7 (Influence causale) Une composante j a une influence causale sur la composante k dans S1 s’il existe un système SM parfait pour S1, tel que X_j →→_SM X_k sous

P∗.

Evidemment, cette définition reste très abstraite car la vraie vie n’est pas parfaite et elle ne nous dit même pas si on est proche d’un système parfait !

1.3.5 Lien avec l’indépendance conditionnelle

Il peut être tentant, comme c’est le cas dans pour les modèles non dynamiques ou les processus discrets comme dans Dawid (60) ou Eichler et. al (71) de vouloir exprimer une condition d’indépendance locale en terme d’indépendance conditionnelle. Dans (71), la non causalité forte de Granger s’exprime pour un système discret et avec nos notations de la manière suivante :

Xks⊥⊥F−jt Xjt, t = 0, 1, . . . ; s = t + 1, t + 2, . . . , t + h,

Il est tentant de généraliser cette notion aux processus continus en remplaçant la condition 1.3.5 par la suivante

Xkτ ⊥⊥F−jt Xjt−, 0 ≤ s < t ≤ τ.

Mais, cette condition n’a pas de sens car souvent les événements de X_ktconnaissant X_kt− sont de probabilité un ou zero (par exemple un saut en t lorque le compensateur est absolument continu) et la condition, toujours vérifiée n’a pas de sens. Dans (8), nous montrons que la condition (1.1) ci-dessous est équivalente à SCLI pour une classe de processus de diffusion avec sauts.

Xkτ ⊥⊥F−jt−Xjt−, 0 ≤ t ≤ τ. (1.1)

Nous montrons aussi dans le Lemme 4 de (7) que, sous certaines conditions, deux groupes de composantes qui ne s’influencent pas mutuellement sont indépendants conditionnellement à l’information au temps 0. Ce résultat d’indépendance conditionnelle nous permet de démon-trer que sous certaines conditions, l’influence d’un processus non influencé sur une composante d’un système simple est une influence causale suivant la définition 1.3.7. En ce qui concerne un processus non influencé, on pense évidemment à l’attribution randomisée d’un traitement dans les essais cliniques.

1.4 Conclusion

Les travaux présentés dans ce chapitre me sont chers car ils représentent la reprise de mes activités de recherche, une vision nouvelle des mathématiques et de leurs utilisations et de nouvelles collaborations. Je ne compte pas présenter des perspectives ou prolongements di-rects puisque je n’ai pas travaillé sur ces thématiques ces quatre dernières années. Mais il est

(21)

clair que la formalisation de la tribu d’observation (équation (2.19)) dans l’étude des proces-sus BAR avec données manquantes présentée au chapitre suivant a été grandement facilitée par notre travail préalable sur cette problématique. Le travail sur les Processus Markoviens Déterministes par Morceaux (voir Chapitre 3), qui sont une extension des processus de sauts en est aussi une suite naturelle. Ma contribution au projet ANR Fautocoes notamment par la définition et l’encadrement de la thèse de Romain Azaïs (section 3.4) portant sur l’inférence des caractéristiques d’un PDMP et notamment sur le taux de sauts est aussi dans cette lignée. La confrontation très brève avec les critères de choix de modèles pourra d’ailleurs nous être utile sur ce sujet pour le choix de paramètres de lissage ou de partitions de l’espace, nous y reviendrons.

Les travaux sur l’indépendance locale m’ont amusée et je pourrais être tentée de m’y remettre notamment pour réfléchir comme le fait (118) sur les changements de probabilités nécessaires pour mesurer efficacement l’influence d’un facteur sur un événement d’intérêt quand l’attribution de ce facteur n’a pas été (ou ne peut pas) être randomisée. Enfin les études sur la causalité présentées ici restent très théoriques ; mais dans des modèles paramétriques au moins, il pourrait être intéressant de quantifier des influences comme le fait Chambaz (47) pour les modèles structuraux.

(22)

Chapitre 2

Processus de bifurcation

Ce chapitre présente les travaux réalisés au sein de l’Institut Mathématique de Bordeaux (IMB) qui ont débuté sous l’impulsion de Bernard Bercu et en collaboration avec Benoîte de Saporta (IMB) et se sont prolongés en collaboration avec Benoîte de Saporta (IMB) et Laurence Marsalle de l’Université de Lille. Ils correspondent aux articles publiés (6), (9), (11) et aux articles soumis (15) et (14). Après avoir rappelé le contexte à la section 2.1 et la structure des arbres binaires à la section 2.2, nous présentons à la section 2.3 (resp. 2.4) les différents modèles pour la généalogie (resp. de processus autorégressifs de bifurcation) étudiés. Nous donnons en 2.5 et 2.6 les types de résultats obtenus et les méthodes pour les démontrer. Enfin nous présentons en 2.8 une étude de simulation et des résultats sur des données de division cellulaire.

2.1 Contexte

Dans ce chapitre nous appelons processus de bifurcation des processus indexés par un arbre binaire et ainsi adaptés à l’étude de données de division cellulaire. Nous considérons deux types de processus : d’une part les processus indexés par un arbre binaire et à valeurs dans {0, 1}N _{modélisant la présence ou l’absence d’une cellule dans la généalogie et que nous}

appellerons dans la suite processus de généalogie et d’autre part les processus autorégressifs de bifurcation (acronyme BAR en anglais pour Bifurcating AutoRegressive processes). Les pro-cessus de généalogie sont intimement liés, nous le verrons, à un propro-cessus de Galton-Watson dont les propriétés, que nous utiliserons, sont connues. Les processus BAR sont une adapta-tion des processus autorégressifs (AR) pour les données structurées par un arbre binaire. Ils ont été introduits par Cowan and Staudte (55) pour les données de division cellulaire quand chaque individu d’une génération donne naissance à deux individus dans la génération sui-vante. Les processus BAR modélisent une caractéristique quantitative liée à chaque cellule et observée sur plusieurs générations descendant d’une cellule initiale. Ils permettent de prendre en compte simultanément les effets de la généalogie (par la régression sur la caractéristique de la mère) et ceux de l’environnement dans l’évolution de la caractéristique étudiée (ajout du bruit).

La définition proposée dans (55), d’un processus BAR est la suivante. La cellule initiale est nommée 1, et les deux descendants d’une cellule n, sont eux 2n et 2n + 1. Soit X_n la

(23)

14 CHAPITRE 2. PROCESSUS DE BIFURCATION

caractéristique quantitative de la cellule n. Alors, le processus BAR symétrique d’ordre 1 est défini récursivement pour tout n ≥ 1, par

(

X2n = a + bXn+ 2n,

X2n+1 = a + bXn+ 2n+1.

La suite (_2n, 2n+1) est une suite de bruits représentant les effets de l’environnement, les

paramètres a, b sont des nombres réels inconnus vérifiant |b| < 1. Dans (55), la suite des bruits (_2n, 2n+1) était indépendante et équidistribuée de loi normale ; une corrélation étant

toutefois possible entre _2n et _2n+1; cette corrélation entre X_2n et X_2n+1, due au même environnement, se rajoute à celle induite par la généalogie. Par la suite plusieurs auteurs ont étudié ce modèle en en proposant des extensions. Huggins and Basawa (87) et Basawa and Zhou (39; 136) font des hypothèses plus générales sur le bruit. Dans (87), Huggins and Basawa étudient un BAR d’ordre supérieur, dans ce cas, l’effet de la généalogie vient non seulement de la mère mais aussi de la grand-mère et des ascendants d’ordre supérieur. En ce qui concerne l’inférence sur les paramètres (a, b) et les résultats asymptotiques qui l’accompagnent, Huggins and Basawa dans (87) ont proposé un estimateur du maximum de vraisemblance pour l’observation de plusieurs petits arbres indépendants. L’estimateur de maximum de vraisemblance pour un arbre unique quand le nombre de cellules croît vers l’infini a été étudié par Huggins dans (86) pour le modèle BAR d’origine, par Huggins et Basawa (88) pour des BAR gaussiens d’ordre supérieur et par Zhou and Basawa (136) pour une BAR d’ordre 1 avec bruit exponentiel. Zhou et Basawa, quant à eux, ont étudié dans (135) l’estimateur des moindres carrés. Dans toutes ces publications, le processus BAR est supposé stationnaire ; la série chronologique admet alors une représentation par une fonction holomorphe.

Nos travaux, qui ne supposent pas le régime stationaire, font suite à ceux de Guyon (81; 82) qui introduit les processus BAR asymétriques. Avant d’en détailler les aspects mathématiques, il nous paraît important de préciser que l’étude de l’asymétrie des BAR a été motivée par une question biologique relative au vieillissement des organismes unicellulaires de type E. Coli. En effet, la mesure du vieillissement des organismes unicellulaires se fait en quantifiant la dissymétrie dans le mécanisme de reproduction entre les cellules ayant hérité du vieux pôle de leur mère et celles ayant hérité du nouveau pôle (cf paragraphe 2.8 et Figure ??). D’après (122), cette dissymétrie peut apparaître dans la reproduction elle-même : les cellules dites "jeunes" ayant en moyenne un nombre de descendants plus élevé que les cellules dites "âgées" ; elle peut aussi se manifester dans une dissymétrie des caractéristiques quantitatives de la cellule, par exemple le taux de croissance ou la masse. L’étude de données de division d’E. coli présentées dans (122) est donc à l’origine des travaux de Guyon (81; 82) et a indirectement ou directement motivé les nôtres : indirectement lorsque notre but a été de généraliser les hypothèses mathématiques de (81) (à un BAR d’ordre p avec des hypothèses plus souples sur le bruit) dans (6) ou d’étudier les BAR à coefficients aléatoires dans l’article soumis récemment (14). Plus directement lorsque nous avons proposé un estimateur tenant compte des cellules manquantes dans (9) ou après les études de simulations et l’applications du modèle à un arbre, nous avons proposé une approche "multi-arbres" dans (15). L’article de Delmas et Marsalle (64) est aussi dans la ligne directe de Guyon (81). Nous nous proposons de mettre ces travaux en perspective dans ce chapitre.

(24)

2.2. QUELQUES NOTATIONS SUR LES ARBRES BINAIRES 15

2.2 Quelques notations sur les arbres binaires

Figure 2.1 – Arbre associé à un processus auto-regressif de bifurcation.

Nous donnons ici quelques notations sur les arbres binaires : ceux-ci modélisant une généalogie quand chaque individu d’une génération donne naissance à deux individus dans la génération suivante. La Figure 2.1 en donne une illustration. Chaque noeud de l’arbre représente un individu ou une cellule et le noeud 1 représente l’ancêtre. Pour tout n ≥ 1 la ne générationGn est définie par

Gn= {2n, 2n+ 1, . . . , 2n+1− 1}.

La génération initialeG₀ = {1}, contient l’ancêtre original, et ses descendants de la première génération constituentG₁= {2, 3}. L’individu n est dans la générationG_r_navec r_n= [log₂(n)] où [x] désigne la partie entière de x. Les filles de la cellule n ont pour étiquette 2n et 2n + 1 et inversement la mère de la cellule n est [n/2] et ses ancêtres sont [n/2], [n/22], . . . , [n/2rn_].

Le sous arbre de tous les individus de l’ancêtre jusqu’à la génération n est notéT_n=Sn

l=0Gl.

On a alors 2nindividus dans la génération Gn et |Tn| = 2n+1− 1 dans le sous-arbreTn.

2.3 Modèle pour la généalogie

Cette section est dédiée à la modélisation de la généalogie des cellules. D’une part, il convient de distinguer deux types de cellules, les cellules paires et les cellules impaires. D’autre part, comme nous l’avons dit plus haut, une cellule peut mourir et la branche de l’arbre naissant de cette cellule est coupée. Comme il est signalé dans (122), les taux de mort peuvent mesurer eux aussi le vieillissement et être différents suivant le type de la mère et suivant le type de la fille. Pour mesurer cette asymétrie, nous pouvons estimer les paramètres de reproduction

(25)

de ce processus et tester l’asymétrie éventuelle. Il convient de définir un processus (δk)k∈T à

valeurs dans {0, 1}N_{qui modélise la présence ou l’absence d’une cellule et tel que si une cellule}

est absente, ses descendantes le sont aussi. La Figure 2.2 donne l’exemple d’une réalisation de (δk)k≤32pour n = 4 générations. G∗₀ G∗ 1 G∗ 2 G∗ 3 G∗₄ T∗₄ 1 2 3 4 5 6 7 9 10 11 12 14 15 18 19 20 22 23 29 30 31

Figure 2.2 – Arbre associé aux données observées de l’arbre de la Figure 2.1.

2.3.1 Définition

Pour définir (δk)k∈T, on pose δ1 = 1 et la suite est définie de manière récursive pour tout

k ≥ 1 par

δ2k = δkζk0 et δ2k+1= δkζk1, (2.1)

avec (ζ_k= (ζ0

k, ζk1)) une suite indépendante de vecteurs aléatoires dans {0, 1}2. La variable ζki

donne le nombre de descendants de type i de la cellule k. On distingue les lois des deux suites i.i.d. et indépendantes entre elles (ζ_k, k ∈ 2N∗) et (ζ_k, k ∈ 2N+1). Leur loi est donnée par les probabilités p(i)_(j

0, j1) pour (i, j0, j1) ∈ {0, 1}3; p(i)(j0, j1) étant la probabilité qu’un individu

de type i donne naissance à j0 cellule de type 0 et j1 cellules de type 1. Des estimateurs de

ses probabilités de descendance seront donnés à la section 2.4.3

Dans le cas de l’arbre complet, le nombre d’individus par génération est déterministe et égal à 2n pour la génération n. Maintenant, ce cardinal est un nombre aléatoire |G∗_n| oùG∗_n est l’ensemble des individus observés dans la génération n, défini par :

G∗

n= {k ∈Gn: δk= 1} et de même T∗n= {k ∈Tn: δk= 1}.

Parmi ces individus, nous distinguons les individus de chacun des deux types en posant :

Z_n0 = |G∗_n∩ 2N| et Z_n1= |G∗_n∩ (2N + 1)|, (2.2) Z_n0 (resp. Z_n1) est le nombre d’individu de type 0 (resp 1) de la génération n et bien sûr |_G∗

(26)

2.3. MODÈLE POUR LA GÉNÉALOGIE 17

2.3.2 Processus de Galton-Watson associé et propriétés

Le processus (Z_n, n ≥ 0), issu de notre processus de généalogie (δk)k∈Tet défini pour n ≥ 1

par Z_n = (Z0

n, Zn1) est un processus de Galton-Watson bi-type de loi de reproduction très

spécifique (chaque individu a au plus une cellule de chaque type) qui garantit des moments à tout ordre. Ses propriétés, asymptotiques notamment, sont décrites dans Harris (84). Nous donnons ici celles qui sont utiles dans la suite notamment les conditions de non-extinction du processus. Pour cela, on définit la matrice de descendance P par

P = p00 p01 p10 p11

!

,

avec p_i0 = p(i)(1, 0) + p(i)(1, 1) et p_i1 = p(i)(0, 1) + p(i)(1, 1), pour i ∈ {0, 1}. La probabilité pij = E[ζ2+ij ] est le nombre attendu de descendants de type j d’un individu de type i.

Lorsque tous les termes de la matrice P sont positifs, P admet une valeur propre dominante strictement positive et simple, (voir Theorem 5.1 de (84)), nous la noterons π. Le paramètre π détermine le comportement asymptotique du processus, il joue le rôle du nombre attendu d’enfants dans le cas du Galton Watson standard et est relié à l’extinction du processus. Cette extinction est de probabilité inférieure à 1 lorsque le Galton-Watson est dit sur-critique i.e. lorsque π > 1. Si on définit l’extinction du Galton-Watson par E = ∪n≥1{Zn = (0, 0)},

il est clair que cette extinction est aussi celle de (δk)k∈T : E = Sn≥1{|G∗n| = 0}. Aussi les

résultats asymptotiques des estimateurs seront établis sur l’ensemble de non-extinction E, complémentaire de E . Nous faisons l’hypothèse suivante pour garantir une probabilité non-nulle à E :

(HO) Les termes de la matrice P sont positifs : pour tout (i, j) ∈ {0, 1}2, pij > 0, et sa

valeur propre dominante vérifie : π > 1 .

Sous l’hypothèse (HO), on a P(E) < 1 et πn est un grand O déterministe de Zn, |G∗n| et

|T∗

n|. Plus précisément, il existe une variable aléatoire positive W telle que

lim n→+∞ Zn πn =_n→+∞lim π − 1 πn+1_{− 1} n X `=0 Z`= W z p.s.. (2.3)

où z = (z0_{, z}1_{) est le vecteur propre à droite pour la valeur propre π de P vérifiant z}0_+z1_{= 1.}

On a alors que {W = 0} = E p.s., ou encore que l’événement {W > 0} est l’ensemble de non-extinction E de (Z_n) à un ensemble négligeable près. Les propriétés (2.2) et (2.3) entrainent alors lim n→+∞ |G∗_n| πn =_n→+∞lim π − 1 πn+1_{− 1}|T ∗ n| = W p.s. (2.4)

Le lemme suivant, utilisé de nombreuses fois dans nos travaux est une conséquence directe des propriétés du processus de généalogie.

Lemme 2.3.1 Sous l’hypothèse (HO), on a

lim n→+∞1{|G∗n|>0} πn |_T∗ n| = π − 1 π 1 W1E p.s.

(27)

2.4 Modèles de BAR

2.4.1 BAR asymétrique d’ordre p

Modèle

L’étude du modèle présenté dans cette section et correspondant à l’article (6) est à l’initia-tive de Bernard Bercu (IMB) et en collaboration avec Benoîte de Saporta (IMB). Le modèle est un BAR asymétrique d’ordre p défini comme suit. Soit p un entier non nul. Le processus BAR(p) asymétrique est défini pour tout k ≥ 2p−1, par

   X2k = a0 + Pp_`=1akX[ k 2`−1] + 2k, X2k+1 = b0 + Pp`=1bkX_[ k 2`−1] + 2k+1. (2.5)

Les états initiaux {X_k, 1 ≤ k ≤ 2p−1− 1} sont les ancêtres du processus et (_2k, 2k+1) est le

processus de bruit. Les paramètres (a0, a1, . . . ap) and (b0, b1, . . . , bp) sont des nombres réels

inconnus que nous cherchons à estimer. Nous supposons que les matrices companion p × p A and B définies par

A =       a1 a2 · · · ap 1 0 · · · 0 0 . .. ... ... 0 0 1 0       , B =       b1 b2 · · · ap 1 0 · · · 0 0 . .. ... ... 0 0 1 0       .

vérifient la propriété de contraction suivante

β = max{kAk, kBk} < 1. (2.6) Ce processus est une généralisation directe du BAR(p) symétrique étudié par Huggins, Basawa et Zhou (87; 135). Dans le cas particulier où p = 1, il correspond au modèle étudié par Guyon dans (81).

Estimateur

Notons θ le vecteur des paramètres du modèle etθb_n son estimateur, ils sont définis par

θ =            a0 .. . ap b0 .. . bp            and θb_n=            b a0,n .. . b ap,n bb_0,n .. . bb_p,n            .

Nous estimons θ à partir des donnés Xk des individus k jusqu’à la nième génération,

c’est-à-dire l’observation complète du sous arbre T_n. Pour cela nous utilisons l’estimateur des moindres carrés θb_nqui minimise

∆n(θ) = 1 2 X k∈Tn−1,p−1 (X_2k− a₀− p X `=1 akX_[ k 2`−1] )2+ (X_2k+1− b₀− p X `=1 akX_[ k 2`−1] )2.

(28)

2.4. MODÈLES DE BAR 19

Pour n ≥ p, cet estimateur est donné par

b θn= Σ−1n−1 X k∈Tn−1,p−1      X2k X2kXk X2k+1 X2k+1Xk      (2.7) où X_n= (X_n, X_[n 2], . . . , X[ n 2p−1]

)t et la matrice (p + 1) × (p + 1) Σ_n définie par Σ_n= I₂⊗ S_n avec I2 matrice identité et ⊗ qui est symbolise le produite de Kronecker et

Sn= X k∈Tn,p−1 1 Xt_k Xk XkXtk ! .

Dans le cas p = 1, θ = (a0, a1, b0, b1)tet l’estimateur s’écrit

b θn= Σ−1n−1 X k∈Tn−1      X2k XkX2k X2k+1 XkX2k+1      , (2.8)

où, pour tout n ≥ 0, Σ_n = Sn 0 0 Sn

!

et S_n est donnée simplement par S_n =

P

k∈Tn

1 Xk

Xk Xk2

!

. Nous ne donnons pas ici, les estimateurs des paramètres σ2 et ρ que le lecteur peut consulter dans (6) et qui seront donnés plus bas dans un cas d’observation plus général lorsque p = 1.

Hypothèses sur la suite des bruits

Nous ne donnons pas dans cette synthèse l’énoncé rigoureux des hypothèses qui peut être consulté dans (6). L’hypothèse essentielle est que le bruit est une différence de martingale qui vérifie des conditions de moments et que les cellules d’une même génération qui ne sont pas soeurs sont conditionnellement indépendantes sachant les générations précédentes. Plus précisément, si F = (F_n) est la filtration naturelle associée au processus BAR(p) avec F_n la σ-algèbre engendrée par les individus jusqu’à la ne génération, le degré exigé des moments variant suivant les résultats, nous posons pour q ≤ 4,

(HN.1-q) Pour tout n ≥ 0 et tout k ∈Gn+1, k est dans Lq et

sup n≥0 sup k∈Gn+1 E[q k|Fn] < ∞ p.s.

De plus, il existe σ2 ∈ (0, +∞), |ρ0| ∈ [0, 1) tels que : – ∀n ≥ 0 and k ∈Gn+1,

E[k|Fn] = 0, E[2k|Fn] = σ2, p.s.

– ∀n ≥ 0 ∀k 6= l ∈_G_n+1 avec [k/2] = [l/2],

E[kl|Fn] = ρ = ρ0σ2p.s.

(HN.2) Pour tout n ≥ 0 les vecteurs aléatoires {(_2k, 2k+1), k ∈ Gn} sont