• Aucun résultat trouvé

Conclusion biologique5 Le test d’adéquation rejète l’hypothèse que la variabilité

des observations (Figure 4.1 (C)) provienne de l’activité cytolytique d’une population homogène de CTL. Alors que ce même test accepte l’hypothèse que l’hétérogénéité des observations provienne de 2 sous-populations de CTL.

L’algorithme EM estime les caractéristiques de ces 2 sous-populations :

– un sous-groupe de CTL représentant 66% de la population totale, qui détruit en moyenne 2,8 cellules cibles en 12 heures. Ils sont dit "Weak CTL" ;

– un second sous-groupe représentant 34% de la population et qui élimine en moyenne 6,4 cellules cibles. Ils sont dit "Strong CTL".

D’un point de vue biologique, il reste à déterminer d’où provient la différence entre ces deux sous-populations de CTL. En effet connaitre les mécanismes conduisant un CTL à devenir "strong CTL" plutôt que "Weak CTL" permettrait d’améliorer les fonc- tions de lyse d’un CTL et de développer une immunothérapie anti-tumorale.

Une première idée est de penser que cette différence est d’ordre génétique. Cette hypothèse est rejetée, car par des expériences supplémentaires, les biologistes ont re- trouvé la même l’hétérogénéité de la capacité cytolytique des CTL fils6 d’un "Strong CTL". Une étude approfondie des temps de killing des 259 CTL a mis en évidence que les CTL qui tuent plus de 5 cibles, sont ceux qui, pendant les 12 heures d’observation, ont au moins une phase où ils tuent 3 cibles ou plus en moins de 3 heures. Cette capa- cité à "tuer vite" serait un premier paramètre permettant d’identifier un "strong CTL" d’un "weak CTL".

Conclusion mathématique L’algorithme EM est souvent utilisé pour des mélanges gaussiens. Dans ce chapitre, nous l’avons mis en place pour un mélange de κ lois de Poisson, où κ ∈ N∗.

Remarquons que, sur les données simulées, pour n = 200, si κ = 3, la distance en variation totale entre la densité estimée par l’algorithme EM et la vraie densité est deux fois plus grande que si κ = 2 (voir Figure 4.4 (A) et (C)). Cela peut expliquer l’instabilité de l’estimateur obtenu par l’algorithme EM pour les 259 observations de la Figure 4.1 (C), si nous supposons qu’elles sont issues d’un mélange de 3 lois. Ainsi, la dimension maximale des modèles de mélanges qu’il est possible de considérer dépend de la taille de l’échantillon.

Comme souligné dans la sous-section consacrée aux données simulées, si au moins un des paramètres des lois de Poisson est grand, l’estimateur obtenu par l’algorithme EM n’est pas très bon (Figure 4.4 (B)). Notons que si κ = 10 mais que les moyennes des lois intervenant dans le mélange sont ≤ 10, alors l’algorithme EM fournit de bons 5. Ces travaux font l’objet d’un article soumis, écrit en collaboration avec Zilton Vasconcelos, Sabina Müler, Delphine Guipouy, Yu Wong, Sébastien Gadat, Salvatore Valitutti et Loïc Dupré

estimateurs (Figure 4.4 (D)). Ainsi, pour avoir une bonne estimation de la densité, il est important d’avoir une taille maximale Λ des paramètres des lois pas trop grande. On peut expliquer l’importance du choix de Λ par le fait plus le paramètre de la loi de Poisson est grand plus la variance est grande. Ainsi sur un échantillon de mélange de lois, même si la proportion de la loi de grand paramètre est grande, l’échantillon sera éparpillé ce qui rend l’estimation difficile.

Perspective 1 L’algorithme EM permet d’estimer les caractéristiques de κ groupes composant la population totale des CTL. Cependant, il ne permet pas de déterminer le nombre κ de sous-populations. Le test d’adéquation du χ2 informe sur la probabilité ou non que les observations soient issues d’un modèle (hypothèse H0). Mais il n’informe

pas sur la qualité de l’estimateur puisqu’il ne compare pas les modèles entre eux. Pour comparer les modèles, nous avons calculé la distance en variation totale entre les observations et les densités estimées. Puis nous avons choisi le modèle le plus "simple" parmi les modèles atteignant la distance minimale. Nous avons fait de manière infor- melle de la sélection de modèle. Plus formellement il convient de définir un critère permettant de choisir le nombre κ de sous-groupes qui maximise la log-vraisemblance et favorise le modèle le plus simple. Cela permettra de montrer la consistance de mo- dèle. Ce point est développé dans le chapitre suivant.

Perspective 2 On remarque (Figures 4.5 et 4.6) que les densités obtenues par l’al- gorithme EM pour un mélange de 2 ou 3 lois sont très proches (elles ont la même distance en variation totale avec les observations). Notamment, la densité de mélange de la Figure 4.6 (B) a ses paramètres très proches de ceux du mélange de 2 lois de Poisson. En effet, nous retrouvons la loi de Poisson de moyenne de 6.4 et de propor- tion de 34% dans ces deux densités. Les 2 sous-groupes restant du mélange de 3 lois ont quasiment la même moyenne 2,79 et 2,83 qui correspond à la moyenne du second sous-groupe du mélange de 2 lois. Il semble alors difficile de différencier ces 2 lois.

Dans un cadre plus simple, cela revient à résoudre le problème de test suivant. Soit X un échantillon de taille n, notons f la densité de la loi dont est issue X. On souhaite tester l’hypothèse, pour F l’ensemble des lois de Poisson (défini en (4.1)),

H0 : f ∈ F ,

contre

Hεn,δn : f ∈ {pnfλn+(1−pn)fµn, où fλn, fµn ∈ F , |λn−µn| ≥ δn, pn∧(1−pn) > εn}

Pour quelles valeurs de εn > 0 et δn > 0 telles que pn∧ (1 − pn) > εn, |λn− µn| > δn,

est-il possible de différencier H0 de Hεn,δn?

Pour répondre à cette question, il faut déterminer un test (test du rapport de vraisemblance, autres tests ?), définir un risque... C’est un thème de recherche très actuel, [LMMR13 ; ACBL12 ; AB+10 ; DJ04] évoquent les contextes gaussiens.

Perspective 3 L’étude que nous avons réalisée utilise uniquement les données à 12 heures alors que nous avons à notre disposition le nombre de cellules cibles éliminées toutes les 2h pendant 12h (voir la Figure 4.1 (B)). Réaliser une étude cinétique de l’activité cytolytique permettrait de définir plus précisément ce qui distingue les 2 sous-types de CTL.

Au vu de l’étude précédente, les données seraient issues d’un mélange de 2 processus de Poisson. Cependant, nous n’avons pas de raison de supposer que le temps mis par un CTL pour détruire une cellule cible est constant au cours du temps. Ainsi, nous privilégions une modélisation par des processus de Poisson inhomogènes. C’est-à-dire que nous supposons que les paramètres des processus λ et µ ne sont pas linéaires par rapport au temps, mais des fonctions appartenant à Cs, où s > 1

2. Un modèle adéquat

serait alors

pP(λ(t)) + (1 − p)P(µ(t)),

où p = 66% est estimée par l’algorithme EM . Il reste à déterminer les fonctions λ et µ.

Nous sommes confrontés au problème d’estimation non paramétrique des fonctions λ et µ ∈ Cs, où s > 1

2. Le théorème de Girsanov pour les processus de Poisson permet

de donner un sens à la vraisemblance des observations pour différentes fonction de Cs. Il semble donc envisageable de développer une stratégie EM fonctionnelle non

Chapitre 5

Sélection de modèle non

asymptotique pour des mélanges

poissoniens

A nombre de lois fixé dans le mélange, c’est-à-dire à taille de modèle fixé, l’algo- rithme EM est traditionnellement utilisé pour estimer les paramètres d’un mélange. Mais le nombre de lois dans un mélange est rarement disponible, comme dans le modèle biologique présenté au chapitre précédent. Ainsi, la question du meilleur estimateur, ou du meilleur modèle, se pose. En suivant le cadre donné dans [Mas07], un critère pénalisé non asymptotique est proposé pour sélectionner le nombre de lois de Poisson entrant dans un mélange. Pour obtenir ce critère de pénalité, il est nécessaire de majorer l’entropie à crochet pour l’ensemble des mélanges finis et infinis de lois de Poisson.

5.1

Introduction

L’étude menée au chapitre précédent remet en question l’homogénéité de la popu- lation des CTL au travers de leur activité cytolytique. En effet, le modèle le plus en adéquation avec les observations du nombre de cibles éliminées par un CTL est un modèle de mélange de lois de Poisson. Cela sous-entend que la population de CTL est divisée en plusieurs sous-populations. Elles sont caractérisées par le nombre moyen de cibles éliminées en 12 heures et leur proportion dans la population totale.

A nombre de composante du mélange fixé, l’algorithme EM , mis en place pour les mélanges poissoniens au chapitre précédent, estime les paramètres d’un mélange. Par contre, nous n’avons pas d’information sur la qualité du modèle.

Si au chapitre précédent nous avons choisi le modèle d’un mélange de 2 lois de Poisson, nous n’avons pas démontré la consistance de notre approche dans ce cadre. C’est ce que nous proposons de faire dans ce chapitre grâce à l’approche traditionnelle de la sélection de modèle.

La sélection de modèle trouve son origine dans les années 70 avec les travaux d’Akaike et Schwartz [Aka73 ; Sch78]. Dans ces deux cas, la méthode consiste à minimi- ser le contraste empirique pénalisé sur un ensemble de modèles fixés. Les critères AIC (Akaike’s Information Criterion) et BIC (Bayesian Information Criterion) sont de type log-vraisemblance, dont les pénalités sont proportionnelles aux nombres de paramètres. Pour ces deux critères, la consistance n’est pas assurée. En effet, le critère AIC a tendance à sur-ajuster, il a été conçu pour être efficace (choisir le modèle réalisant le meilleur compromis biais variance). Le critère BIC est consistant s’il est possible de garantir que le vrai modèle fait partie de l’ensemble des modèles fixés, ce qui n’est pas toujours le cas, sinon il a tendance à sous-ajuster [BA02 ; MP00].

Ces deux critères reposent sur une approximation asymptotique, c’est-à-dire que le modèle choisi par le critère sera d’autant meilleur que le nombre d’observations augmente, ce qui nécessite un ensemble de modèles fixes. Mais dans de nombreux pro- blèmes, il est préférable d’augmenter la taille des modèles avec la taille de l’échantillon, comme dans notre cas. En effet, dans les modèles de mélange il est inutile de supposer que les observations sont issues d’un mélange de plus de n lois, où n est la taille de l’échantillon.

Pour pallier ce problème, [Mas07] propose de faire de la sélection de modèle non asymptotique. Ce qui est entendu par non asymptotique est que la taille des modèles peut croître avec la taille de l’échantillon.

Dans ce chapitre, nous proposons un critère pénalisé non asymptotique définissant le nombre de lois et les paramètres du meilleur mélange poissonnien pour un échantillon donné.

Dans un premier temps, nous rappelons le principe de la sélection de modèle, puis nous énonçons le résultat non asymptotique de [Mas07]. Dans un deuxième temps, nous calculons une borne supérieure de l’entropie à crochet de l’ensemble des modèles de mélange fini et infini de lois de Poisson. Cela permettra de définir dans un troi- sième temps le critère pénalisé à minimiser pour sélectionner le meilleur modèle. Nous terminons par une application des résultats aux observations biologiques.

Documents relatifs