Mixed Effects Modeling and Population Approach

1.4.1 Why Are Mixed Effects Models Relevant?

Mixed Effects Models (MEM), see [Lavielle,2014] and the references therein, have received increasing use due to their flexibility for analyzing multi-outcome longitudinal data fol-lowing possibly nonlinear profiles. They are reference methods to describe inter-individual variabilities among a given population.

A general formulation of the MEM for the continuous observation y_ij can be written as follows:

yij =f(xij, ψi) +g(xij, ψi, ξi)εij with εij ∼ N(0, σ²), (1.4.1) where the quantityy_ij denotes thej-th observation for the i-th individual. x_ij is a vector of regressors (it could be the time or some variables such as the time or the dose of a drug injected), f is the (possibly nonlinear) structural model, ψ_i denotes the individual parameters. The quantity εij is a random variable assumed to be normally distributed and σ denotes the variance parameter entering the function g, which expresses the stan-dard deviation of the measurement error and is generally either constant (homoscedastic variance) or a function off.

We consider here a two-stage model, as in [Davidian,2017], which both provides a typical population curve, also known as thestructural model (see the function f in (2.4.1)), and models the individual parameters, denoted ψ_i and regarded as random variables that fluctuate around a population parameter ψpop. This latter probabilistic model of the

individual parameters exhibits the inter-individual variability structure that governs the statistical phenomena. Formally, it reads:







ψ_i =h(ψ_pop, η_i)

ηi∼ N(0,Ω) (1.4.2)

We note that the individual parameters ψ_i are related through a function h to ψ_pop, the p-dimensional vector containing the fixed effects, and η_i, the q-dimensional vector containing the random effectsηi. For instance, for Normal individual parameters we have ψ_i = ψ_pop+η_i and for Lognormal we have ψ_i = ψ_pope^ηⁱ. The random effects η_i and the residual errors εij are assumed to be independent for different subjects and to be independent of each other for the same subject.

The objective here is to estimate the vector of parametersθ= (ψpop,Ω, σ²) by maximum likelihood. In mixed effects models, the likelihood associated with (2.4.1) and (2.4.2) is intractable as individual likelihoods need to integrate out the unknown parametersψ_i over their distribution.

For MEMs, the expectation computed in (2.3.5) is intractable due to the possible nonlin-earity of the structural model. We thus use the SAEM algorithm introduced above where the latent variables, that are simulated at each iteration, correspond to the individual parametersψi.

1.4.2 Application to Population Pharmacokinetics

In domains such as economy, sociology, genomics or pharmacokinetics-pharmacodynamics (PK-PD), observations from several individuals of a population are measured. Consider the observations Figure2.3.

Figure 1.3 – Viral load of four patients with hepatitis C (taken from [Lavielle,2014]).

These measurements are viral loads for four different patients with hepatitis C (HCV) after treatment that started at time t= 0. We note that in many cases, such as the one

exposed here, data arelongitudinal,i.e.,they are repeated measurements (not necessarily function of time) of an output quantity. Also, every patient does not react to the treatment the same way. For instance, patient 1 sees its viral load decrease after the treatment while patient 3 has almost no response. Following those two remarks, the best way to cope with statistical modeling of the HCV dynamics is to build a model that describes how the viral load evolves with time and a statistical model that explains the difference among patients. Mixed Effects Modeling is a natural framework for such analysis and is thoroughly developed in [Snoeck et al.,2010] for HCV dynamics modeling.

The so-calledpopulation approach becomes very relevant in this cas as it combines (pos-sibly) poor individual information to build a comprehensive population model.

MEMs and the SAEM algorithm are extensively used to handle such experiments through their implementation in software tools such as Monolix, NONMEM, the SAEMIX R pack-age [Comets et al.,2017] and thenlmefitsaMatlab function. Part of our work in this thesis relies on the SAEMIX Package (R [R Development Core Team,2008]), see Chapters6-8.

Our Contributions Several PK models are studied through Chapters 6-8 using the Mixed Effects Modeling and the population approach. We apply and show the efficacy of our newly developed methods to accelerate the MLE phase. An extension of the SAEMIX R package for noncontinuous data models is also presented Chapter8.

Introduction en Français

Abstract: Ce chapitre introductif décrit les objectifs de la thèse et introduit les principaux domaines étudiés dans les chapitres qui suiv-ent. Nous donnons, ici, une vision approfondie de la literature en lien avec ces domaines et insistons sur le gap que ce manuscrit essaye de combler. D’importantes hypothèses et définitions, faites tout au long de la thèse, sont présentées dans ce chapitre afin de se familiariser avec l’optimisation non-convexe, l’approximation stochastique et les modèles à données latentes. La dernière section développe un example spécifique des modèles à données latentes appelé modèles à effets mixtes ainsi que son application à la pharmacologie, comme domaine d’intérêt de notre équipe XPOP, INRIA.

Contents

2.1 Apprentissage Statistique . . . . 38

2.2 Optimisation Non-convexe . . . . 40 2.2.1 Minimisation du Risque Empirique . . . . 42 2.2.2 Approximation Stochastique . . . . 45 2.3 Maximum de Vraisemblance Dans Des Modèles à Données

Latentes . . . . 47 2.3.1 Modèles à Données Latentes. . . . 47 2.3.2 L’algorithme EM . . . . 49 2.3.3 L’algorithme SAEM . . . . 50 2.4 Modèles à Effets Mixtes et Approche de Population . . . . 52 2.4.1 Pourquoi Les Modèles à Effets Mixtes Sont-ils Pertinents? . . . . 52 2.4.2 Applications en Pharmacocinétique. . . . 54

2.1 Apprentissage Statistique

Le domaine de la modélisation mathématique a été au coeur de l’effort humain des-tiné à mieux comprendre le monde, avec des applications allant de la physique aux sci-ences sociales. En particulier, pour traiter un grand nombre de données et modéliser des phénomènes complexes, l’apprentissage statistique est considéré comme l’un des sous-domaines les plus importants de notre époque. Il peut être considéré comme une approche fondée sur des principes d’extraction d’informations utiles à partir de données qui peuvent être exploitées pour exécuter des tâches telles que la prédiction. Il s’agit généralement d’une phase de modélisation, où un modèle est conçue dans un espace de recherche de modèles donné — dans cette thèse, nous nous limitons aux modèles paramétriques où l’espace de recherche est un ensemble de paramètres — et d’une phase d’entrainement oud’optimisation où, pour des paires d’observations entrées-sorties, le modèle est adapté pour décrire au mieux les données. Nous donnons maintenant une formulation rigoureuse des idées présentées ci-dessus.

Formulation mathématique Considérons la paire de variables aléatoires entrées-sorties (X, Y) prenant des valeurs dans un ensemble d’entrées arbitraires X ⊂ R^p et un ensemble de sorties arbitraires Y ⊂ R^q. Par exemple, X est une matrice de covari-ables décrivant un patient hospitalisé (âge, poids, etc.) etY décrit sa charge virale pour l’hépatite C. Nous désignons parP, la distribution selon laquelle cette paire entrée-sortie est tirée. Comme mentionné plus haut, la phase de modélisation consiste à trouver une fonction mesurable Mθ : X 7→ Y qui est dans notre cas une fonction paramétrique de paramètre θ ∈ R^d. Cette fonction est communément appelée le prédicteur et sa perfor-mance est mesurée par une fonction decoût `:Y7→Roù`(y, y⁰) est la perte subie quand la vraie sortie esty alors que y⁰ est prédit. Ensuite, la phase d’entrainement se résume à calculer la quantité suivante :

arg min

θ∈R^d

L(θ) = arg min

θ∈R^d

{L(θ) + R(θ)} avec L(θ) =E_(x,y)∼P`(y, M_θ(x)), (2.1.1) où`est une fonction de perte éventuellement non convexe et fonction de données observées, L est ce qu’on appelle le risque de population et R(·) est un terme de pénalisation qui impose une structure à la solution et est éventuellement non lisse.

Tout au long de cette thèse, nous nous intéressons aux modèles où la relation entrée-sortie n’est pas complètement caractérisée par les paires (x, y) ∈ X×Y observées, mais dépend aussi d’un ensemble de variables latentes non observéesz∈Z⊂R^m. Ces modèles sont appelés modèles à données latentes et sont formellement introduits Section 1.3. Ils incluent le cadre des données incomplètes,i.e.,certaines observations manquent, mais est beaucoup plus large que cela (par exemple, la structure latente peut correspondre aux

labels inconnues dans les modèles de mélange ou aux états cachés dans les modèles de Markov cachés). Dans tous ces cas, une étape de simulation est nécessaire pour compléter les données observées par des réalisations des variables latentes. Cette dernière étape de simulation joue un rôle clé dans ce manuscrit et est traitée en détail dans chaque chapitre.

Formellement, cette spécificité dans notre contexte implique d’étendre la fonction de perte

`pour accepter un troisième argument comme suit :

`(y, M_θ(x)) =^Z

`(z, y, M_θ(x))dz . (2.1.2) Notez que, pour des raisons de notation, nous utilisons le même nom pour les deux fonc-tions de perte définies sur des espaces différents. Enfin, nous considérons des exemples où la fonctionL est lisse dans le sens suivant :

Definition 2.1 Une fonction f : R^d 7→ R est L-smooth si et seulement si elle est dif-férentiable et son gradient est L-Lipschitz-continu,i.e., pour tout (θ, ϑ)∈R^d×R^d :

k∇f(θ)− ∇f(ϑ)k ≤Lkθ−ϑk . (2.1.3) Traditionnellement, l’apprentissage statistique s’est surtout concentré sur le développe-ment de fonctions de perte convexe ` et d’algorithmes tels que SVM ou des modèles graphiques à famille exponentielle. Cependant, de nombreux problèmes importants, tels que la vision par ordinateur et le traitement du langage naturel, ne peuvent être formulés comme une optimisation convexe ou, en tout cas, seront plus coûteux en termes de calcul que leurs équivalents non convexes. En effet, si la convexité peut être considérée comme une vertu, elle peut aussi être considérée comme une limitation dans la complexité du mod-èle choisi pour résoudre un problème donné. Par exemple, les modmod-èles à variables latentes, mentionnés plus haut comme une grande famille de modèles graphiques probabilistes, im-pliquent une optimisation non convexe et sont utiles pour s’attaquer à des tâches telles que la reconnaissance vocale (réalisée par exemple avec des modèles de mélanges gaussiens), qui ne peuvent être traitées avec un modèle convexe.

L’augmentation de la dimension/taille de l’échantillon et la complexité des tâches obligent la communauté des statisticiens à développer des algorithmes plus simples, avec une com-plexité maximale deO(n) où n est soit la dimension soit le nombre d’observations, tout en s’adaptant à des modèles plus complexes et fortement non convexes. Cette question est traitée en détail dans [Bottou and Bousquet,2008] et est à l’origine de l’expansion du domaine de l’optimisation non convexe.

Dans le document The DART-Europe E-theses Portal (Page 37-43)