• Aucun résultat trouvé

1.2 Le modèle à effets mixtes linéaire par morceaux

1.2.2 Application à MIG-HD

Dans l’essai clinique MIG-HD, les patients sont tous suivis avant et après traitement mais ne sont pas tous greffés au même moment. Les patients du groupe « greffe précoce » sont greffés après 13 mois de suivi tandis que les patients du groupe « greffe tardive » sont greffés après 33 mois de suivi. Nous proposons d’aligner les données des deux groupes sur la date de la première greffe qui deviendra le temps t = 0 (baseline) comme le montre la figure 6.

Figure 6 – Réalignement des données des groupes « greffe précoce » et « greffe tardive »

A. Alignement sur la date d’inclusion ; B. Alignement sur la date de la première greffe. En alignant les données sur la date de la première greffe, les données pré-greffe seront majoritairement du groupe « greffe tardive » tandis que les données post-greffe seront majoritairement du groupe « greffe précoce ».

En adaptant le modèle (1.9) à ces données, nous modifions l’interprétation des para-mètres. Le tableau 1 résume l’interprétation des paramètres du modèle (1.9) dans le cas standard développé par Madsen et al. et dans le cas de son adaptation aux données de MIG-HD.

De façon plus générale, ce modèle peut être utilisé sur des données issues du bras de randomisation « traitement » d’un essai clinique longitudinal avec une période d’obser-vation pré-traitement ou des deux bras de randomisation dans le cas d’un essai clinique « delayed-start ». Il peut aussi s’appuyer sur des données observationnelles de suivi de cohorte.

Lors de l’analyse de l’essai MIG-HD, nous avons appliqué ce modèle pour évaluer l’effet du traitement sur la pente d’évolution du score moteur de l’UHDRS. Ce modèle nous a

1.2. Le modèle à effets mixtes linéaire par morceaux

Table 1 – Interprétation des paramètres du modèle (1.9)

Modèle présenté par Madsen et al.

Modèle adapté à MIG-HD Interprétations modifiées :

t temps depuis l’inclusion temps depuis la première greffe (les

temps pré-greffe sont négatifs)

τ délai entre l’inclusion et le

traite-ment

délai entre l’initiation du traitement et l’effet du traitement

β0 score moyen à l’inclusion score moyen à l’initiation du traitement

Interprétations non modifiées :

β1 pente moyenne pré-traitement pente moyenne pré-traitement

β2 différentiel de pente moyen différentiel de pente moyen

permis de tenir compte à la fois du plan expérimental en « delayed-start » et des temps de mesures décalés et/ou rajoutés suite à la difficulté de programmer les greffes. Lors de cette analyse, nous avons fait l’hypothèse d’un effet immédiat de la greffe, soit τ = 0. Nous n’avons pas mis en évidence de différence de pente pré- et post-traitement dans cet essai.

Chapitre 2

Clustering des données quantitatives

(Etat de l’art)

Le clustering est le terme générique désignant les méthodes d’apprentissage non super-visée permettant de construire des sous-groupes de données homogènes. Ces méthodes, où les sous-groupes ne sont pas pré-définis, se différencient des méthodes d’apprentissage supervisées qui visent à prédire des règles de classification à partir d’exemples de sous-groupes déjà définis. En général, les méthodes classiques de clustering s’appliquent sur des données transversales. Certaines études longitudinales de clustering s’intéressent aussi à des données transversales en résumant l’information par exemple par un coefficient de pente ou une durée de survie (méthode en deux étapes). D’autres, à l’inverse, vont uti-liser les données longitudinales dans le clustering en y intégrant les mesures répétées. Parce qu’aucune de ces méthodes de clustering pour données longitudinales n’est satisfai-sante dans notre cas, où l’on souhaite trouver des patients répondeurs à un traitement, nous avons proposé une nouvelle méthode. Notre méthode appartient à la catégorie des méthodes en deux étapes et sera décrite au chapitre 3. Parce que nous utiliserons des méthodes pour données quantitatives transversales et que nous comparerons nos résultats avec les méthodes pour données quantitatives longitudinales, nous faisons ici une revue de ces méthodes. Les algorithmes que nous décrivons appartiennent aux grands groupes de méthodes représentés sur la figure 7.

2.1. Mesures de dissimilarité entre deux observations

Figure 7 – Schématisation de la place des algorithmes que nous décrivons parmi les techniques d’apprentissage

2.1 Mesures de dissimilarité entre deux observations

Les algorithmes de clustering se basent sur des mesures de similarité (s) ou de dissimi-larité (d) entre deux observations. Pour les algorithmes non paramétriques, d est une appli-cation, appelée distance, à valeurs dans l’ensemble des réels positifs (d : E ×E −→ R+) où

E ⊂ Rp représente l’ensemble de nos observations. L’application d vérifie les propriétés : • de symétrie : ∀(i,j) ∈ E2,d(i,j) = d(j,i) ;

• de séparation : ∀(i,j) ∈ E2,d(i,j) = 0 ⇔ i = j ;

• d’inégalité triangulaire : ∀(i,j,m) ∈ E3,d(i,j) ≤ d(i,m) + d(m,j).

Soit xi un vecteur de dimension p des caractéristiques de l’observation i où xi1,...,xip sont des valeurs quantitatives continues (scores). La distance entre deux observations i et j se calcule à partir de ces scores. La distance est d’autant plus faible que les scores sont proches. La table 2 présente les principales distances pouvant être utilisées au sein des algorithmes non paramétriques [59, 60].

La distance euclidienne, aussi appelée norme L2, est la distance la plus connue. Elle peut être assimilée à la distance parcourue à vol d’oiseau entre deux points A et B, tandis que la distance de Manhattan [61], ou norme L1, serait assimilée à la distance parcourue en marchant dans des rues suivant un quadrillage. La distance de Chebyshev, ou norme L+∞, correspond à la plus grande projection de B sur les axes de l’espace dont le centre serait défini par A (voir Figure 8 pour un exemple en dimension 2). Les distances euclidienne, de Manhattan et de Chebyshev sont des cas particuliers de la distance de Minkowski avec respectivement le paramètre de Minkowski r égal à 1, 2 et +∞. Lorsque p = 1 la distance

2.1. Mesures de dissimilarité entre deux observations

Table 2 – Exemples de distances pouvant être utilisées au sein des algorithmes non paramétriques pour les données quantitatives

Distance d(i,j) Distance d(i,j)

Minkowski  p P `=1 | x`,i− x`,j |r 1/r r ≥ 1 Euclidienne s p P `=1 | x`,i− x`,j |2 Canberra p P `=1

w`(i,j) | x`,i− x`,j | Manhattan

p P `=1 | x`,i− x`,j | w`(i,j) = 0 si x`,i = x`,j = 0 1 |x`,i|+|x`,j| sinon Chebyshev max `∈1..p | x`,i− x`,j | Pearson (p > 1) 1 − p P `=1 x`,ix`,j r p P `=1 x2 `,i p P `=1 x2 `,j Corrélation (p > 1) 1 − √ cov(xi,xj) var(xi)var(xj) d(i,j) est la distance entre deux observations i et j lorsque x`,i et x`,j représentent les scores à la caractéristique ` avec ` ∈ {1,...,p}. Les distances de Pearson et de Corrélation ne sont pas définies pour

p = 1. Les formules présentées dans ce tableau n’utilisent pas de terme de pondération, supposant que le

même poids est donné à toutes les caractéristiques ` ∈ {1,...,p}.

quel que soit r. Les distances euclidienne, de Manhattan et de Chebyshev sont donc égales dans le cas p = 1.

La distance de Canberra [62] peut être vue comme une version pondérée de la distance de Manhattan. Le dénominateur assure une forte sensibilité aux faibles variations lorsque (Xi,Xj) est proche de (0,0). Pour p = 1, cette distance est à valeur dans [0; 1] où 1 est atteint dès que Xi et Xj sont de signes opposés.

La distance de Pearson, aussi appelée distance de Pearson non centrée, ou distance angu-laire est égale à 1 − cos(θ) où θ est l’angle entre les deux vecteurs Xi et Xj. Cette distance est à valeur dans [0,2]. La distance de corrélation, aussi appelée distance de Pearson cen-trée est à valeur dans [0,2].

Différentes distances appliquées sur les mêmes données dans le but de construire des sous-groupes homogènes peuvent conduire à des résultats différentes. Il n’y a pas une mesure qui soit optimale par rapport aux autres, sauf peut-être d’utiliser celle qui semble donner la meilleure interprétation [63].