3.4 Trois analyses à partir du SNDS
3.4.3 Etudier les conséquences d’ une maladie
Souvent, l’étude des conséquences d’une pathologie se retreint à l’analyse de certains indicateurs,
comme le nombre de réhospitalisations, l’apparition de certaines morbidités, et surtout la mortalité
[50].
Depuis quelques années, avec l’ouverture des bases de données médico-administratives, les
chercheurs commencent à s’intéresser de façon plus précise aux conséquences d’un évènement de
santé, non plus avec des données agrégées, mais en prenant en compte le parcours de soins complet
du patient [108]. Pour cela, la méthode la plus souvent rencontrée est l’analyse de séquence qui
construit le parcours du patient comme une séquence de ses consommations de soins, définis au
préalable, par unité de temps.
Les méthodes de comparaison des séquences ont été développées au milieu du 20ème siècle en
informatique, sous le nom de distance de Levenshtein [109] et de Hamming [110], puis utilisées dans
des disciplines variées, notamment en biologie, pour l’étude des séquences génomiques [111]. Elles
ont été introduites en sciences sociales dans les années 1990 par Abbott [112,113] pour tracer et
comparer les parcours de vie. Néanmoins, elles restaient toujours très peu utilisées en épidémiologie,
de par leur complexité de mise en œuvre. L’ouverture du SNDS permet un développement des analyses
de séquences en santé publique, facilitant un suivi précis des consommations de soins des patients.
L’objectif principal de ces analyses est de mettre en évidence des parcours types, à partir d’un
ensemble de parcours individuels. Le processus comporte deux étapes : la première consiste à calculer
la distance entre les séquences deux à deux, c’est-à-dire estimer leurs ressemblances, ou plutôt leurs
dissemblances ; la seconde à regrouper les séquences qui se ressemblent le plus, et éloigner les
séquences qui se ressemblent le moins [114].
Plusieurs méthodes permettent de mesurer les distances entre deux séquences, chacune avec sa
spécificité [115]. Les distances euclidiennes ou du khi-deux prennent en compte le temps passé dans
chaque élément de la séquence, comme par exemple, la durée totale passée en hospitalisation durant
le parcours de soins, mais elles ne prennent pas en compte la temporalité, comme le moment de
survenu de l’hospitalisation, et l’ordre des éléments de la séquence [115,116]. Une mesure proposée
57
par Rousset et al. utilise aussi des distances euclidiennes pour comparer les séquences, mais cette
fois-ci en rapprochant les séquences conduisant au même futur [117]. La distance de Hamming, elle,
mesure la dissimilarité entre deux séquences en calculant le nombre d’unités de temps où les éléments
de la séquence diffèrent. Cette mesure est très sensible aux décalages dans le temps [110]. La mesure
LCS (length of the longest common subsequence) prend en compte, comme son nom l’indique, le
nombre d’éléments dans une séquence qui sont retrouvés dans le même ordre dans l’autre séquence.
Une autre mesure, développée en 2003 et optimisée en 2015, est basée sur le nombre de
sous-séquences similaires entre deux sous-séquences, avec une pondération selon sa longueur et la durée des
éléments impliqués [118,119]. Enfin, l’Optimal Matching (OM), est la méthode la plus utilisée dans
l’analyse de séquence. Elle mesure la dissimilarité entre deux séquences en calculant le coût nécessaire
pour la transformation d’une séquence en une autre. Cette mesure est très flexible, et prend en
compte les décalages temporels et les inadéquations.
Après avoir mesuré les distances entre les séquences deux à deux, les séquences voisines doivent être
regroupées en classes. De nombreuses méthodes de classification ont été développées pour réaliser
ces regroupements. Deux types sont principalement rencontrés dans la littérature : les méthodes de
classification ascendante hiérarchique qui optimisent un critère d’agrégation à chaque étape
d’itération sans réallocation possible des séquences et les méthodes de partitionnement non
hiérarchiques qui optimisent des regroupements pour un nombre de prédéfini de classe. Pour les
premières, chaque séquence est initialement considérée comme une classe indépendante, puis les
deux séquences les plus proches sont regroupées dans une classe. Pas à pas, un arbre est construit,
jusqu’à ce que toutes les séquences soient agrégées en une seule classe. Dans cette approche, une fois
deux séquences rassemblées, elles ne peuvent être séparées [120]. La méthode de Ward [121] est la
méthode la plus utilisée, elle mesure la distance entre les classes en utilisant les centres de gravité de
celles-ci. Une fois le nombre de classes retenu, il est possible de maximiser la répartition des séquences
parmi les classes en utilisant une méthode de classification non hiérarchique [122]. Plusieurs ont été
développées, comme la méthode des centres mobiles [120], ou la méthode PAM, Partitionning around
medoids, qui permet une répartition optimale des séquences selon leur distance avec le médoide16 de
chaque classe [120,123,124].
Pour étudier les conséquences d’une infection ostéo-articulaire (IOA) à bactéries résistantes (exposés)
en comparaison à une IOA à bactéries sensibles (non exposés), une analyse de séquence a été réalisée.
Chaque parcours correspondait à un ensemble de consommations de soins hospitaliers
16 Médoide = Observation d’un groupe ayant la plus petite somme des distances aux autres observations du
groupe
58
(hospitalisation en MCO, en SSR, etc.) et ambulatoires (consultations médicales et paramédicales, etc.).
Les éléments constituant la séquence et à la temporalité des évènements ont été pris en compte. Dans
ce cadre, la méthode Optimal Matching est la plus adaptée pour comparer les parcours de soins deux
à deux, et une méthode mixte de classification ascendante hiérarchique suivie d’une méthode PAM
pour regrouper les parcours de soins similaires. L’analyse de séquence permet de décrire les différents
parcours, et de mettre en évidence des parcours types, mais elle ne permet pas d’estimer si les
infections à bactéries résistantes sont associées à un parcours spécifique. Pour cela, une régression
logistique multinomiale a été réalisée pour estimer si le caractère résistant ou sensible de la bactérie
en cause de l’infection était associé au type de parcours de soins.
59
ETAT DES LIEUX DE LA RESISTANCE EN FRANCE
Dans le document
Résistance bactérienne aux antibiotiques, apport du système national des données de santé
(Page 57-60)