• Aucun résultat trouvé

3.4 Trois analyses à partir du SNDS

3.4.3 Etudier les conséquences d’ une maladie

Souvent, l’étude des conséquences d’une pathologie se retreint à l’analyse de certains indicateurs,

comme le nombre de réhospitalisations, l’apparition de certaines morbidités, et surtout la mortalité

[50].

Depuis quelques années, avec l’ouverture des bases de données médico-administratives, les

chercheurs commencent à s’intéresser de façon plus précise aux conséquences d’un évènement de

santé, non plus avec des données agrégées, mais en prenant en compte le parcours de soins complet

du patient [108]. Pour cela, la méthode la plus souvent rencontrée est l’analyse de séquence qui

construit le parcours du patient comme une séquence de ses consommations de soins, définis au

préalable, par unité de temps.

Les méthodes de comparaison des séquences ont été développées au milieu du 20ème siècle en

informatique, sous le nom de distance de Levenshtein [109] et de Hamming [110], puis utilisées dans

des disciplines variées, notamment en biologie, pour l’étude des séquences génomiques [111]. Elles

ont été introduites en sciences sociales dans les années 1990 par Abbott [112,113] pour tracer et

comparer les parcours de vie. Néanmoins, elles restaient toujours très peu utilisées en épidémiologie,

de par leur complexité de mise en œuvre. L’ouverture du SNDS permet un développement des analyses

de séquences en santé publique, facilitant un suivi précis des consommations de soins des patients.

L’objectif principal de ces analyses est de mettre en évidence des parcours types, à partir d’un

ensemble de parcours individuels. Le processus comporte deux étapes : la première consiste à calculer

la distance entre les séquences deux à deux, c’est-à-dire estimer leurs ressemblances, ou plutôt leurs

dissemblances ; la seconde à regrouper les séquences qui se ressemblent le plus, et éloigner les

séquences qui se ressemblent le moins [114].

Plusieurs méthodes permettent de mesurer les distances entre deux séquences, chacune avec sa

spécificité [115]. Les distances euclidiennes ou du khi-deux prennent en compte le temps passé dans

chaque élément de la séquence, comme par exemple, la durée totale passée en hospitalisation durant

le parcours de soins, mais elles ne prennent pas en compte la temporalité, comme le moment de

survenu de l’hospitalisation, et l’ordre des éléments de la séquence [115,116]. Une mesure proposée

57

par Rousset et al. utilise aussi des distances euclidiennes pour comparer les séquences, mais cette

fois-ci en rapprochant les séquences conduisant au même futur [117]. La distance de Hamming, elle,

mesure la dissimilarité entre deux séquences en calculant le nombre d’unités de temps où les éléments

de la séquence diffèrent. Cette mesure est très sensible aux décalages dans le temps [110]. La mesure

LCS (length of the longest common subsequence) prend en compte, comme son nom l’indique, le

nombre d’éléments dans une séquence qui sont retrouvés dans le même ordre dans l’autre séquence.

Une autre mesure, développée en 2003 et optimisée en 2015, est basée sur le nombre de

sous-séquences similaires entre deux sous-séquences, avec une pondération selon sa longueur et la durée des

éléments impliqués [118,119]. Enfin, l’Optimal Matching (OM), est la méthode la plus utilisée dans

l’analyse de séquence. Elle mesure la dissimilarité entre deux séquences en calculant le coût nécessaire

pour la transformation d’une séquence en une autre. Cette mesure est très flexible, et prend en

compte les décalages temporels et les inadéquations.

Après avoir mesuré les distances entre les séquences deux à deux, les séquences voisines doivent être

regroupées en classes. De nombreuses méthodes de classification ont été développées pour réaliser

ces regroupements. Deux types sont principalement rencontrés dans la littérature : les méthodes de

classification ascendante hiérarchique qui optimisent un critère d’agrégation à chaque étape

d’itération sans réallocation possible des séquences et les méthodes de partitionnement non

hiérarchiques qui optimisent des regroupements pour un nombre de prédéfini de classe. Pour les

premières, chaque séquence est initialement considérée comme une classe indépendante, puis les

deux séquences les plus proches sont regroupées dans une classe. Pas à pas, un arbre est construit,

jusqu’à ce que toutes les séquences soient agrégées en une seule classe. Dans cette approche, une fois

deux séquences rassemblées, elles ne peuvent être séparées [120]. La méthode de Ward [121] est la

méthode la plus utilisée, elle mesure la distance entre les classes en utilisant les centres de gravité de

celles-ci. Une fois le nombre de classes retenu, il est possible de maximiser la répartition des séquences

parmi les classes en utilisant une méthode de classification non hiérarchique [122]. Plusieurs ont été

développées, comme la méthode des centres mobiles [120], ou la méthode PAM, Partitionning around

medoids, qui permet une répartition optimale des séquences selon leur distance avec le médoide16 de

chaque classe [120,123,124].

Pour étudier les conséquences d’une infection ostéo-articulaire (IOA) à bactéries résistantes (exposés)

en comparaison à une IOA à bactéries sensibles (non exposés), une analyse de séquence a été réalisée.

Chaque parcours correspondait à un ensemble de consommations de soins hospitaliers

16 Médoide = Observation d’un groupe ayant la plus petite somme des distances aux autres observations du

groupe

58

(hospitalisation en MCO, en SSR, etc.) et ambulatoires (consultations médicales et paramédicales, etc.).

Les éléments constituant la séquence et à la temporalité des évènements ont été pris en compte. Dans

ce cadre, la méthode Optimal Matching est la plus adaptée pour comparer les parcours de soins deux

à deux, et une méthode mixte de classification ascendante hiérarchique suivie d’une méthode PAM

pour regrouper les parcours de soins similaires. L’analyse de séquence permet de décrire les différents

parcours, et de mettre en évidence des parcours types, mais elle ne permet pas d’estimer si les

infections à bactéries résistantes sont associées à un parcours spécifique. Pour cela, une régression

logistique multinomiale a été réalisée pour estimer si le caractère résistant ou sensible de la bactérie

en cause de l’infection était associé au type de parcours de soins.

59

ETAT DES LIEUX DE LA RESISTANCE EN FRANCE

Documents relatifs