• Aucun résultat trouvé

3.4 Validation

3.4.2 Validation de la méthode de détection de déviations

3.4.2.1 Méthode de validation

Pour valider notre méthode, nous avons utilisé la méthode leave-one-out : nous avons entraîné un modèle grâce aux données de 10 patients et nous l'avons testé sur le onzième patient, processus répété jusqu'à ce que tous les patients soient testés.

La gure 3.11 illustre cette validation. L'étape d'apprentissage (décrite dans la section précédente, gure 3.1) fournit deux éléments essentiels : le modèle de détection et le sSPM S. L'iSPM restant est échantillonné à la même fréquence que les données d'apprentissage et est aligné sur S an de pouvoir calculer la distance entre l'iSPM aligné à tester et S. Comme pré-cédemment, nous créons la séquence d'observations et la séquence des états cachés grâce à la distance et à l'iSPM aligné. La séquence d'états cachés ser-vira de vérité terrain. Nous la comparerons avec la séquence des déviations détectées par la résolution du problème de déduction (problème 2 énoncé en section 3.3.7.1, page 99) à partir du modèle de détection et de la séquence d'observations.

Pour valider notre méthode, nous avons mis en place plusieurs études : 1. inuence de l'échantillonnage ;

2. apport du couplage total entre les deux mains du chirurgien ; 3. inuence des poids des composants des activités.

Nous présenterons ces études dans la section 3.4.2.2 et les résultats asso-ciés dans la section 3.4.3.

Figure 3.11  Méthode de validation leave-one-out. La boite intitulée ap-prentissagee fait référence au processus d'apprentissage présenté gure 3.1 (page 87. iSPM : modèle individuel de processus chirurgical. MD-NLTS : ali-gnement temporel non-linéaire multi-dimensionnel. S

test : iSPM à tester ali-gné. S : modèle spécique de processus chirurgicaux. La distance d est calculée entre chaque échantillon de l'iSPM aligné S

test et S. Pour tester le modèle semi-Markovien caché (HsMM), nous créons la séquence d'observation grâce à la distance d et à Stest. Pour vérier notre modèle, nous comparons la sé-∗

3.4.2.2 Études réalisées

Étude 1 : Inuence de l'échantillonnage

L'objectif de cette étude est de déterminer si le taux d'échantillonnage a une inuence sur les résultats, an de savoir s'il y a un taux d'échantillonnage à privilégier. Les taux d'échantillonnage étudiés vont de 2 échantillons par seconde à 12 échantillons par seconde par pas de 1 échantillon par seconde. Nous avons aussi étudié les résultats pour 12,5 échantillons par seconde, car ceci correspondait à la moitié du nombre d'images par seconde disponible sur les vidéos (25 Hz). Les poids des dimensions (αm) ont été xés à αm = 1 (voir section 3.3.4.4 et section 3.3.6) pour cette étude.

Dans cette étude, nous avons aussi utilisé notre méthode de propagation de l'information temporelle an de voir si celle-ci modiait nos résultats. Nous avons donc trois sous-études : l'inuence de l'échantillonnage sur les échantillons alignés (étude 1.a), l'inuence de l'échantillonnage avec un retour dans le domaine temporel (étude 1.b) et l'inuence de l'échantillonnage avec un retour dans le domaine temporel avec ltrage (étude 1.c). Les résultats sont présentés en section 3.4.3.1.

Étude 2 : Couplage total entre les deux mains du chirurgien

Dans le cadre d'une opération, le chirurgien utilise ces deux mains. Ainsi, nous avons étudié l'inuence de l'ajout de l'information de la seconde main sur les résultats. Pour cela, nous avons mis en place un couplage total (-gure 3.12), c'est-à-dire qu'à partir des séquences des deux mains nous créons une nouvelle séquence qui à chaque instant prend les valeurs des activités de chaque main. Comme illustré par la gure 3.12, à partir des deux activités de la main principale (A et E) et des 3 activités de la main secondaire (B, C et D) on arrive à une séquence composée de 4 paires d'activités (A/B, A/C, A/D et E/D).

L'ajout de cette seconde main, par couplage total, n'entraîne pas de mo-dications majeures de la méthode, nous passons juste de 3 à 6 dimensions (le verbe, la cible et l'instrument pour chaque main), donc le MD-NLTS et le calcule de la distance entre les iSPMs et la référence sont fait sur 6 dimen-sions au lieu de 3. Les observations ont aussi été modiées an de prendre en compte les éléments de la main secondaire et comportent maintenant 7 éléments : la distance, les trois composants de l'activité de la main principale et les trois composants de l'activité de la seconde main.

Nous avons fait cette étude pour des αm = 1(voir section 3.3.4.4 et section 3.3.6) pour chaque dimension et les taux d'échantillonnages suivants : 2, 4, 8, 10 et 12,5. Les résultats sont présentés en section 3.4.3.2.

Figure 3.12  Représentation de la séquence obtenue avec un couplage com-plet entre les deux mains du chirurgien.

Étude 3 : Inuence du poids donné aux composants

L'objectif de cette étude est d'étudier l'importance du poids attribué (αm) aux composants des activités (verbe d'action, cible ou instrument chirurgical) sur la détection des déviations. Pour cela, nous avons uniquement utilisé les informations de la main principale et xé le taux d'échantillonnage à 12,5. Pour chaque poids, deux dimensions sont xées à 1, et la troisième dimension varie de 0 à 1 par pas de 0,1. Ainsi, nous avons trois sous-études : l'inuence du poids donné au verbe d'action (étude 3.a), l'inuence du poids donné à la cible (étude 3.b) et l'inuence du poids donné à l'instrument chirurgical (étude 3.c).

Ceci nous a permis d'étudier l'importance de chaque composant des ac-tivités an de savoir si un de ces composants avait peu d'importance dans la détection de déviation. Les résultats sont présentés en section 3.4.3.3. 3.4.2.3 Méthode d'analyse des erreurs de détection

Notre méthode de détection de déviation commet des erreurs, principale-ment concernant l'état caché déviation événeprincipale-mentielle. An de comprendre d'où proviennent ces erreurs, nous avons étudié en détail les observations identiées comme appartenant à cet état, mais qui appartiennent en réalité à un autre. Il s'avère qu'une très grande majorité (supérieur à 90 %) de ces erreurs proviennent d'observations appartenant à l'état déviation anatomi-que, nous nous sommes donc focalisé sur ces observations.

Nous avons identié 4 catégories d'erreurs pour ces observations :

1. Rarement mal détectée : il s'agit d'observations qui sont mal iden-tiées dans moins de 10 % des cas. Ces erreurs sont dues à un délai pouvant intervenir dans le modèle avant que celui-ci ne change d'état ;

2. Non entraînée : il s'agit d'observations qui ne sont présentes que dans la chirurgie à tester. Le modèle n'ayant pas appris à quel état caché elles sont reliées, il décide de manière arbitraire l'état aecté ;

3. Correctement entraînée : dans l'ensemble des données d'apprentis-sage, le modèle a appris à classier ces observations comme appartenant à la classe déviation événementielle. Le modèle classe donc correcte-ment ces observations selon ses connaissances ;

4. Autre : il s'agit d'observations qui n'ont pas de raison particulière d'être mal classées.

Cette analyse a été réalisée dans le cas où on utilise uniquement les infor-mations de main dominante (étude 1.a) avec celles dans le cas de l'utilisation des deux mains (étude 2).

3.4.2.4 Métriques utilisées

Les métriques utilisées et dont les dénitions sont rappelées ci-dessous sont : le taux de reconnaissance, le rappel, la précision.

Le taux de reconnaissance représente le pourcentage d'échantillon correc-tement identié (équation 3.11).

T aux de reconnaissance = PN

i=n nb échantillons correctement identiés pour la classe n

nombre total d'échantillons , (3.11)

avec N le nombre de classes du HsMM (dans notre cas 3, i.e. le nombre d'états cachés).

Cependant, la répartition du nombre d'observations par classe n'est pas homogène. En eet, environ 68 % des observations appartiennent à la classe pas de déviation, 26 % à la classe déviation anatomique et uniquement 6 % à la classe déviation événementielle. Le taux de reconnaissance ne représente donc pas la capacité à correctement diérencier les deux types de déviations, en eet si toutes les observations des classes pas de déviation et déviation anatomique sont correctement identiées par le modèle le taux de reconnaissance peut être de 94 % (68 %+24 %), même si aucune déviation événementielle n'est correctement détectée, or c'est ce type de déviation qui nous intéresse particulièrement. Pour vérier si le modèle est capable de correctement identier les observations de la classe déviation événementielle nous avons aussi étudié le rappel et la précision pour chaque état caché.

Le rappel correspond au nombre d'échantillons correctement identiés comme appartenant à une classe sur le nombre d'échantillons appartenant

réellement à cette classe (équation 3.12). Il représente la capacité du modèle à correctement identier les échantillons dans leur classe.

rappel classe n =

nb échantillons correctement identiés pour la classe n

nombre d'échantillons appartenant réellement à n . (3.12) La précision correspond au nombre d'échantillons correctement identiés comme appartenant à une classe sur le nombre d'échantillons attribués à cette classe (équation 3.13). Elle représente l'absence d'erreur de prédiction.

précision classe n =

nb échantillons correctement identiés pour la classe n

nombre d'échantillons identiés comme appartenant à n . (3.13) Nous évaluons donc nos détections grâce à sept résultats exploitant ces métriques :

- 1 résultat pour le taux de reconnaissance ; - 3 résultats pour le rappel (il y a 3 classes) ; - 3 résultats pour la précision.

Idéalement, nous désirons avoir des résultats parfaits, c'est-à-dire que pour chaque étude ces 7 résultats soient de 100 %.

3.4.2.5 Validation statistique

An de vérier l'inuence des diérents paramètres (taux d'échantillon-nage et αm) sur les résultats de détection, nous avons eectué le test non-paramétrique de Kendall. Ce test permet d'identier s'il existe une corrélation entre le résultat testé et le paramètre étudié. Dans notre étude de l'inuence du taux d'échantillonnage, ce test nous permettra de dire si les résultats ont tendance à augmenter ou à diminuer lorsque le taux d'échantillonnage augmente. Pour que cette évolution soit signicative, nous considérons que la p-value doit être inférieure à 0,05. Néanmoins, puisque nous avons 7 résultats par type d'étude, ceci entraîne 7 tests par étude, nous rentrons donc dans le cadre de comparaison multiple, le hasard peut donc entraîner un faux test positif. Selon la méthode de correction de Bonferroni [109, 110], pour contre-carrer ce problème de comparaison multiple, le résultat est signicatif si la p-value est inférieure à 0,0071 (0,05/7).

3.4.3 Résultats de la méthode de détection de