• Aucun résultat trouvé

3.4 Validation

3.5.3 Étude 2 : Couplage total entre les deux mains

Les résultats de couplage entre les deux mains ne sont pas signicatifs, seul le rappel de l'état déviation anatomique est amélioré d'environ 8% pour le meilleur résultat. L'analyse des erreurs de détection a mis en évidence que bien que la majorité des observations appartienne toujours à la catégorie 4, celle-ci a diminuée de 21% par rapport à l'étude 1.a (74% contre 53%). Ainsi, l'ajout de l'information de la seconde main permet bien de diminuer l'importance de cette catégorie.

Cette diminution a entraîné une plus grande part des observations ap-partenant aux catégories 2 (observations non-entraînées) et 3 (observations correctement entraînées), respectivement 26% et 20%. Ceci peut s'expliquer par le fait que nous avons considéré que les activités des deux mains étaient entièrement couplées. Les deux mains travaillent en eet de concert, mais ceci ne signie pas que les activités sont toujours associées de la même manière. Ainsi, dans la gure 3.12 alors que la main dominante fait une activité A, la seconde main fait 3 activités diérentes (B, C et D). Ainsi avec un couplage complet, on considère qu'il y a 3 types d'associations diérentes A/B, A/C et A/D. Or si dans le cadre de l'apprentissage une des associations n'existe pas, les observations issues de cette association viendront goner le nombre d'observation de la catégorie 2.

Pour la catégorie 3, c'est un problème similaire. Une des associations, par exemple A/C, peut être, dans l'ensemble d'apprentissage, associée à un EI. Ainsi le modèle apprend à reconnaître les observations issues de cette association comme appartenant à l'état déviation événementielle. Mais rien

n'indique que l'EI est davantage lié à l'association des activités des deux mains que de l'activité de la main principale.

Ainsi, bien que le couplage total que nous avons utilisé semble permettre une diminution de la répartition des observations mal détectées appartenant à la catégorie 4. Les résultats et la réparation des observations dans les caté-gories 2 et 3 montrent que ce type de couplage n'est pas une solution viable.

3.5.4 Étude 3 : Inuence des poids des composants des

activités

Aucun des poids des composants des activités n'a d'inuence signicative sur les résultats. Néanmoins, dans le cadre d'une détection automatique des composants d'activité, cette étude nous permet de déterminer s'il est possible de se passer d'un des trois composants.

L'outil semble être le composant qui pourrait être ignoré. En eet, celui-ci n'inuence aucun des résultats. Ceci peut s'expliquer par le fait qu'un outil possède un certain nombre de fonctions, et que chaque fonction est fortement corrélée à un verbe d'action. Ainsi en connaissant le verbe d'action, on connaît la fonction de l'outil qui est utilisé. Une autre explication possible est que la main dominante, sur les deux phases que nous avons étudiées, utilise presque exclusivement le crochet monopolaire (gure 3.10). Donc l'information n'est pas discriminante pour la détection.

Il s'avère que l'outil chirurgical est actuellement le composant le plus simple à identier de manière automatique [29]. Il est aussi envisageable de savoir quel instrument est utilisé grâce à des capteurs. Ainsi avoir les informations sur les outils est relativement simple, il n'existe donc pas de raison objective de se passer de cette information, et se passer d'un des autres composants semble donc plus pertinent à l'heure actuelle.

À partir des informations fournies par la vidéo, la reconnaissance d'une cible correspond à la reconnaissance d'une forme pouvant varier et se dé-placer dans le temps. Par exemple, Lalys [29] détecte facilement les cibles (structures anatomiques de l'÷il), mais l'environnement d'une chirurgie de la cataracte est relativement simple en comparaison de celui d'une chirurgie laparoscopique. La détection de cible en chirurgie laparoscopique est possible, mais les méthodes actuelles nécessitent l'ajout de d'autres modalités d'image-rie, par exemple les ultrasons, et sont spéciques à une structure particulière (projet DEPORRA [111]).

La reconnaissance du verbe est envisageable grâce à la détermination de la trajectoire tridimensionnelle de l'outil. Une telle trajectoire est facilement disponible dans le cas d'une application robotisée grâce aux capteurs de

po-sition, mais nécessite des méthodes de tracking dans le cas d'une application basée vidéo [112]. Connaître la trajectoire ne fait pas tout, il est encore né-cessaire de déterminer la relation entre les trajectoires et les verbes d'action. L'utilisation des surgemes peut être une première étape pour déterminer cette relation. Despinoy et al. [48] proposent une méthode pour reconnaître les surgemes (voir tableau 1.10, page 22, pour la dénition) dans le cadre d'un exercice constituant à déplacer des plots d'un point A à un point B grâce à l'utilisation d'un robot. Parmi les surgemes reconnus, certains sont dénis par des concepts très proche de celui du verbe d'action : se déplacer vers la cible ou attraper la cible. Les verbes d'action pourraient être identiés en mettant en évidence des successions de surgemes spéciques.

D'un point de vue clinique, il est préférable de détecter toutes les dé-viations dues à un événement indésirable, même s'il existe quelques fausses alarmes. Autrement dit, il est préférable d'avoir un rappel élevé pour l'état déviation événementielle, même si la précision est plus mauvaise. Lorsque le poids du verbe ou de la cible est à 0, nous avons respectivement un rappel pour cet état de 85 % et de 63 % comparé à un rappel de 61 % lorsque tous les poids sont à 1. Mais, lorsque le poids du verbe ou de la cible est à 0, la précision est respectivement de 24 % et de 16 %. Alors qu'elle est de 34 % lorsque tous les poids sont à 1. Le gain de rappel est-il susant pour justier d'augmenter encore le nombre de fausses alertes ? C'est une question qui dépend vraiment de l'application nale [49]. Si l'objectif d'une telle l'application est d'analyser a posteriori une opération d'apprentissage sur simulateur, le fait de retourner de fausses alertes n'est pas forcément pro-blématique surtout lorsque l'on prend en compte qu'environ 90 % des fausses alertes représentent des déviations anatomiques. En revanche, dans le cadre de l'aide à la chirurgie au bloc opératoire, augmenter le nombre de fausses alertes aura comme conséquence d'exaspérer le chirurgien qui désactivera le système.

3.5.5 Méthode

En plus de la limite sur la création du sSPM, l'analyse des erreurs de détection dans les études 1.a et 2, nous a permis de mettre d'autres limites en évidence, ce qui nous a donné des pistes d'amélioration. Avoir un plus large ensemble d'apprentissage permettrait de diminuer le nombre d'observations qui ne sont présentes que dans la chirurgie testée (catégorie 2), mais aussi de s'assurer que les observations de la catégorie 3 (correctement entraînées) sont dues à un processus de récupération du chirurgien.

Même avec davantage de données, il est toujours possible de rencontrer des observations qui ne sont jamais apparues dans l'ensemble d'apprentissage.

Dans ce cas, une solution envisageable consiste à modier le HsMM an que ces observations ne se voient pas attribuer un état caché de manière arbitraire. Meier et al. [113] proposent une méthode pour détecter l'observation la plus proche de celle qui est non présente dans l'ensemble d'apprentissage. Dans notre cas, les observations sont constituées des composants des activités et de la distance entre ces composants et ceux du sSPM (section 3.3.6). Les observations les plus proches pourraient être dénies comme celles ayant une distance proche ou avec des composants d'activité similaire à l'observation, par exemple deux outils avec des fonctions identiques.

Pour diminuer le nombre d'observations appartenant à la catégorie 4, nous avons émis l'hypothèse que la main secondaire pouvait aussi fournir de l'information utile pour détecter et diérencier des activités. Les résul-tats de l'étude avec un couplage total entre les deux mains nous ont montré que c'était bien le cas. Cependant, le nombre d'observations des catégories 2 et 3 était beaucoup plus important, ce qui avait un impact direct sur les résultats, un couplage total n'est donc pas la solution. An d'améliorer les résultats, une des solutions serait de modier notre méthodologie an d'avoir un alignement multi-dimensionnel où chaque main est traitée indépendam-ment. C'est-à-dire que pour chaque main la distance serait calculée comme nous le faisons actuellement(DTW dépendant) et qu'ensuite, les deux mains seraient alignées par un DTW indépendant. Pour diérencier les déviations, le HsMM serait modié pour être un modèle markovien couplé : dans un tel modèle, il n'existe qu'une seule séquence d'états cachés, mais deux séquences d'observations (ces deux séquences seraient dans notre cas les séquences de chaque main).

Une autre limite de notre méthode est qu'il est actuellement nécessaire d'annoter manuellement les activités. Avec l'étude de l'inuence des poids de chaque composant des activités, nous avons essayé de voir s'il était possible de se passer de l'un d'eux. Il s'avère que le composant qui a le moins d'in-uence sur les résultats est aussi celui qui est le plus facilement identiable automatiquement. Concernant l'identication automatique des verbes, il se-rait intéressant d'étudier si la méthode de détection des surgemes mise en place par Despinoy et al. [48] peut être appliquée pour déterminer les verbes d'action dans des cas plus compliqués et sur des trajectoires acquises à partir de vidéo. Des travaux sont aussi en cours sur la détection des cibles (projet DEPORRA [111]). La détection automatique de l'ensemble des composants des activités nous permettrait de vérier la robustesse de notre méthode lorsque les données acquises sont bruitées.