• Aucun résultat trouvé

Reconnaissance de la classe instrument

Réalisations techniques & Résultats

5.2 Mise en œuvre de la désignation de la zone d’intérêt

5.2.1 Reconnaissance de la classe instrument

Attribut forme

Par hypothèse les instruments chirurgicaux possèdent un grand nombre d’éléments rectilignes. Ceci nous permet de nous affranchir d’une quelconque connaissance a priori sur les dimensions, la couleur, la tex-ture ainsi que sur la forme exacte des instruments. La classe instrument se base donc principalement sur l’attribut forme (correspondant à la quatrième source d’information utilisée dans la reconnaissance d’objet).

Pour trouver les éléments rectilignes dans l’image nous utilisons la transformée de Hough (cf. chapitre 2) dont nous rappelons brièvement les étapes clés :

– détection de contour grâce un masque de type Prewitt ;

– recherche de tous les couples (ρ, θ), paramètres de la droite passant par le point de coordonnées (i,j) (figure5.5b) ;

– réitération de la recherche pour chaque point de l’image ;

– recherche des maxima dans l’espace des paramètres (en rouge sur la figure5.5b) ; – création des droites correspondant aux couples trouvés (figure5.5c).

(a) Image originale. (b) Sélection des couples correspondants aux paramètres des droites.

(c) Détection des éléments rectilignes (en vert) et détection de contours (en gris).

Fig. 5.5 – Reconnaissance de la classe instrument.

A partir de l’image (figure5.5c) que nous appelleronsIL(la valeur d’un pixel est bornée entre 0 et 255), nous créons les massesmi4 représentatives de la classe instrument vue de la source forme. Cette étape s’effectue selon le modèle d’Appriou :

– p(s4 = N| {instruments}), la valeur de la densité de probabilité conditionnelle de la source 4 (correspondant à l’attribut forme) lorsque le niveau de gris du pixel de coordonnées(k, l)de l’image IL est égal à N, sachant l’hypothèse{instruments};

– R4, le coefficient permettant la normalisation de la masse. Considéré égal à 1 dans la mesure où la densité de probabilité conditionnelle p(s4| {instruments})est normalisée. L’injection du gain de la classe non pas au niveau de la prise de décision mais dansR4constitue une perspective possible ; – β4, le coefficient représentatif de la fiabilité de l’affectation (pris par défaut égal à 1) ;

– m14, la croyance que le pixel appartient à un instrument ; – m24, la croyance que le pixel n’appartient pas à un instrument ; – m34, la masse représentative de l’ignorance.

La création des masses nécessite une connaissance a priori. Celle-ci est contenue dans la densité de proba-bilité conditionnellep(s4| {instruments}), synthétisée sous la forme d’un histogramme comme présenté en figure5.6. La détermination dep(s4=N| {instruments})s’effectue par lecture de l’histogramme au ni-veau de gris du pixel considéré. Compte-tenu de l’allure de cet histogramme, seuls les pixels appartenant aux lignes droites détectées auront une massem14({instruments})non nulle :



Fig.5.6 – Histogramme représentatif de la classe instrument.

Dans la mesure où il est possible que la transformée de Hough assimile une interface champs opératoires-peau (ou toutes autres délimitations franches et rectilignes trouvées lors de la détection de contours) à un instrument, nous affaiblissons les masses liées à cette source à l’aide d’une matrice de confusion.

Ceci revient à moduler l’importance des masses selon que la transformée de Hough permet de localiser fidèlement les instruments ou non. Il existe donc un lien direct entre les masses mi4 et l’aptitude de la méthode à détecter les lignes droites. Pour établir les différentes composantes de la matrice de confusion, nous utilisons un masque isolant l’objet (ici un instrument) défini manuellement. Le tableau5.2présente les taux obtenus pour ce type d’attribut.

instrument1 non instrument1

instrument2 46.4% 1.4%

non instrument2 53.6% 98.6%

Tab. 5.2 – Matrice de confusion pour la classe instrument (éclairage au niveau maximal-avec filtre apodisant). "1" correspond à la vérité terrain, "2" à celle du système.

Nous pouvons déduire du tableau 5.2 que les faux négatifs (correspondant aux pixels appartenant à la classe d’objets manqués par le système) sont à un taux anormalement élevé comparativement aux vrais positifs (correspondant aux bonnes reconnaissances). Ceci signifie que notre méthode ne reconnait pas un grand nombre de pixels appartenant l’instrument. A contrario, le taux de vrai négatif indique une bonne capacité de la méthode à identifier les pixels appartenant à la proposition non instrument.

La reconnaissance est donc insuffisante mais fiable. Cependant, notre objectif principal est de ne détecter que les instruments, ceci afin d’éviter au maximum les mauvaises désignations (l’objectif secondaire étant de détecter plus de pixels appartenant à la classe instrument.). Il s’agit donc de faire tendre la précision vers 1.

Pour rendre plus robuste la méthode, nous renforçons la détection de contours grâce à un filtre passe-haut

afin d’éliminer les gradients de faible amplitude. Nous obtenons les résultats présentés en tableau5.3.

instrument1 non instrument1 instrument2 19.7% <102%

non instrument2 80.3% 99.9%

Tab.5.3 – Matrice de confusion pour la classe instrument après ajout d’un filtre passe-haut. "1" corres-pond à la vérité terrain, "2" à celle du système.

La précision est, comme souhaité, augmentée de manière significative passant de 0.9707 à 0.9999, au détriment du rappel qui chute à 0.1971. Ceci s’explique par le bruit généré par l’étape de filtrage qui pénalise la quantité de pixels identifiés, mais a pour conséquence d’augmenter la distance qui est alors égale à 0.8029.

(a) Résultat du filtrage passe-haut. (b) Surimpression du résultat dans l’image courante.

Fig. 5.7 – Reconnaissance de la classe instrument avec filtrage passe-haut.

L’attribut forme n’est pas suffisant pour affecter un pixel à la classe instrument. En effet, il faut éviter de détecter les instruments "inactifs" posés aux abords de la plaie opératoire et pouvant être source de mauvaises désignations. Dès lors, pour reconnaître cette classe d’objet nous utilisons les massesmi5

correspondant au mouvement.

Remarque : Comme nous l’avons vu en chapitre 2, la couleur ne participe pas à la discrimination des instruments. Dès lors, les massesmij, j∈ {1,2,3}ne sont pas utilisées et sont exclues de la fusion afin de gagner en temps de calcul.

Attribut mouvement

Pour permettre la quantification du mouvement, l’évaluation du flot optique grâce aux détecteurs de Harris apparaît comme le moyen le plus simple pour créer un champ de vecteurs représentatif des objets en mouvement dans la scène. Comme le montrent les figures 5.8a et 5.9a (l’intensité des pixels a été augmentée pour faciliter la lecture), le champ de vecteurs obtenu par cette méthode n’est pas sous forme de maillage régulier, mais est conditionné par les points d’intérêt détectés. Grâce à l’emploi d’un filtre

gaussien permettant de répartir localement les vecteurs mouvements, la quantification du mouvement est cohérente et met même en avant les mouvements physiologiques (figure5.9b).

(a) Point d’intérêt de Harris. (b) Mouvement apparent.

Fig. 5.8 – Mouvement détecté lors de l’utilisation d’un instrument.

(a) Point d’intérêt de Harris. (b) Mouvement apparent.

Fig. 5.9 – Pulsation d’une veine (aucun mouvement de la part du chirurgien).

Pour garantir un nombre suffisant de vecteurs, les points d’intérêt doivent être régénérés à intervalles de temps réguliers pour éviter la disparition progressive de l’ensemble des points en raison de la sortie de l’objet ou bien de leur non appariement entre deux images consécutives. Les tests ont montré qu’une régénération toutes les 10 images semble être la valeur la plus adéquate.

Comme précédemment, l’attribution des massesmi5 s’effectue en utilisant le modèle d’Appriou :







m15({instrument}) =β5(R5 p(s5=N| {instruments}) m25(c{instrument}) =β5(1−R5p(s5=N| {instruments}) m35(Θ) = 1−β5

– p(s5 = N| {instruments}), la valeur de la densité de probabilité conditionnelle de la source 5 (correspondant à l’attribut mouvement) lorsque le niveau de gris du pixel de coordonnées (k, l)de l’image IM égal à N, sachant l’hypothèse{instruments};

– R5, le coefficient permettant la normalisation de la masse. Considéré égal à 1 dans la mesure où la densité de probabilité conditionnelle p(s5| {instruments})est normalisée ;

– β5, le coefficient représentatif de la fiabilité de l’affectation (pris par défaut égal à 1) ;

– m15, la croyance que le pixel appartient à un instrument ; – m25, la croyance que le pixel n’appartient pas à un instrument ; – m35, la masse représentative de l’ignorance.

La détermination dep(s5=N| {instruments})se base sur un histogramme représentatif du mouvement.

Pour ce faire, nous conditionnons au préalable le niveau de gris de chaque vecteur par rapport à sa norme. Ainsi un niveau de gris de 255 correspond à un déplacement de√

n2+m2pixels (netmétant les dimensions de l’image) et 0 correspond à un mouvement nul. Dès lors, par simple lecture des coordonnées chromatiques du pixel, il est possible d’accéder à la vitesse apparente de l’objet en ce point.

Nous cherchons par l’intermédiaire de l’histogramme mouvement à mettre à zéro les massesmi5lorsque la norme du vecteur est soit faible soit forte, ceci afin de ne pas prendre en compte les deux types de mouvements spécifiques :

1. les mouvements de retrait exécutés par le chirurgien. Ces mouvements rapides correspondent géné-ralement aux cas où le chirurgien se tourne et prend un autre instrument sur une table mitoyenne.

Désigner la zone d’intérêt sur un élément en cours de retrait aménerait l’éclairage opératoire à suivre cet élément et donc à s’éloigner de la zone d’intérêt réelle, voire à sortir de la scène opéra-toire si les champs opéraopéra-toires servant à la délimiter sont mal détectés. Ces mouvements rapides apparaissent également lors de mauvais appariements ;

2. les mouvements dits physiologiques générés par exemple par la respiration. Ce type de mouvement lent fausse l’analyse du système et ce dernier peut alors désigner une région inappropriée.

Dans la mesure où il n’est pas possible de discerner les gestes de très petites amplitudes des mouvements physiologiques, nous ne seuillons pas brutalement le début de l’histogramme. Nous intégrons progres-sivement les masses de mi5 afin de laisser la possibilité au système de désigner ces endroits s’il n’y a pas d’activité dans les autres régions de l’image (la probabilité pignistique étant plus forte dans ce cas), d’où la forme en "S" de la courbe (figure 5.10) qui s’apparente à une sigmoïde d’expression (forme de Verhulst) :

p(s5| {instruments}) = (1 + 2.104exp0.1N)1 (5.1) avecN, le niveau de gris du pixel considéré.

Cet histogramme permet de se restreindre aux mouvements ayant une vitesse supérieure à 1cm.s−1 et inférieure à6cm.s1.

Ainsi comme le montre la figure5.11, il y a élimination d’une partie des vecteurs pour ne conserver que les mouvements utiles. Nous pouvons également voir que les vecteurs assimilés pour des gestes rapides sont dus à de mauvais appariements. La preuve de la reconnaissance des gestes rapides est donnée en figure5.11d.

Fig. 5.10 – Histogramme de l’attribut mouvement.

(a) Vecteurs de norme inférieure à 1cm.s1.

(b) Vecteurs de norme comprise entre 1cm.s1 et6cm.s1

(c) Vecteurs de norme supérieure à 6cm.s1.

(d) Vecteurs de norme supérieure à 6cm.s1 dans le cas d’une occultation.

Fig. 5.11 – Isolation des mouvements de fortes amplitudes (retrait de la tête du chirurgien et mauvais appariement).

Fusion des attributs

Maintenant que les masses correspondant à la forme et au mouvement sont créées, il faut les fusionner à l’aide d’une règle de combinaison telle que celles présentées en chapitre 3. Afin de faciliter la comparaison entre les performances des règles conjonctive, disjonctive, de Smets et PCR#5, nous utilisons l’analyse de la probabilité pignistique moyenne de la proposition{instrument}calculée pour l’ensemble de l’image.

Nous ne nous attachons qu’aux fluctuations (dont le chirurgien est responsable) et non à la valeur même deBetP({instrument})(correspondant à la probabilité pignistique de la proposition{instrument}) qui est nécessairement plus faible que BetP({instrument}) calculée pour un pixel appartenant à la classe instrument. Nous présentons en figure5.12les résultats obtenus lors d’une séquence d’essais en conditions réelles.

Fig. 5.12 – Comparaison des différentes règles de combinaison pour la classe instrument pour le cas d’une pose d’écarteur.

La règle conjonctive adopte un comportement pessimiste (obligation d’avoir un grand nombre d’informa-tions se recoupant) ce qui se retranscrit par une moyenne basse deBetP({instrument})comparativement aux autres règles plus optimistes. Nous constatons également sur cette séquence une variation brutale deBetP pour les règles disjonctives, de Smets et PCR#5. Jusqu’à l’image 397, les mains du chirurgien sont visibles mais ne participent à aucune activité (examen de la plaie). Il n’y a donc pas d’instrument

"actif", la réponse du système à cette sollicitation est donc adéquate car aucun rectangle symbolisant la présence d’instrument n’est visible (ce sont ces rectangles qui nous seront ultérieurement utiles pour la désignation de la zone d’intérêt). La probabilité pignistique moyenne est non nulle du fait de l’inté-gration des amplitudes faibles dans l’histogramme représentatif du mouvement. A partir de l’image 398 commence la pose d’un écarteur qui est interprétée correctement par le système comme une activité à part entière du chirurgien. Le nombre de pixels assimilés à des instruments actifs augmente et avec lui les rectangles représentatifs des lieux où se trouvent les instruments "actifs". Les fluctuations observées pour cette période découlent des variations de vitesse apparente de sorte que plus le chirurgien exécute son

geste rapidement (sans toutefois dépasser la limite des 6cm.s1), plus grandes sont les chances d’avoir p(s5|instrument)proche de 1 et donc d’avoirBetP({instrument})élevée.

La figure 5.13 expose une deuxième séquence tirée de la même opération. Outre une période stable sur l’intervalle[940,1000] correspondant à une période d’inactivité du chirurgien, nous observons deux pics. Ces augmentations deBetP({instrument})nous montrent qu’il y a accroissement des pixels consi-dérés comme appartenant à la classe instrument. En effet, sur les intervalles[1001,1016]et [1030,1040]

le chirurgien procède à une dissection (ouverture et fermeture des ciseaux). Nous pouvons voir que sur ces deux intervalles, les boîtes englobantes cernant la région de l’image où les ciseaux sont en action sont correctement localisées malgré la présence de la main du chirurgien assistant.

Pour compléter cette analyse des performances de la reconnaissance de la classe instrument, nous

Fig. 5.13 – Comparaison des différentes règles de combinaison dans la classe instrument pour le cas d’une dissection.

proposons en figures5.14aet 5.14b, deux autres séquences. La première expose le cas où il n’y a aucun mouvement en dehors des mouvements physiologiques (pulsation de l’artère, respiration). Nous assistons alors à une valeur stable de la probabilité pignistique en dessous de la barre symbolique des 0.02. Le second cas proposé illustre une activité du chirurgien qui est interrompue par une palpation sur la période [2461,2469]où le chirurgien principal arrête son geste et où la main du chirurgien assistant vient tirer la peau du sujet. Le système interprète correctement cette action et n’intègre pas la main comme instrument potentiel ceci afin d’éviter ultérieurement une mauvaise désignation. La valeur de BetP({instrument}) chute donc à un niveau assimilable à de l’inactivité.

Dans la mesure où la fusion conjonctive ne met pas en valeur les phases d’activité du chirurgien, nous prenons le parti de privilégier les autres règles de combinaison. Le choix de la règle utilisée pour la fusion des masses pour la classe instrument ainsi que pour les classes sang, peau et champs stériles se base sur

la gestion du conflit qui est une perspective de ces travaux. En conséquence, la règle PCR#5 sera la règle utilisée pour l’ensemble des classes d’objets.

(a) Absence d’activité (aucun geste à l’image). (b) Manipulation manuelle ponctuelle.

Fig. 5.14 – Autres séquences issues d’essais en bloc opératoire.

En résumé :

La classe instrument est correctement reconnue grâce à la fusion des attributs de forme et de mouve-ment. L’attribut forme s’appuie sur une transformée de Hough, nécessitant peu de calculs. Un filtre passe-haut a été ajouté afin de rendre plus robuste la détection et améliorer la précision. La combinai-son des attributs forme et mouvement permet d’éliminer les instruments "inactifs". Grâce à un choix adéquat des paramètres de création des massesmi5(attribut mouvement), le système est capable d’éli-miner les mouvements rapides et les mouvements trop lents. La règle de fusion (PCR#5) se révèle être la règle la mieux adaptée à notre étude. Les performances obtenues dans des situations particulières (passage d’une période d’inactivité à une période d’activité, intermittence rapide de périodes inactives et actives, absence totale d’activité avec présence de mouvements physiologiques, interruption brutale d’activité) illustrent l’efficacité de la reconnaissance de la classe instrument malgré les perturbations et les contraintes.