• Aucun résultat trouvé

Problématique de la vision par ordinateur

problématique et approches

1. Problématique de la vision par ordinateur

1.1. LEDOMAINE La vision par ordinateur désigne la partie de la perception artificielle

concernée par le canal visuel. La perception artificielle a pour objectif de fournir à un système des informations sur le monde qui l’entoure par l’intermédiaire de capteurs. Un capteur, à la frontière du système et de son environnement, détecte les changements d’état du monde et en informe le système ([Russel 95], “Perception”). Ce peut être une simple bascule binaire détectant l’état d’ouverture ou de fermeture d’une porte,

PROBLÉMATIQUEDELAVISIONPARORDINATEUR

Le domaine

62 VISIONPARORDINATEUR : PROBLÉMATIQUEETAPPROCHES CHAPITRE III ou un dispositif aussi complexe que la rétine humaine qui comprend des centaines de millions d’éléments photosensibles.

Un système de vision par ordinateur est chargé de renseigner le système sur le monde qui l’entoure avec, comme capteurs, des caméras vidéo. Une caméra, réplique artificielle de la rétine humaine, convertit le flux lumineux acquis par son objectif optique en une suite d’images ordonnées dans le temps : le flux vidéo. Chaque image est modélisée sous forme d’une matrice à deux dimensions de pixels. Un système de vision par ordinateur traite les informations de bas niveau d’abstraction du flux vidéo pour en extraire des informations de “plus haut niveau d’abstraction”.

La discussion présentée au paragraphe “Espace des services” du chapitre II donne une idée générale de l’espace des informations “de plus haut niveau d’abstraction” : présence d’entités, classe d’entités (document, chaise, mur, homme, femme), identité (notamment, le numéro de référence d’un document, l’identité d’une personne), position, ou déplacement au cours du temps d’une entité. Dans le cas particulier d’une personne, on peut aussi chercher à connaître la direction du regard [Collet 99], l’expression du visage ([Essa 95], [Black 97]), ou la nature de son activité (en réunion, au téléphone, disponible, occupée, etc.) [Chomat 99]. Russel et Norvig ([Russel 95]) utilisent un formalisme mathématique pour schématiser le problème de la vision par ordinateur. Soient :

W, le monde,

f, la fonction qui décrit la façon dont un stimulus visuel est produit par un monde donné,

S, le stimulus visuel. Alors :

(1)

La fonction f représente la formation des images correspondant à un monde donné. L’étude de cette fonction est l’objet du domaine de recherche en synthèse d’image. D’un point de vue géométrique, la transformation que représente f s’appelle projection perspective ([Foley 82]). Les images de plus en plus réalistes que les infographistes sont capables de synthétiser témoignent d’une connaissance approfondie de f. Le problème de la vision par ordinateur se pose de manière inverse à celui de la synthèse d’image : “étant donné la fonction f et un stimulus S, quel est le monde W qui a produit S ?”. L’approche directe consiste à tenter d’inverser la fonction f :

(2) S = f W( )

PROBLÉMATIQUEDELAVISIONPARORDINATEUR

Difficultés

CHAPITRE III VISIONPARORDINATEUR : PROBLÉMATIQUEETAPPROCHES 63 Ainsi présenté, le problème de la vision par ordinateur est assimilable au problème inverse de la synthèse d’image. Cependant, la fonction f, qui projette le monde 3D (W), en un monde 2D (l’image S), entraîne nécessai-rement une perte d’information. Autnécessai-rement dit, la fonction f n’est pas réversible. Retrouver W à partir de S constitue un problème difficile. Nous analysons plus avant la nature de ces difficultés.

1.2. DIFFICULTÉS Le flux vidéo, on l’a vu, constitue la “matière première” des traitements

de vision par ordinateur. Ce flux présente des défauts intrinsèques : instabilité statique, ambiguïté, et grand débit imposant de facto des traitements efficaces alors qu’il s’agit de résoudre des problèmes complexes. Nous reprenons successivement ces trois points et identifions leurs conséquences sur l’approche à adopter pour la conception et la mise en œuvre de dispositifs d’interaction fondés sur la vision par ordinateur.

Instabilité statique (bruit)

Le pixel, élément constitutif d’une image, est, en vision par ordinateur, l’information élémentaire du niveau d’abstraction le plus bas. Malheureu-sement, cette information est statiquement instable : pour une caméra fixe, des conditions d’éclairage constantes et une scène statique (c’est-à-dire dans laquelle aucun objet du champ de la caméra ne bouge), la valeur des pixels varie de manière aléatoire. On dit que le flux vidéo est bruité et que l’oscillation de la valeur des pixels est due au bruit de caméra.

Lorsque le bruit n’est pas pris en compte et traité explicitement, les données extraites du flux vidéo sont elles-mêmes instables. Nous en verrons l’illustration au chapitre suivant (“Suivi par différence d’images” page 83 et “Suivi par modèle de couleur” page 88).

L’instabilité des valeurs des pixels est source d’ambiguïté au niveau d’abstraction le plus bas, phénomène aggravant pour les niveaux d’abstraction supérieurs qui, en raison de la nature de f, sont également ambigus.

Ambiguïté de l’information

La non réversibilité de f implique qu’à un stimulus visuel peuvent corres-pondre plusieurs mondes susceptibles d’en avoir été la source. Prenons, pour nous en convaincre, l’exemple suivant : soit un monde W constitué d’un gros cube et d’un petit cube, le petit cube étant masqué à la caméra par le gros. Le stimulus S calculé par l’équation 1 ne contient alors qu’une image du gros cube et aucune représentation du petit cube. À l’évidence, il est impossible, à partir de S uniquement, de calculer un monde corres-pondant à W. Il convient donc de faire appel à des informations qui complètent S. Comme le notent Russel et Norvig ([Russel 95], “Perception”), la difficulté est d’identifier l’information appropriée :

PROBLÉMATIQUEDELAVISIONPARORDINATEUR

Difficultés

64 VISIONPARORDINATEUR : PROBLÉMATIQUEETAPPROCHES CHAPITRE III “Un point clé de l’étude de la perception est de comprendre quelle information additionnelle il convient de considérer pour lever l’ambiguïté.”1

Il n’existe pas de réponse générale à cette question, si ce n’est que les informations complémentaires nécessaires à la résolution des ambiguïtés relèvent de connaissances sur le monde. Ces connaissances couvrent différents niveaux d’abstraction dont la pertinence dépend du problème à résoudre. Les deux exemples qui suivent illustrent notre propos.

Considérons le suivi d’objet dans un flux vidéo. Le flux est ici le film d’un jongleur qui manipule des balles d’apparence identique. L’objectif est de connaître en permanence la position de l’une des balles. Supposons que dans l’une des images, la balle suivie croise la trajectoire d’une autre balle donnant l’impression que les deux balles ont fusionné dans l’image. Dans les images suivantes, les deux balles se séparent à nouveau. Laquelle des deux balles, issue de la fusion, correspond à celle que nous suivons ? L’information contenue dans le flux vidéo ne permet pas, à elle seule, de lever l’ambiguïté en raison de la similitude des apparences des balles. La réponse à notre question est cependant immédiate si l’on considère que les balles effectuent des trajectoires paraboliques continues dans l’espace : la balle suivie est celle qui poursuit son chemin sur la parabole amorcée avant la fusion. La connaissance à laquelle il est fait appel concerne ici le comportement de l’objet d’intérêt. Dans l’exemple qui suit, la connaissance nécessaire a trait au contexte spatial de l’objet, aux relations que les objets entretiennent dans cet espace, etc.

Nous invitons le lecteur à identifier l’objet de la figure 1 avant de poursuivre plus avant la lecture. Cette image a été présentée à une quinzaine de personnes. Une seule d’entre elles a pu reconnaître l’objet. Confrontées à la même image replacée dans son contexte (se référer à la figure 4 page 74), toutes les personnes, sauf une, ont réussi à identifier l’objet. Dans cet exemple, l’ambiguïté n’est pas seulement levée par la présentation d’une image de plus grande taille. La reconnaissance de

1. “A key aspect of the study of perception is to understand what additional information can be brought to bear to resolve ambiguity.”

Figure 1

Image hors-contexte d’un objet

La même image est représentée à différentes résolutions (de gauche à droite : 150, 75, 30. et 15 points par pouce). Il est très difficile de reconnaître cet objet lorsqu’il est placé hors de son contexte.

La même image de cet objet replacée dans son contexte est représentée sur la figure 4 page 74.

PROBLÉMATIQUEDELAVISIONPARORDINATEUR

Constat

CHAPITRE III VISIONPARORDINATEUR : PROBLÉMATIQUEETAPPROCHES 65 l’objet fait aussi appel à un ensemble de connaissances générales sur le monde : relations entre objets qui permettent de reconnaître une scène de bureau, connaissances qui permettent d’estimer la position de l’objet à mi-hauteur de la porte alors que la porte n’est que partiellement visible, localisation qui permet d’inférer qu’il s’agit d’un interrupteur, assertion confirmée par l’apparence de l’objet.

La représentation des connaissances est un problème complexe qui fait l’objet de recherches actives. A l’heure actuelle, on ne sait pas représenter l’ensemble des connaissances acquises par un individu. Cette lacune explique l’incapacité des systèmes de vision par ordinateur à égaler les performances de perception visuelle de l’Homme. De fait, aucun système de vision n’est en mesure de reconnaître les objets d’une scène quelconque. Le fonctionnement d’un système de vision suppose toujours connu le type de scène traitée.

Le flux vidéo est non seulement statiquement instable et ambigu. Il représente aussi un très grand débit d’information.

Grand débit d’information

Un flux vidéo au format standard PAL, se traduit, une fois numérisé, par un débit de l’ordre de 40 Mo/s. Un tel débit d’information a pour conséquence de réduire l’ensemble des traitements qu’on peut lui appliquer en temps réel. Seuls les traitements ayant un coût limité en temps de calcul sont applicables, ce qui a pour effet d’aggraver les difficultés précédentes : la résolution des ambiguïtés implique en général des algorithmes coûteux en temps de calcul, de même que l’extraction d’indices stables à partir de données par nature instables.

Les difficultés que soulève l’interprétation du flux vidéo expliquent en partie notre constat sur le développement quelque peu restreint des systèmes interactifs fondés sur la vision par ordinateur.

1.3. CONSTAT En introduction de ce mémoire, nous énoncions les potentialités de la

vision par ordinateur pour l’interaction homme-machine : extension des capacités visuelles de l’Homme, interaction non intrusive (sans fil à la patte), dispositifs d’interaction fortement couplée, etc. Si l’apport de la vision semble compris, il convient de noter qu’à l’heure actuelle, cette technologie appliquée à l’interaction homme-machine, n’apparaît que dans des démonstrateurs de laboratoire. Si ceux-ci commencent à être nombreux ([Azarbayejani 93], [Wellner 93b], [Gaver 95], [Ullmer 97], [Kang 98], [Toyama 98], [Yang 98a]), ils ne satisfont pas pour autant les requis de l’interaction homme-machine. Peu ou pas utilisés, leur apport n’a pu être confirmé par l’usage.

Quelques exceptions méritent cependant d’être soulignées :

VideoPlace et ALIVE, on l’a vu au chapitre I, ont été confrontés au

APPROCHESENVISIONPARORDINATEUR

66 VISIONPARORDINATEUR : PROBLÉMATIQUEETAPPROCHES CHAPITRE III ludiques, ne démontrent pas l’apport de la vision par ordinateur au cas des tâches productives.

• Les systèmes BrightBoard ([Stafford-Fraser 96a]) et ZombieBoard

([Saund 96]) sont exploités quotidiennement dans un laboratoire de recherche par des utilisateurs qui n’en sont pas les concepteurs. Ce trait est important : les utilisateurs sont motivés par l’apport intrinsèque du système. Toutefois, BrightBoard et ZombieBoard ne sont pas fondés sur une interaction fortement couplée : la latence de leur cycle stimulus / réponse est de l’ordre de la minute. Par conséquent, ces systèmes ne démontrent pas la faisabilité, ni l’apport, d’une interaction fortement couplée fondée sur la vision par ordinateur.

Build-It, que nous avons présenté au chapitre I est, quant à lui, en voie

de commercialisation. Ce système, qui adopte le paradigme des interfaces saisissables, nécessite de facto une interaction fortement couplée. Cependant les performances de ce système, observées par nous-même, sur une vidéo ([Rauterberg 98]), montrent une latence de l’ordre de la seconde, soit 20 fois supérieure au requis estimé au chapitre II page 53. Built-It ne peut donc être considéré comme une preuve de la faisabilité et de l’apport d’une interaction fortement couplée fondée sur la vision par ordinateur.

Au vu des difficultés que nous venons d’énoncer, il est légitime de s’interroger sur l’opportunité d’introduire la vision par ordinateur comme support de l’interaction fortement couplée. En effet, l’interaction fortement couplée requiert précisément ce qui constitue des difficultés fondamentales en vision par ordinateur : stabilité des données et “temps réel” pour une latence conforme à celle du système humain. Nous pensons qu’il est possible d’utiliser la vision par ordinateur en interaction fortement couplée sous réserve d’adopter une approche résolument centrée sur la tâche. Nous présentons dans la section qui suit les approches possibles et précisons notre point de vue.