• Aucun résultat trouvé

2 3 1 UNE INFRASTRUCTURE PROPOSITIONNELLE POUR UNE IMAGE ANALOGIQUE.

Pour Kosslyn (1980), les images ont deux composantes. La représentation de surface est l'entité proche de ce qu'on appelle couramment l'image. La représentation profonde est l'information contenue en Mémoire à Long Terme à partir de laquelle l'image pourra être construite. La première fait l'objet d'études expérimentales, la seconde ne peut qu'être induite. Mais en réussissant l’implantation de son modèle sur ordinateur, Kosslyn (e. g., 1987) réalise sa théorie. Selon l’auteur, l'expérience d'avoir une image reflète la présence de représentations fonctionnelles quasi picturales dans une mémoire active, il a introduit la notion de mémoire tampon visuelle (en anglais, visual buffer) pour rendre compte des résultats qu'il trouvait dans ses expériences (Kosslyn, 1975). La mémoire tampon visuelle comporte des limites non extensibles, notamment par rapport à la taille apparente, similaires à la perception visuelle. Ces limites viennent contraindre la quantité d'informations disponibles en même temps pour un traitement.

2 3 1 1 L'IMAGE, UN PHENOMENE TRANSITOIRE ANALOGIQUE.

Kosslyn (1975) a montré que les images, chez les sujets expérimentaux, ont des propriétés structurales analogues aux perceptions. Dans son modèle informatique (e. g., Kosslyn, 1980), elles seront des entités quasi imagées qui prendront la forme de patterns d'activation dans la mémoire tampon. Les entités seront susceptibles de décrire non seulement

l'étendue spatiale des objets mais aussi d'autres propriétés visuelles comme la texture ou les contrastes. Dans le modèle, l'image est une configuration, un remplissage sélectif de points dans la matrice de surface qu'est la mémoire tampon visuelle. Cette mémoire fonctionne comme si elle était un espace coordonné avec une étendue spatiale limitée, d'une forme grossièrement circulaire équivalente à l'estimation de la forme du champ visuel. Nous notons que la construction d'image, chez l'individu, est nécessairement une activité consciente, or, comme conscience et Mémoire de Travail sont pratiquement indissociables, étudier l’activité d'imagerie revient à étudier un aspect de la Mémoire de Travail.

Au niveau de la génération des images, l'argument du balayage mental a été étendu pour suggérer que les images se construisent dans le temps et que les différentes parties d'une image sont construites les unes après les autres. Une expérience de Kosslyn et de ses collaborateurs, par exemple, montre que les temps de décision sont influencés par la complexité des lettres, que les différentes parties des lettres ne sont pas générées mentalement en même temps, que l'ordre de génération correspond à l'ordre habituel d'écriture (Kosslyn, Cave, Provost et Von Gierke, 1988). D'autres données soutiennent également l'idée que les images se construisent de manière sérielle puis s'effacent et que le nombre d'éléments des configurations influence les latences de réponses, les configurations les plus détaillées étant les plus longues à construire (e. g., Kosslyn, Reiser, Farah, et Fliegel, cité par Kosslyn, 1980). Pour tenir compte de ces données, Kosslyn va supposer dans son modèle que les différentes parties de l'image, détails d'un objet ou objets d'une scène, se construisent de manière séquentielle en se juxtaposant puis s'effacent ensuite. Les éléments seront donc à différents degrés d'effacement. Les éléments à la même phase d'effacement sont groupés selon la loi gestaltiste du "sort commun". Par ailleurs, les images seront supposées décrites du point de vue particulier, celui du spectateur (en anglais, viewer centered, selon la terminologie de Marr et Nishihara, 1978).

La résolution dans la mémoire tampon, comme dans le champ visuel, est limitée. Pour en rendre compte dans son modèle, Kosslyn (1980) donne une grenure à la matrice de surface. Quand les images sont trop petites, il y a beaucoup de points à l'intérieur d'une même cellule, ce qui rend la lisibilité plus difficile, cette propriété est modélisée en mettant une lettre majuscule dans la cellule alors que si un seul point occupe une cellule, on y met une lettre minuscule. D'autre part, les images sont mieux définies près du centre et se dégradent à la périphérie, ce qui est représenté par une augmentation de la taille des cellules en allant du centre à la périphérie. Ces variables de structure seraient liées au fait que pour l'homme, si la mémoire tampon visuelle supporte aussi l'expérience visuelle de la perception, cette structure nécessite surtout une grande résolution dans la région de la fovéa.

Cette mémoire tampon serait une sorte d'espace qui s'organise en support des images mentales au moment même de leur genèse. Pour Kosslyn, il existe une correspondance précise entre les éléments de l'objet imaginé et les régions activées. On voit donc que l'analogie postulée par Kosslyn est plus substantielle que l'analogie fonctionnelle, elle touche la structure même de l'image supposée correspondre point par point avec l'objet imaginé. Chaque partie de l'objet est représentée de manière analogue et dans une disposition semblable à l'objet réel, ceci rend compte des résultats des expériences précédentes dans lesquelles les distances entre les éléments de l'image semblaient correspondre à celles qui séparent les éléments des objets réels (e. g., Kosslyn, Ball et Reiser, 1978).

2 3 1 2 DES REPRESENTATIONS EN FORME DE FICHIERS.

Kosslyn (1980) postule deux sortes de représentations profondes pour soutenir les images. L'une qu'on pourrait qualifier de perceptive représenterait les apparences physiques. L'autre serait discursive, elle décrirait les choses.

Les représentations qui procurent l'architecture globale de l'objet sont de nature littérale. Mais le véhicule des encodages littéraux n'est pas un espace coordonné, il stocke les encodages dans des unités non spatiales qui sont modélisées par des fichiers ressemblant à des fichiers informatiques. Dans la simulation, les fichiers stockent des listes de coordonnées polaires, de type [ r19 1 ]. La paire "r, " indique la distance et l'angle d'orientation relatifs à l'origine de la matrice de surface. L'origine des coordonnées polaires est toujours placée au centre de l'objet. La taille de l'objet sera ajustée en multipliant les valeurs de r, et le changement de localisation en déplaçant l'origine, à laquelle tous les couples "r, " sont relatifs. Ce système est plus économique qu'un système cartésien. Il rend aisément compte des capacités des individus à imaginer un même objet à des tailles différentes ou à rapprocher plus ou moins les objets qu'il imagine. Les unités sont identifiées par un nom qui indique à la fois le contenu et le format de l'encodage, de type "*.img" (par exemple, "car.img" pour une voiture) et sert de code d'accès. L'extension .img correspond à un encodage littéral, celui qui soutient la construction de l'image. Le contenu précis de ces encodages dépend des encodages perceptifs.

Toutes les représentations sous-jacentes des images auraient un encodage squelettique sommaire (en anglais, skeletal encoding), c'est à dire une forme globale. Ces encodages représentent l'information littérale qui pourrait être stockée à partir d'un premier regard. Le sujet peut également encoder des unités complémentaires qu'il sera capable d'amalgamer ensuite en une seule image, pour compléter en quelque sorte l'image de base succincte. Les divers encodages sont reliés ensemble par des relations propositionnelles. Ces propositions notent l'endroit du squelette où doivent se rattacher les diverses unités

complémentaires et la manière de laquelle elles se rattachent. Il en résulte une hiérarchie qui rend compte de résultats expérimentaux : les sujets encodent d'abord une forme globale et ne voient les détails particuliers que dans un deuxième temps (Rock, Halper et Clayton, 1972), les détails particuliers ne sont reconnus que dans le cadre d'un contexte général quand l'orientation de la présentation est inhabituelle (Rock, 1973). Les détails annexes notamment sur les différentes parties de l'objet et leurs localisations seraient codés de manière abstraite et propositionnelle. Le véhicule des encodages propositionnels est structuré pour contenir des listes de propositions. Ces listes sont stockées dans des fichiers reliés par des flèches qui indiquent quels autres fichiers complémentaires peuvent être cherchés. L'organisation est hiérarchique, la recherche sera sérielle en partant des parties les plus fortement associées à celles qui le sont moins. Les listes sont identifiées par un nom qui indique à la fois le contenu et le format de l'encodage, de type "*.prp" (par exemple, "car.prp" pour une voiture) et sert de code d'accès. L'extension .prp correspond à un encodage propositionnel. Les listes contiennent les différentes parties d'un objet ou d'une scène qui sont indiquées par la relation "hasa.*" (par exemple, pour une voiture, hasa.reartire pour indiquer qu'elle a un pneu arrière). Les listes indiquent également où situer l'objet dans la scène ou l'élément sur le squelette de base au moyen d'un terme de relation et du nom d'un élément de base (par exemple, pour un pneu arrière, "location under - rearwheelbase", pour dire qu'il est situé sous la base de la roue arrière). Elles sont complétées par des indications sur la taille grossière de l'objet par rapport à un standard unique, celui de la taille humaine (par exemple, size : medium), une description abstraite des aspects critiques de l'apparence sous forme de listes de chiffres, le nom de la catégorie de superordre de l'objet (par exemple, "superord : véhicle"), le nom des encodages qui stockent la représentation littérale de l'apparence, les fichiers d'images (par exemple, "imagefile car.img"). Il existerait également des fichiers pour expliquer le sens des différentes relations.

Nous voyons qu'il n'est pas exclu de poser une architecture profonde de nature propositionnelle pour la mémoire visuelle tout en admettant que le système puisse construire des images dont les propriétés seront analogues à celles qui se forment à partir des perceptions. Si nos préoccupations sont différentes de celles des chercheurs de ce champ, nous ne faisons en effet pas d'hypothèses sur les propriétés des structures internes, nous trouvons en revanche intéressant de noter que Kosslyn (1980) souligne lui-même que les propriétés ne peuvent être comprises qu'en relation avec les processus qui opèrent sur elles. Nous allons voir comment fonctionne l'actualisation et le traitement des images dans le modèle.

LOOKFOR TRANSFORMATIONS IMAGE Haute résolution Résolution partielle Mémoire tampon visuelle tire.img r19 θ1 r29 θ2 r39θ3 car.img r19 θ1 r29 θ2 r39θ3 car.prp hasa reartire imagefile car.img hasa fronttire size: medium superord : vehicle fronttire.prp description 6 2 8 5 10 6 13 imagefile tire.img location under- frontwheelbase frontwheelbase.prp description 5 2 8 5 10 6 size: medium-small reartire.prp description 6 4 9 6 11 5 13 imagefile tire.img location under- rearwheelbase rearwheelbase.prp .prp description 5 4 9 6 11 5 size: medium-small

Figure 6 : Représentation schématique des structures du modèle de Kosslyn (1980).

2 3 2 LA MEMOIRE TAMPON DU MODELE EST-ELLE