• Aucun résultat trouvé

Schémas et Réseaux Sémantiques

3.3 Communication Humain Machine

3.3.3 Schémas et Réseaux Sémantiques

Pour des raisons qui apparaîtront plus claires par la suite, il est difficile de trou- ver dans la littérature récente une présentation complète et neutre des Réseaux Sémantiques (Semantic Networks ou Semantic nets) sans que ceux-ci ne soient im- médiatement confondus avec leur usage moderne par le Web Sémantique ou, plus

généralement, l’Ingénierie des Connaissances. Il est par là même difficile d’offrir une histoire de leurs premiers développements dans les années 80 qui ne lui soit contemporaine. Cette difficulté tient enfin à la grande diversité des usages de ce mo- dèle. Initialement orientés vers la signification linguistique (P. Hayes 1979 ; Sowa 1984) et, en raison de sa compréhension inférentielle de la sémantique, généralisés à la résolution de problèmes (Clancey 1985), le mode de description que consti- tuent les Réseaux Sémantiques s’est vu étendu, dans la lignée des travaux de John A. Barnes, jusqu’à l’analyse des Réseaux Sociaux. Ainsi sous l’apparente unité des Réseaux Sémantiques se cache un ensemble très hétérogène de techniques, usages et finalités poursuivies. Pour le dire autrement, plus qu’un objet technique ou une structure, les Réseaux Sémantiques constituent un paradigme computationnel dans lequel s’inscrivent des problématiques distinctes du TALH et aussi diverses que la catégorisation de stimuli visuels (J.B. Tenenbaum, Griffiths et Kemp 2006) ou la mémorisation (Anderson 2000).

Ce foisonnement n’étant pas propre au deux dernières décennies – dans une op- tique critique (L. K. Schubert 1990) faisait déjà remarquer un manque de conte- nance de cette notion – nous commencerons par une présentation formelle générique avant de passer à l’usage des réseaux par le jeune TALH (Brachman 1979 ; P. Hayes 1979 ; Sowa 1984) et l’introduction des Schémas dans la littérature.

3.3.3.1 Cas simple : réseaux structuré arborescent

Figure 3.5 – Structure mnésique hiérarchisée

tiré de (A.M. Collins et M. Quillian 1969)

Commençons par une précision terminolo- gique. Nous traduisons Frame par Schéma. En raison de leurs similarité, les «Schémas» (Frames) et «Réseaux Sémantiques» (Se-

mantic Networks) ne sont pas toujours bien

distingués dans la littérature. Toutefois, au sens strict du terme, les Schémas constituent une espèce bien particulière de Réseaux car pourvus de propriétés supplémentaires intro- duites par (Minsky 1975). Les propriétés des Réseaux Sémantiques reposent en der- nière instance sur la Théorie des graphs et furent initialement introduits dans la littérature par (A.M. Collins et M. Quillian 1969) en vue de représenter infor- matiquement la mémoire sémantique tout en capturant les propriétés hiérarchiques

de la mémoire humaine et leur impact sur le temps d’extraction (retrieval). Plus spécifiquement, (A.M. Collins et M. Quillian 1969) entendait confronter le mo- dèle de mémorisation humaine des sémènes développé en (M.R. Quillian 1967) à des données empiriques. 57 L’expérience reposait sur un postulat aussi simple que

fertile : le temps d’extraction d’une information mémorisée doit, d’une manière ou d’une autre, dépendre du nombre de connexions liant les significations les unes avec les autres dans un agencement hiérarchisé comme celui présenté en fig.3.5. Collins et Quillian inféraient à cet égard que le temps nécessaire à juger de la vérité de «un canari peut chanter», plus court que celui nécessaire à juger de «un canari peut

voler» ou «un canari peut se déplacer», reflétaient la distance de ces signification

dans un agencement de sous-ensembles avec leurs propriétés associées. Un réseau est ainsi, dans ce cas le plus classique (structuré et arborescent), un «[...] graph fini,

orienté, étiqueté, connexe (chaque noeud peut avoir plus d’un ascendant direct) [...]»

(Rastier 1991, p. 121) – voir fig.3.6 pour une illustration.

Pour expliciter quelque peu cette définition à l’aide d’un exemple de réseau dis- tinguant les propriétés des concepts, à l’instar de n’importe quel graph, un réseaux est composé de nœuds (nodes) qui représentent des concepts – e.g. «Bilbon», «an-

neau», «Gollum» – et de liens (links) qui représentent des relations binaires entre

ces concepts – e.g. «est un», «agent». Ainsi, la signification de chaque nœud dépend de ses connexions avec le reste du réseau. Le nombre de concepts étant limité, un graph qui sous-tend la signification d’un texte même arbitrairement long est néces- sairement fini. Il est orienté en cela que les relations sont asymétriques – Bilbon est un Hobbit mais il n’y a pas de sens à dire qu’un Hobbit est Bilbon – et étiqueté en cela que chaque nœud du réseau possède une identité propre – propriété d’impor- tance capitale sur laquelle nous reviendrons par la suite. La description qui précède s’applique exclusivement aux Réseaux structurés par arborescence (tree-structured

hierarchy) auxquels correspondent les exemples en fig.3.5 et fig.3.6.

Pour illustrer le rôle que jouent les réseaux hiérarchisés dans un traitement au- tomatisé, dans le cas typique d’un algorithme parcourant ce chapitre particulier du

Hobbit de Tolkien, en dotant ce dernier d’un ensemble d’entités indépendantes et

ré-identifiables – Gollum, Bilbon, anneau, etc – et d’une partie des relations – «un Hobbit est un genre de personne», «Bilbon est un Hobbit», «un anneau magique est un anneau» – le système devrait être en mesure d’inférer que Bilbon est une 57En linguistique, un sémème consiste en un faisceaux de traits sémantiques minimaux appelés

des sèmes qui correspond à un lexème. Le sémème constitué de pour une seule personne, pour s’asseoir, avec des pieds et avec un dossier correspond à ce que nous appelons «une chaise»

Personne par héritage de cette propriété. Dans le cas où un linguiste identifierait les marqueurs sémantiques de certaines relations, rien n’empêcherait la production automatisée de certains liens. A titre d’exemple, dans la mesure où «’s» est en an- glais le marqueur sémantique de l’appartenance, le fait que la caverne appartienne à Gollum, relation entre deux entités initialement données au système, découlerait très naturellement de l’identification du morphème [Gollum]’s[ cave] par une analyse d’expression régulière (ou parsing en anglais).

3.3.3.2 Insuffisance de l’héritage de propriétés : l’arborescence en ques- tion

Figure 3.6 – Réseau Sémantique représentant la situation «Bilbon

trouve l’anneau magique dans la caverne de Gollum»

Le cas présenté ci-dessus, idéalisé et peu réa- liste, ne reflète que très inadéquatement la com- plexité du TALH. En toute rigueur, au delà d’in- férences par l’héritage de propriétés, un système doté d’un tel réseau sémantique mais dénué de connaissance structurelle ne comprendrait que bien peu de choses – ou, en des termes opéra- tionnels, ne réaliserait que peu d’inférence cou- ronnées de succès. La littérature laisse apparaître trois raisons principales à cette limitation.

Similarité et Hiérarchie : le rôle de la proximité sémantique En effet, ce réseau

simpliste n’exploite pas la capacité des réseaux à représenter la proximité séman- tique ; capacité essentielle qui est précisément ce qui les distingue d’une Logique du

Premier Ordre (L1). 58 La proximité sémantique est classiquement définie par les

linguistes en termes de champs lexicaux. Ainsi, comprendre que camion rouge dans «le camion rouge se dirige vers le lieux de l’incendie» désigne un camion de pompier – voir fig.3.7 – provient de l’existence d’une proximité sémantique entre incendie,

rouge, et camion de pompier. Dans le contexte de réseaux, la proximité sémantique

correspond au nombre de connexions entre les termes, 59 le nombre de noeuds in-

58On notera à ce sujet l’existence d’une controverse sur la nature même des réseaux. Ainsi que le

précise (Sowa 1984), de par leur filiation avec les graphs existentiels de (Peirce 1933), initialement conçu comme une simplification notationnelle Logique du Premier Ordre (L1), il a été avancé que

les réseaux n’étaient jamais plus qu’une variante de Logique du Premier Ordre (L1)(L. Schubert

1976).

59Collins et Loftus définisaient ainsi la proximité sémantique : «The more properties two concepts

termédiaires, soit au fait que le système possède une certaine représentation de la dépendance de certains concepts les uns vis-à-vis des autres, que celle ci ait été donnée a priori ou apprise par recoupement statistique dans un large corpus.

Figure3.7 – Réseau sémantique non- hiérarchisé

tiré de (A.M. Collins et Loftus 1975)

Un telle inférence ne repose en aucun cas sur le postulat, psychologiquement contro- versé, 60 selon lequel les inférences relatives

aux propriétés des sous classes reposeraient sur l’héritage des propriétés de leurs super- ordinaux – ainsi que l’admettent des mo- dèles sémantiques de la mémoire aussi di- vers que l’héritage hiérarchique (Ander- son et Bower 1973 ; Glass et K.J. Ho- lyoak1975), les niveaux d’abstraction caté- goriques (Rosch et al. 1976) ou les modèles d’inférences plausibles (A. Collins et Mi- chalski 1989). Une bonne manière de s’en convaincre consiste à remarquer que le ré- seau présenté en fig.3.7 appartient à une va- riété très différente de réseaux sémantiques non-structurés (unstructured graph). A la différence des premiers, les réseaux séman- tiques non-structurés ne sont pas orientés

dans la mesure où i) leurs liens ne correspondent pas nécessairement à des rela- tions asymétriques – on parle alors, dans la théorie des graphs, d’edges plutôt que d’arcs – et que, par voie de conséquence, ii) il est impossible de hiérarchiser les concepts en classes et sous-classes.

Sans nous attarder davantage sur les multiples types de réseaux sémantiques et les techniques d’analyses qui leur correspondent, 61 il suffit au présent propos

d’insister sur le fait que la signification d’un concept dépend intrinsèquement de ses dépendances conceptuelles soit, en dernière instance, de la manière dont l’occurrence de certains concepts guide une inférence basée sur le contexte.62 Aussi bien dans le

cas des réseaux structurés que non-structurés, la proximité sémantique d’un concept

closely related are the concepts.» (A.M. Collins et Loftus 1975, p. 411).

60Voir (S. Sloman 1998) pour une mise en évidence expérimentale de la négligence des informa-

tions catégoriques dans des taches inférentielles

61Voir (Steyvers et J.B. Tenenbaum 2005) pour une illustration.

x et d’un concept y correspond à la longueur du chemin le plus court entre ces concepts, soit au degré de connexion de leurs nœuds respectifs – e.g. connexion de degré 3 entre «clouds» et «fire» en fig.3.7 ainsi que, selon les raffinements formels, le nombre de connexions éventuellement pondéré par l’existence de clusters.

Limites «par le contenu» : le système ne dispose pas des bonnes Primi-

tives Cependant, en dépit de cette implémentation de la proximité sémantique et même en tenant compte du contexte d’énonciation, rien ne saurait garantir le succès interprétatif inconditionnel sans avoir à restreindre arbitrairement le domaine de connaissance. Ainsi, pour emprunter l’exemple de (Waltz et Pollack 1985), ni le contexte dans lequel est exprimé «the astronomer married a star», ni le champ lexical gravitant autour d’«astronomer» ne permettront à un système qui ne possède pas de connaissance sur ce qu’est un mariage de comprendre que «star» désigne une personne humaine plutôt d’un amas stellaire d’hydrogène en fusion Dans le cas de l’exemple présenté en fig.3.6, il est très probable que le système ne parvienne pas à répondre à la question «Où était Bilbon lorsqu’il prit l’anneau dans la caverne

de Gollum ?». Aussi évidente que puisse être la réponse pour un locuteur humain,

étant données les informations dont dispose le système, rien ne s’oppose à ce que l’événement se soit produit dans la caverne, que Bilbon en soit responsable mais que, par quelque action à distance, le fait d’être l’agent d’une action n’implique pas de se trouver dans le même lieu. Il existe une multiplicité facteurs responsables de cette limitation ; facteurs sur lesquels nous reviendrons en sec.4.2.3.4. Sans entrer pour l’instant dans les détails, les limites semblent pouvoir tenir à deux choses.

L’on pourrait, premièrement les imputer aux manques de connaissance dont dis- pose le système sans remettre en cause l’idée que les propriétés logiques des Réseaux capturent adéquatement la structure des connaissances représentées dans les langues. Pour cet angle d’approche, la limitation tient au contenu du réseau sémantique, soit le fait qu’il manquerait au système un ensemble de descriptions à la fois générales et applicables dans une pluralité de domaines et susceptibles de guider des infé- rences d’un plus grand degré de généralité – e.g. en spécifiant que «une personne

est un objet tri-dimensionnel» et «un objet tri-dimensionnel occupe à tout instant une portion de l’espace», le système serait en mesure de déduire que Bilbon devait se

trouver sur les lieux de l’action pour que celle-ci ait eu lieu. En référence à (McDer- mott 1987a), nous appellerons ce type de limites limites par le contenu ou limite

par défaut d’ontologie – i.e. par manque d’une conceptualisation explicite et générale

idée revient à avancer que le système est limité faute de «primitives sémantiques» adéquates, faute, en d’autres termes, d’un ensemble adéquat de termes primitifs et généraux dont dériveraient les autres tels que les Same, Other, Move, Happen, Before ou After de la théories des universaux sémantiques. 63

Limites «par le contenant» : Schémas et distinction type-occurrence Les

limites interprétatives des réseaux peuvent toutefois être comprises d’une manière radicalement différente. Si l’on s’interroge sur les conditions sous lesquelles un rai- sonnement par héritage de propriété peut être utilisé, il semblerait qu’il y ait une catégorie de cas dans lequel celui-ci peut s’appliquer salva veritate. Contrastons deux situations. Dans la première, du fait que je sache que i) Pierre est un doctorant et ii) qu’un doctorant n’a pas soutenu sa thèse, je ne peux déduire que Pierre n’a pas soutenu de thèse dans la mesure où ce dernier peut très bien avoir été docteur et commencer une thèse dans une autre discipline. En revanche, deuxième situation, je peux sans crainte conclure de i) les doctorants en philosophie sont des doctorants et ii) les doctorants sont des étudiants, que tous les doctorants en philosophie, Pierre compris, sont des étudiants. Les deux cas présentés ci dessus diffèrent par leurs sujets respectifs : instances dans le premier cas, genre ou type dans le second.

Ainsi, dans le premier cas de figure, l’échec du raisonnement par héritage de propriété tient au fait que l’on déduit d’une relation entre types (Type-Type) – i.e. être un doctorant ET être un individu qui n’a pas terminé sa thèse – une re- lation Instance-Type qui ne vaudrait que sous certaines contraintes ici laissées en suspens – i.e. dans le cas présent, l’impossibilité d’instancier plus d’une fois «être un doctorant». La capacité à saisir et exprimer plus naturellement ces différences fut la principale motivation pour l’introduction des Schémas dans la littérature du TALH par (Minsky 1975). Initialement destinés à faciliter la perception visuelle des machines et plus spécifiquement les raisonnements spatiaux, et bien qu’ils soient également des graphs dirigés (Alfonseca 1989), les Schémas diffèrent des Réseaux Sémantiques classiques à deux égards.

Premièrement, là où les nœuds d’un réseau ne contiennent que leurs noms, les nœuds d’un Système de Schémas (Frame-system), soit des schémas, contiennent plusieurs onglets (slots). 64 Pour donner un exemple adapté de l’exemple donné en

63Voir note 51 p.120

64Il n’est ni classique ni indispensable de rapprocher les structures des réseaux sémantiques de

celle des schémas au point de considérer les schémas comme l’équivalent de nœuds dans un système de schémas. Toutefois, ce type de présentation, que l’on peut trouver en (Alfonseca 1989), a le mérite d’exprimer d’une manière claire et immédiatement compréhensible les propriétés clefs des

fig.3.6, chaque schéma – Gollum, Bilbo, Magic ring – contient plusieurs onglets, ou attributs dans une perspective de programmation orientée objet, dont les valeurs peuvent être fixes ou dynamiques selon la nature du schéma en question. Ainsi, en fournissant un certain nombre de valeurs par défaut, ces dernières peuvent alors être révisées au moyen d’inférences qui excèdent le champ de la pure logique – e.g. raisonnement analogiques ou abductifs.

Figure 3.8 – Un système de schémas

La seconde propriété qui distingue les systèmes de schémas des réseaux séman- tiques n’est autre qu’une contrainte sur l’hé- ritage de propriétés. Ainsi, si les nœuds d’un réseau héritent systématiquement des rela- tions – e.g. «est un», «est une partie de» – des noeuds super-ordinaux, l’héritage est généralement restreint à une classe unique de relations dans le cas systèmes de sché- mas. Cette seconde différence apparaît liée à la distinction type-instance sur laquelle s’est accordée une importante partie de la pos- térité. Bien que Minsky, ne l’exprime aussi clairement dans ce qui n’était alors qu’une note technique davantage destinée à soule- ver des questions qu’à y répondre, 65 les schémas sont considérés comme l’une des

implémentations des raisonnements de sens commun qui distinguent le plus nette- ment Types et Instances. 66 Cela tient entre autres choses à la conception que se

faisait Minsky de la cognition humaine. Cette dernière, avance Minsky, est organisée autour de stéréotypes qui constituent des représentations de situations génériques contenant, entre autres choses, les conditions d’usage de ces schémas. 67 A chaque

schémas. A des fins également didactique, Minsky lui-même présentait ses systèmes de schémas au moyen de l’imagerie puissante et intuitive des réseaux sémantiques : «We can think of a frame as a

network of nodes and relations. The "top levels" of a frame are fixed, and represent things that are always true about the supposed situation. The lower levels have many terminals–"slots" that must be filled by specific instances or data.» (Minsky 1974).

65«The paper raises more questions than it answers, and I have tried to note the theory’s defi-

ciencies.» (Minsky 1974)

66Voir (Rastier 1991) pour un interprétation similaire

67«A frame is a data-structure for representing a stereotyped situation, like being in a certain

kind of living room, or going to a child’s birthday party. Attached to each frame are several kinds of information. Some of this information is about how to use the frame. Some is about what one can expect to happen next. Some is about what to do if these expectations are not confirmed» (Minsky

situation nouvelle, un schéma est sélectionné et adapté au besoin courant. 68 Un

système de schémas est appréhendé comme une structure hiérarchisée de schémas fixes et généraux toujours vrais de la situation considérée – e.g. «les Hobbits sont des personnes» – et de schémas terminaux, relatifs à des individus, dont la valeurs des onglets est susceptible de changer dans le temps : on parle alors de transformations.

69 Appliqué à la recognition de scènes et d’objets, un exemple typique de transfor-

mation serait, dans le cas d’un changement de point de vue, le fait que l’onglet d’un certain schéma – e.g. position par rapport à la table – passe d’une valeur «à gauche de» à une valeur «à droite de».

D’une manière intéressante, Minsky ne propose aucun parallèle de sa théorie avec la théorie prototypique de la catégorisation (ou Prototype Theory) de (Rosch 1973) et ce, en dépit de leurs similitude et de l’importance de la notion de transferts par analogie de structure. Il revendique en revanche explicitement une filiation intel- lectuelle de l’application de son idée à la linguistique avec les Grammaires de Cas de (Fillmore 1968a), dont on retrouve l’influence dans nombre de théorie psycho- sémantiques d’origine aussi bien cognitiviste (J. Allen 1984) que philosophique (Goldman 1992a). A titre d’autre indice de sa perspective descriptiviste, Minsky ne manque pas non plus de rapprocher ses transformations des opérations concrètes de la psychologie piagétienne, en tant que ces dernières constituent une capacité de second ordre à se représenter des actions possibles en l’absence physique de leurs objets associés. 70

Voici qui achève notre clarification des origines multiples des ontologies ainsi que la manière dont leur développement prolonge quelques unes des problématiques centrales de l’Intelligence Artificielle et de la Linguistique. Nous avons ainsi montré que, en dépit de leurs objectifs distincts, ces diverses disciplines convergent dans le courant des années 70 sur la question du choix des critères nécessaires à une juste modélisation formelle des connaissances humaines. À grands traits, il existe un