ÉVALUATION DES SYSTÈMES D’ORGANISATION DES CONNAISSANCES

(1)

D’ORGANISATION DES CONNAISSANCES

MANUEL ZACKLAD

Les enjeux liés à l’usage et la conception des systèmes d’organisation des connaissances (SOC) qui ne concernaient jusqu’alors qu’un petit nombre de spécialistes tend à devenir un enjeu majeur de la gestion de l’information numérique. Malheureusement, la diversité de ces SOC et des dispositifs dans lesquels ils sont intégrés est telle, qu’il est difficile aujourd’hui de bien comprendre leurs propriétés et leur complémentarité. Dans cet article nous tentons de remédier à cette difficulté en présentant des critères d’analyse et de comparaison des SOC. Après un rappel des six grandes familles de SOC qui nous semblent représentatives des évolutions actuelles, nous présentons cinq critères de comparaison des SOC : l’instance énonciative responsable du SOC, la source de la description (contenu documentaire ou situation externe), le type et le degré de formalisation (formalité sémiotique ou logico- mathématique), le niveau de signification des termes du SOC par rapport aux éléments qu’ils décrivent (référentiel ou rhétorico-herméneutique), les principes d’association entre les termes du SOC (typée et référentielle, heuristique, statistique).

(2)

Introduction

La problématique de l’usage et de la conception de systèmes d’organisation des connaissances (SOC) adapté à la gestion de l’information documentaire numérisée qui ne concernait jusqu’alors qu’un petit nombre de spécialistes tend à devenir un enjeu majeur de la gestion de l’information numérique. Comme nous l’évoquions récemment les langages et les index qui organisent l’information, sont devenus des technologies intégrées aux dispositifs de stockage et aux usages de recherche de l’information conditionnant de manière déterminante les modalités d’accès à celle-ci dans les contextes professionnel et de loisir (Zackad 2010). Depuis les environnements bureautiques (fichiers office propriétaires ou open source, photo, vidéo, musique…) jusqu’à l’environnement du web de plus en plus pervasif, les SOC font une entrée remarquable à travers l’utilisation de plus en plus systématique et délibérée des métadonnées. Malheureusement, ces SOC et les dispositifs dans lesquels ils sont intégrés sont si divers qu’il est aujourd’hui difficile de bien comprendre leurs propriétés et leur complémentarité.

Dans cet article nous tentons de remédier à cette difficulté en présentant des critères d’analyse et de comparaison des SOC qui constituent de nouveaux développements de notre présentation effectuée lors du congrès ACSI-CAIS de 2007 (Zacklad 2007). En particulier, nous proposons de nouveaux éléments de définition des SOC en élargissant cette notion au domaine des index de moteurs de recherche, les SOC automatiques. Après un rappel des six grandes familles de SOC qui nous semblent représentatives des évolutions actuelles, nous présentons cinq critères de comparaison des SOC qui constituent également une grille d’analyse de la sémantique de ces langages, le terme de sémantique étant entendu ici dans son acception linguistique élargie, par opposition au sens logico- mathématique ¹ : l’instance énonciative responsable du SOC, la source de la description (contenu documentaire ou situation externe), le type et le degré de formalisation (formalité sémiotique ou logico-mathématique), le niveau de signification des termes du SOC par rapport aux éléments qu’ils décrivent (référentiel ou rhétorico-herméneutique), les principes d’association entre les termes du SOC (typée et référentielle, heuristique, statistique).

SOC manuels & automatiques

À la suite de Hodge (2000), nous utilisons le terme de système d’organisation des connaissances (SOC) pour regrouper dans une dénomination

1. Nous utilisons l’expression « logico-mathématique » par opposition à une approche

« logico-pragmatique », cf. J. Dewey (1938).

(3)

unique aussi bien les langages documentaires, les schémas de classification que les langages de représentation des connaissances issus de l’intelligence artificielle. Dans ce texte, nous y ajoutons également les index de moteurs de recherche que nous considérons comme des SOC automatiques ². Ainsi, les SOC relèvent d’une forme d’écriture codifiée (Zacklad 2010) qui peut être manuelle ou automatique. Quand elle est manuelle, elle s’appuie sur l’utilisation d’un lexique constitué de termes simples ou composés que l’on peut assimiler à des idiomatismes ³ propres à un environnement de gestion de l’information donné. Quand elle est automatique, elle s’appuie sur des algorithmes informatiques de fouille de texte (ou d’autres types de ressources numériques) ⁴.

Dans les deux cas, les SOC sont des ensembles de termes codifiés constituant un lexique disposant ou non de règles d’association explicites et permettant de faciliter les opérations de gestion portant sur des contenus documentaires ou sur les caractéristiques de situations non préalablement documentées (modèle documentaire ou modèle de situation). La création d’un SOC implique donc un processus de codification qui diffère radicalement selon son caractère manuel ou automatique. Dans le cas de la codification manuelle, on pourra établir une distinction entre les codes numériques (basés sur des nombres) et les autres. Dans le cas des codes non numériques, qui retiennent plus particulièrement notre intérêt, la création manuelle du code correspond à la lexicalisation ⁵ de termes, le plus souvent dans le contexte d’une langue de spécialité.

2. Nous avions fait un choix différent dans notre article sur les « Appareils de capture sémantique » (Zacklad, 2010).

3. « Les figements sont souvent classés parmi les idiomatismes. Mais comme le montre l’épreuve de la traduction, tout est idiomatique dans une langue (…) Le problème de la traduction montre cela clairement. Il est des cas où Rocard monte au créneau se traduit par la transposition Felipe Gonzalez sube al arena [descend dans l’arène]. La notion de figement peut être entendue de deux manières. Au niveau morphosyntaxique, on considère comme figée une séquence de morphèmes qui ne permet pas d’intercalation.

Au niveau sémantique, les mots qui constituent une lexie complexe n’ont pas d’autonomie contextuelle, si bien que le parcours interprétatif attribue un sens à la lexie, mais non à ses composants. », in Rastier 1997, Martins-Baltar, M. (éd.), La locution, entre langues et usages, coll. Signes, ENS Éditions Fontenay/Saint Cloud, diff. Ophrys, Paris, 1997, pp. 305-329.

4. Dans Zacklad 2010a, nous rappelons que certains procédés d’écriture automatique utilisent directement des capteurs qui mesurent certaines caractéristiques physiques des situations.

5. Nous employons ici le terme de lexicalisation pour décrire un procédé visant à investir une expression pour lui conférer un statut de lexème dans un lexique (ou vocabulaire) dédié à la gestion de l’information, c’est-à-dire essentiellement à

(4)

Dans de cas d’une codification automatique, la construction de l’index obéit à des règles calculatoires variées pour permettre d’aboutir à une liste de termes pertinents, telles que des règles statistiques faisant intervenir la probabilité d’occurrence du terme dans le corpus considéré. Si les réponses du moteur sont souvent pertinentes, le vocabulaire utilisé dans l’index n’est généralement pas directement lisible et/ou interprétable. Nous parlons de codification opaque pour décrire ce processus efficace mais basé sur des intermédiaires techniques qui fournissent des résultats qui ne sont pas toujours directement interprétables par les usagers.

Les associations entre les termes du SOC sont plus ou moins contraintes et peuvent exprimer des relations sémantiques parfois représentées de manière explicite : relation général/spécifique, partie-de, causalité, etc. Dans certains cas, les SOC correspondent à des langages formels au sens de la logique formelle.

Mais la plupart du temps ils correspondent à des « langages opératifs » au sens où ce terme peut-être défini en ergonomie (Falzon, 89) facilitant la gestion de situations professionnelles en cherchant à réduire certains facteurs d’ambiguïté dans la communication. L’expression de « langage d’organisation des connaissances » aurait pu être également tout à fait appropriée.

Six familles de SOC représentatives

Les classifications épistémiques universelles de la bibliothéconomie et les approches à facettes universelles

Les schémas de classification utilisés dans le domaine de la bibliothéconomie (la classification décimale de M. Dewey et la classification décimale universelle de P. Otlet et H. La Fontaine) sont les outils aujourd’hui les plus répandus pour le classement documentaire au sein des bibliothèques. Ils sont basés sur une approche épistémologique visant à classer l’ensemble du savoir humain selon une division hiérarchique. Ils visent à la fois à faciliter le

l’annotation documentaire ou indexation et à la recherche des documents indexés (mais un système de classification repose aussi sur un lexique). La lexicalisation peut porter sur un terme simple ou sur une expression qui aura été figée. Ce statut de lexème signifie que les variations, notamment orthographiques, subies par le terme renvoient à une forme canonique conventionnelle sans présumer du degré d’investissement définitionnel (Zacklad, 2005) dont le lexème fait l’objet. Dans le cas des ontologies sémiotiques, par exemple, l’investissement définitionnel est fort. Il est beaucoup plus faible dans les folksonomies ou dans les vocabulaires dédiés à la gestion de listes de signets. Nous emploierons indifféremment l’expression de « terme d’un SOC » ou de

« lexème d’un SOC ».

(5)

rangement des exemplaires physiques et à fournir une organisation systématique des ouvrages permettant au chercheur de repérer des documents pertinents qu’il ne connaît pas encore (Hudon 2001). Alors que la CDD requiert en principe une classification unique de chaque ouvrage, la CDU permet une combinaison d’indices qui, bien qu’accroissant la précision, n’en facilite pas toujours l’usage.

Dans un effort similaire de couverture du sens du sujet d’un livre par combinaison d’indices, le bibliothécaire indien S. R. Ranganathan propose en 1924 la « Colon Classification » (CC) basée sur le principe de l’addition de facettes classificatoires (Maniez, 1999). Chaque sujet doit être qualifié de cinq manières, selon la personnalité, la matière, l’énergie, l’espace et le temps. La CC à donné lieu à plusieurs améliorations (Maniez, 1999) concernant notamment le caractère plus ou moins universel des facettes retenues dans chaque domaine de connaissance. Cependant, pour chaque domaine, le principe est toujours de définir un vocabulaire universellement accepté pour faciliter le rangement des livres. L’approche de S. R. Ranganathan correspond pour nous à une approche à facettes universelles ou « dures » dans la mesure où le jeu de facettes est considéré comme stable et universel. Nous l’opposons à des approches à facettes locales, dans lesquelles les dimensions dépendent du contexte et de la finalité de la description sans prétendre à l’universalité (cf. infra).

Les langages documentaires et les thésaurus

Les thésaurus constituent l’exemple le plus achevé des langages documentaires dont l’ambition est de sélectionner un terme unique pour désigner un concept. Selon la norme internationale ISO 2788 (1986), les thésaurus nés dans les années 50, sont le vocabulaire d’un langage d’indexation contrôlé organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relation générique-spécifique). Selon la même norme un langage d’indexation est un ensemble contrôlé de termes choisis dans une langue naturelle et utilisés pour représenter sous forme condensée, le contenu des documents (Saadani L. & Bertrand- Gastaldy S. 2000). Contrairement aux usages des classifications, simple (CDD) ou analytico-synthétique (CC), qui visent à définir un indice représentant au mieux le contenu du document, indice pouvant résulter dans le cas de la CC d’une combinaison d’indices élémentaires assemblés selon une syntaxe précise représentant différentes facettes, l’usage d’un thésaurus autorise l’indexeur à utiliser autant de descripteurs que bon lui semble (en tenant compte des conventions fixées dans l’entreprise).

Le thésaurus contient un lexique (l’ensemble des termes d’une langue de spécialité) définissant les descripteurs et les non-descripteurs (termes interdits), un sous-ensemble de définitions et de notes d’application pratique et une

(6)

structure classificatoire exprimée par des relations sémantiques entre les termes du lexique : relation d’équivalence intralinguistique (synonymie), relation d’équivalence interlinguistique (traduction), relation hiérarchique, relation d’association. Alors que les classifications organisent les sujets des documents, les termes des thésaurus visent à décrire des concepts. Selon Maniez (1999), la distinction entre sujet et concept est assimilable à la distinction entre parole et langue. Alors que les sujets sont en nombre potentiellement infini, les concepts correspondent à un ensemble restreint de notions associées aux ressources cognitives d’une collectivité et dépendant notamment de sa langue (Ce qui distingue le concept du sujet est son statut sociolinguistique et son statut cognitif, Maniez 1999). C’est la raison pour laquelle les concepteurs d’un thésaurus vont se fixer sur une expression linguistique, le descripteur, et le considérer « toute choses étant égales par ailleurs » comme le meilleur représentant du concept visé. C’est à cette condition qu’ils seront en mesure d’établir des équivalences interlinguistiques (traduction), « l’opérateur d’équivalence » étant précisément le concept. Si les concepteurs de thésaurus ont intérêt à travailler avec les terminologues, c’est pour identifier les variations en discours du concept et ne retenir qu’une forme canonique.

Soulignons à ce stade deux caractéristiques. D’une part, comme le rappelle Maniez, les concepts du thésaurus sont spécialement définis à fin d’indexation à partir d’un fonds documentaire donné pour en faciliter l’interrogation ultérieure. C’est ce critère qui justifie la sélection du descripteur parmi d’autres possibles. D’autre part, si l’on suit J. Maniez, les thésaurus s’appuient sur une caractérisation des concepts qui les font au moins pour partie dépendre des langues et des mises en discours. Or, cette dépendance du concept vis-à-vis du système de la langue et la variabilité intrinsèque induite par cette dépendance, n’est pas une vision partagée par tous les concepteurs de système d’organisation des connaissances, en particulier dans le domaine des ontologies.

Les ontologies « formelles » et le web sémantique

Comme le souligne J. Charlet (2002), l’apparition des ontologies entendues comme une nouvelle approche de la modélisation des connaissances, s’est fait clairement dans le contexte de l’ingénierie informatique. Les ontologies s’inscrivent dans la continuité de nombreux travaux sur la représentation des connaissances, réseaux sémantiques, cartes conceptuelles, graphes conceptuels et leur popularité à principalement bénéficiée du développement du web sémantique, une vision prospective et normative du web proposée par Tim Berners Lee (2001) en 1994, sans avoir connu, à ce jour, le succès escompté.

Comme les principaux langages de représentation des connaissances issus des

(7)

sciences cognitives et de l’intelligence artificielle et comme les thésaurus, les ontologies visent à décrire des concepts, qui sont appréhendées comme des représentations mentales plus ou moins universelles ou comme des catégories a priori largement partagées dans la droite ligne de la philosophie de la connaissance (Guarino 1998).

On distingue des ontologies de différents niveaux de généricité : des ontologies dites de haut niveau qui contiennent « des concepts très généraux comme l’espace, le temps, la matière, les objets, les événements, les actions, etc.

[qui] ne dépendent pas d’un problème ou d’un domaine particulier » (Lando, 2006) ; des ontologies de domaine (médecine, architecture, mécanique..) ; de tâche (diagnostiquer, enseigner) ; voire d’application, dans lesquelles les concepts appartiennent à un domaine et à une tâche particulière (enseigner la médecine). Les ontologies ont plusieurs caractéristiques importantes.

Comme d’autres langages de représentation des connaissances, elles n’ont pas une vocation exclusivement documentaire au sens de l’indexation et de la recherche d’information mais elles visent aussi à participer de l’ingénierie des connaissances d’un domaine et en particulier à « spécifier explicitement une conceptualisation » pour reprendre les termes de T. Gruber (1993).

Point corollaire du précédent elles n’ont pas à être conçues strictement à partir d’un fonds documentaire qu’elles viseraient à indexer. Même si les ingénieurs de la connaissance responsables de leur conception utilisent souvent des outils terminologiques appliqués à des textes de référence du domaine, ils peuvent également s’appuyer sur d’autres sources d’information comme des entretiens auprès d’experts, l’analyse de bases de données, ou des conceptualisations ad hoc issues de leur propre synthèse des connaissances du domaine considéré.

Bien que la dimension documentaire ne soit pas, comme on l’a dit, leur justification intrinsèque, leur ancrage au sein du web sémantique tendrait néanmoins (pour autant qu’elles se diffusent effectivement) à leur faire jouer un rôle essentiel dans la recherche et la mise en relation d’information. Mais l’information dont elles visent à faciliter l’accès est d’abord celle du web invisible, celui constitué par les multiples bases de données qui consignent l’information structurée des processus d’affaires et des références techniques. Cette vocation première est aujourd’hui concurrencée par l’usage des ontologies pour annoter des documents plus classiques, mais cette tendance reste minoritaire.

En conséquence, les ontologies formelles ne sont pas faites pour être directement exploitées par des usagers humains engagés dans une navigation hypertextuelle comme cela pourrait être le cas pour une classification documentaire ou un thésaurus. Au contraire, elles sont le plus souvent conçues pour être exploitées par des programmes informatiques (des agents de recherche

(8)

automatique sur le web), l’utilisateur interagissant avec l’agent à l’aide d’un formulaire ou d’un autre type de langage de requête.

De ce fait, les ontologies gagnent à être représentées à l’aide de langages formels, le standard proposé par le W3C (World Wide Web Consortium) étant aujourd’hui OWL (Ontology Web Language), qui s’exprime à partir du langage RDF (Ressource Description Framework), proche des réseaux sémantiques, lui- même exprimé à l’aide de balises XML comme tous les langages du web sémantique. Les classifications exprimées en OWL s’appuient sur une stricte séparation classe/instance, l’héritage de propriétés, l’expression de contraintes de cardinalité et de contraintes logiques sur les relations entres propriétés, etc.

Cette formalisation extrême vise à répondre aux objectifs ultimes du web sémantique tels que définis par T. B. Lee qui était de fournir des réponses logiquement fondées (« vraies ») aux requêtes des utilisateurs.

Enfin, la raison d’être première des ontologies formelles, liée à la manipulation des données structurées du web invisible en réponse à des requêtes complexes sur la base d’une sémantique formelle, a des conséquences sur le niveau de signification associé à ces langages. La sémantique des ontologies est une sémantique référentielle au sens de la philosophie analytique, les termes recevant une valeur de vérité ancrée sur des référents externes objectivables. Les concepts décrits par les termes de l’ontologie ont donc également principalement une valeur référentielle comme dans la tradition artistotélicienne où le sens d’un signe est conçu comme représentation mentale (concept), et défini par ce à quoi il renvoie dans le monde (le mot « chien » « signifie » ce quadrupède à poils ras). (Lacour, 2004, citant Rastier, 1997). Or, cette vision du concept est largement incompatible avec les épistémologies de la philosophie pragmatique (J. Dewey) ou de la tradition herméneutique (cette dernière étant largement répandue dans les sciences humaines et sociales), épistémologies que nous défendons dans le cadre du web socio-sémantique.

Pour conclure cette partie, insistons sur le fait que le terme d’ontologie est aujourd’hui utilisé de manière bien plus large et imprécise pour désigner toute classification aisément partageable sur le web grâce à l’usage des standards du W3C que sont les langages XML et RDF. Ces usages ne facilitent pas la compréhension des enjeux sous-jacents à la normalisation sémantique des données à vocation universalisante qui reste au cœur du projet du web sémantique formel.

(9)

Les approches multidimensionnelles : les ontologies sémiotiques (web socio-sémantique) et les approches à facette locales

Les approches à facettes locales comme les approches du web socio- sémantique à base de points de vue partagent l’idée selon laquelle la caractérisation des documents ou des situations gagne à s’appuyer sur plusieurs dimensions pour faciliter et enrichir le travail de classification ou d’indexation par rapport au système de classification hiérarchique. Cependant le sens conféré aux différentes dimensions varie selon les approches.

Proposé au sein de l’équipe Tech-CICO de l’Université de technologie de Troyes et issu de préoccupations conjointes à l’ingénierie des connaissances, au CSCW (Computer Supported Cooperative Work) et au Social Informatics (Turner 2007), le web socio-sémantique s’oppose à la vision logiciste du web sémantique initialement proposés. T. Berners-Lee tout en s’inscrivant dans le projet d’une structuration des ressources documentaires partagées sur le web facilitant la réalisation d’activités coopératives distribuées (Zacklad, 2005 ; Zacklad et al., 2007 ; Cahier 2005). Pour instrumenter cette vision du web, nous proposons un format de représentation de l’information, la métasémiotique HyperTopic, permettant de construire et de partager aisément des ontologies sémiotiques de type cartes de thèmes (Cahier, 2005) ou réseaux de description (Bénel, 2003) ⁶. L’application de la métasémiotique à un domaine de connaissance produit une sémiotique tâche-domaine pouvant servir d’index pour caractériser des « items » qui peuvent eux-mêmes être associés à des ressources (voir Zacklad et al., 2007) ⁷.

Les ontologies sémiotiques partagent avec les thésaurus leur structure hiérarchique rassemblant des expressions significatives du domaine selon une relation général/spécifique, sans imposer un formalisme logique ou « orienté objet » (pas de relation d’héritage au sens strict, par exemple). Mais elles s’en différencient également à plusieurs titres.

Elles sont considérées comme des ontologies dans la mesure où elles visent à classifier des situations, des personnes ou des artefacts qui ne sont pas nécessairement entièrement documentés. Si elles ne sont donc pas produites exclusivement par l’analyse d’un corpus de documents primaires, elles donnent

6. Près d’une quinzaine d’applications dans différents domaines ont été réalisées à ce jour, mais davantage dans un contexte intranet qu’internet (Zacklad & al., 2007).

7. Dans une base documentaire décrivant des projets de recherche & développement, les projets sont considérés comme des items caractérisés par des ressources documentaires (des fichiers), des attributs standards (dates, participants…) et des attributs heuristiques, c’est-à-dire des cartes de thèmes représentants les ontologies sémiotiques.

(10)

cependant toujours lieu à la réalisation d’un document secondaire articulatoire (un document pour l’action, Zacklad 2007) dans lequel la sémiotique tâche- domaine est exprimée. Comme les ontologies formelles, ou plus largement les modèles dit de « représentation des connaissances » (p.e. cartes conceptuelles), elles sont construites par des ingénieurs de la connaissance, sur la base de l’analyse de documents primaires mais également à l’aide d’entretiens avec des experts ou par l’analyse ad hoc d’un domaine.

Elles sont toujours multiples et visent à caractériser un ensemble d’items selon différents points de vue. Chaque point de vue est en principe défendu par un ou plusieurs acteurs et peut être socialement et/ou cognitivement conflictuel avec un autre. L’organisation de la diversité des points de vue permet de médiatiser la coopération entre des acteurs ou des communautés d’acteurs hétérogènes. Les domaines traités sont toujours en partie controversés ou sujets à des interprétations ou des formes d’expériences contrastées. De ce fait, les ontologies sémiotiques doivent être évolutives et pouvoir être facilement actualisées par les représentants des points de vue en présence ou par l’intermédiaire de l’ingénieur de la connaissance qui les accompagne. Dans certaines applications actuelles basées sur Hypertopic (Agorae, Cahier 2005), l’ingénieur de la connaissance a été le médiateur humain responsable de la construction des différentes ontologies sémiotiques. Cependant, l’objectif à terme, est que les plateformes informatiques permettent l’élaboration dynamique, par les acteurs eux-mêmes, de ces ontologies, ce qui n’exclut d’ailleurs pas la fonction régulatrice de l’ingénieur de la connaissance.

Les ontologies sémiotiques, cartes de thèmes ou réseau de descripteurs selon les applications, contiennent des thèmes plutôt que des concepts ou des sujets.

Sous un certain angle, les thèmes pourraient être assimilés à des descripteurs visant à caractériser des « concepts sémiotiques » (voir Cahier, 2005) représentés par un ou plusieurs items selon la généralité du concept considéré.

Nous sommes néanmoins toujours prudents dans l’utilisation du terme de concept à cause de l’acception référentielle dominante qu’il possède dans les ontologies formelles. Notre approche du sens peut-être dite rhétorico- herméneutique dans la lignée de Rastier (2003) ⁸, l’appréhension du sens d’un terme dépendant au moins de trois facteurs : la proximité de ce terme vis-à-vis de termes voisins mais différents, le parcours de lecture permettant de l’appréhender, dépendant ici des associations hypertextuelles définies par

8. Pierce est également un inspirateur important pour certain d’entre nous (Cahier, 2005).

(11)

l’ontologie sémiotique et la situation d’énonciation ⁹ (ou contrat de lecture), correspondant souvent en ingénierie des connaissances à la « tâche ».

Par opposition aux approches à facettes universelles, les approches à facettes locales considèrent que chaque domaine d’application requiert un jeu de facettes spécifiques. Le degré d’opportunisme versus de stabilité associé à chacun de ces domaines peut varier selon les approches méthodologiques. La méthodologie ISIS associée à une infrastructure logicielle est un bon exemple d’utilisation de classification à facettes dans un environnement d’entreprise, qui permet de coordonner deux espaces de classification des documents, l’un calé sur les critères institutionnels de l’entreprise (facettes de contexte), l’autre sur des critères métiers plus spécifiques (facettes de contenu) (Marleau et al. 2008). Dans ISIS l’approche se veut assez générique pour traiter l’ensemble de la documentation d’entreprise, notamment pour les facettes de contextes qui décrivent les processus d’entreprise (Fonction, Activité, Type de contenu, Structure organisationnelle, Poste, Rôle, Acteur, etc.). Dans le cadre du projet ANR Miipa-Doc ¹⁰, d’autres approches dites « ascendantes » sont expérimentées, dans lesquels les jeux de facettes proposées sont construits de manière ad hoc en fonction du domaine et de l’application, selon une démarche qui peut se rapprocher des points de vue subjectifs et potentiellement antagonistes du web socio-sémantique (voir aussi Marleau et al., 2008).

Les annuaires de ressources internet collaboratifs et les folksonomies Nous avons regroupé dans cette section les annuaires internet et les folksonomies parce qu’ils s’appuient sur des applications qui mettent en synergie une communauté d’indexeurs coopérant à travers le web dans une logique proche de celle du web socio-sémantique. Les annuaires de ressources s’inscrivent dans la logique des schémas de classification de la bibliothéconomie présentés plus haut, sans toutefois revendiquer l’organisation disciplinaire à laquelle ceux-ci se conforment (Hudon, 2001). Les annuaires de ressources internet qui nous intéressent ici sont notamment ceux pris en charge par des communautés de bénévoles comme l’annuaire « libre » dmoz (http://dmoz.org/), étudié par C.

Lejeune (2006, 2004). À la différence d’un annuaire comme celui de Yahoo, par exemple, construit par des salariés placés sous l’autorité de managers définissant une politique de référencement explicite, le processus social d’indexation mis en

9. Moins présent à notre connaissance chez Rastier.

10. Méthodes et services intégrés institutionnels et participatifs pour la classification à facettes des contenus documentaires complexes (ANR Miipa-Doc n°2008 CORD 014 03).

(12)

œuvre dans ces communautés relève d’un type de contrôle social qui se situe entre celui de Wikipédia et celui, plus hiérarchique, des communautés open source. Selon leur niveau de réputation, les membres de la communauté virtuelle peuvent contrôler des niveaux plus ou moins hauts de la classification, rajouter de nouvelle branches dans les domaines au sein desquels ils font « autorité », supprimer les descriptions effectuées dans la « notice » par des participants moins renommés, etc. L’accroissement de réputation qui permet à un membre de la communauté de se voir octroyer des droits supplémentaires se fait notamment en traçant ses contributions déjà effectuées.

Mais le dispositif qui connaît aujourd’hui le plus grand succès est celui constitué par les folksonomies dans le contexte des modèles d’affaire et des usages participatifs du web 2.0. Les folksonomies s’appuient sur des dispositifs informatiques donnant la possibilité à l’usager d’indexer des documents afin qu’il puisse plus aisément les retrouver grâce à un système de mots-clés (Le Deuff, 2007). Chaque utilisateur des plateformes telles que Del.icio.us (http://del.icio.us) ou Flickr (http://www.flickr.com), peut déposer des ressources, marque-pages ou photo personnelle, et leur associer des mots-clefs qu’il peut ensuite partager avec les autres utilisateurs. Malgré les défauts liés à la faible cohérence des descripteurs (synonymie, polysémie, non-explicitation des facettes prises en compte, absence de relation sémantique…) les folksonomies semblent connaître un réel succès.

Comme le soulignent O. Ertzscheid et G. Gallezot (2006), les folksonomies, qu’ils assimilent à des pratiques d’indexation sociale, tirent leur force de deux phénomènes. D’une part, du faible effort cognitif requis par leur utilisation en comparaison des classifications épistémiques de la bibliothéconomie et, d’autre part, de la fonction de régulation offerte par la mise en visibilité des mots-clefs déposés par l’ensemble des utilisateurs qui permet d’avoir un effet de feed-back rapide sur leur popularité et leur degré de couverture (Ertzscheid et Gallezot 2006). Cet effet est renforcé par la possibilité d’accéder directement au site identifié par le marque-page (Del.icio.us) ou à la photo indexée (Flickr), ce qui réduit le coût potentiel de l’erreur d’indexation et permet de désambiguïser rapidement certains mots-clefs. Ces propriétés sont d’autant plus essentielles qu’à la différence des annuaires de ressources internet qui sont contrôlés par des indexeurs sélectionnés selon leur réputation, les folksonomies sont totalement ouvertes au public inscrit sur les sites.

Les annuaires de ressources internet collaboratifs, comme les folksonomies, ne représentent pas des innovations majeures du point de vue de l’organisation conceptuelle des descripteurs. Le premier dispositif offre des schémas de classification bien moins sophistiqués que ceux développés par la bibliothéconomie et les folksonomies correspondent à des listes de termes dont la cohérence apparaît comme bien faible, eu égard à celles proposées par les

(13)

professionnels de la documentation. Dans les deux cas, l’innovation majeure se situe dans le processus collaboratif de construction des schémas de classification ou des listes de descripteurs et dans le processus d’indexation associé à cette construction à partir d’un flux de documents primaires très hétérogènes et dont le volume s’accroît très rapidement. Dans la perspective du développement du web socio-sémantique, mais également dans la perspective du développement de nouveaux outils de gestion des bibliothèques numériques, l’hybridation entre des dispositifs professionnels de type schémas de classification, thésaurus et ontologies et ces nouveaux dispositifs de gestion collaborative de l’information numérique via le web, nous semble très prometteuse.

Les index automatiques des moteurs de recherche

Les index automatiques sont les meilleurs exemples de SOC automatiques.

Ils sont construits par les moteurs de recherche et constituent des SOC opaques qui peuvent être efficaces mais sont difficiles à interpréter par leurs usagers. La constitution de ces index résulte de plusieurs opérations successives permettant d’associer à chaque document d’un corpus considéré une liste de termes : lemmatisation, filtrage des termes significatifs à l’aide d’anti-index, pondération selon leur pertinence à l’aide d’algorithmes statistiques mettant en relation la fréquence du terme dans un document avec sa fréquence dans le corpus (cf. TF-IDF), etc.

Les index des moteurs de recherche sont généralement invisibles pour les utilisateurs bien qu’ils soient sans doute parmi les plus sollicités. Étant donné le nombre immense de documents indexés, particulièrement sur le web, seuls les documents retournés en premier sont généralement consultés. Les algorithmes de pondération qui associent avec une plus ou moins grande force un descripteur avec un document jouent de ce fait un rôle essentiel. Parmi les innovations les plus intéressantes de ces dernières années figure le traitement spécifique des métadonnées. Dans les moteurs de recherche proposés aux entreprises, les administrateurs du moteur ont la possibilité d’intervenir directement dans les mécanismes de pondération. Cette possibilité ouvre la voie à des approches à base de SOC hétérogènes (Zacklad et Giboin, 2010) qui offrent de nouvelles opportunités pour la recherche ouverte d’information.

Cinq critères de comparaison des SOC

Les critères de présentation des SOC que nous allons présenter peuvent être représentés par une liste de cinq questions :

(14)

– Qui parle, qui participe, au nom de quoi ? (l’instance énonciative responsable du SOC)

– De quels objets ? (la source de la description, primaire ou secondaire, modèle de situation ou de contenu)

– Dans quel format d’expression ? (le type et le degré de formalisation du SOC, sémiotique ou logico-mathématique)

– Quel est le niveau de signification des termes du SOC par rapport aux

« objets » qu’ils décrivent ? (référentiel ou rhétorico-herméneutique)

– En utilisant quel principe d’association entre les termes pour permettre quel type de raisonnement ? (typé et référentiel, heuristique, statistique).

L’instance énonciative responsable du SOC

Bien que certains promoteurs de SOC aiment à présenter ceux-ci comme des systèmes objectifs, stables et pérennes dans la longue durée, cette vision ne résiste pas longtemps à l’analyse. Les SOC les plus stables sont aussi les plus simples et ceux qui font référence aux données les plus triviales. Le schéma de classification Dublin Core est sûrement plus stable qu’un thésaurus de domaine en biologie ou en sociologie et au sein de Dublin Core, le champ « sujet » est probablement un des moins stables. Dès que les SOC s’attachent à décrire des caractéristiques des documents ou des situations moins triviales, ils s’appuient sur des choix de conception délibérés qui engagent les auteurs du SOC et relèvent d’hypothèses sur les modalités d’exploitation par les usagers.

Dans le tableau 1, on met en évidence quatre approches classiques que l’on retrouve dans la conception des SOC. Dans la première ligne, le SOC est conçu par des professionnels des bibliothèques et/ou de la documentation. Dans de nombreux cas, ces professionnels considèrent qu’ils détiennent des méthodes d’analyse qui leur permettent de concevoir le SOC seuls, sans consulter les experts du domaine ou les usagers. Dans la deuxième ligne, on trouve les méthodes mises en œuvre dans le domaine de l’ingénierie des connaissances et dans certains projets d’ingénierie documentaires. Dans ces approches, les concepteurs s’appuient sur des connaissances expertes qui sont « recueillies » auprès de spécialistes du domaine, mais ils gardent la responsabilité pleine et entière du SOC et de ses évolutions.

Les trois dernières lignes correspondent à des approches qui tirent directement partie des nouvelles opportunités informatiques qui permettent une mise à jour directe et interactive des SOC et des fonds documentaires qu’ils indexent. Dans la troisième ligne, ce sont les « experts » qui contribuent directement à la mise à jour du SOC, les concepteurs pouvant occuper alors

(15)

une position de médiation et de régulation des contributions. Enfin, les deux dernières lignes correspondent aux cas où ce sont les utilisateurs eux-mêmes qui contribuent à la conception du SOC. Ces utilisateurs peuvent être des groupes de professionnels partageant des préoccupations communes, par exemple, dans le cas des approches à facettes locales, ou de vastes communautés d’utilisateurs partageant des ressources sur le web comme dans le cas des plateformes Delicious ou Flickr.

Tableau 1. Type de collectif impliqué dans la conception des SOC

Conception par des professionnels des bibliothèques, de la documentation ou de l’informatique

– Classifications universelles – Thésaurus

– Facettes universelles – Index de moteur de données

Conception par des ingénieurs de la connaissance (avec des experts du domaine)

– Ontologies formelles – Cartes conceptuelles

– Ontologies sémiotiques ou approche à facette locales – Index de moteur enrichi par des dictionnaires de spécialité

Conception participative régulée (expertise multiple basée p.e. sur la réputation)

– Annuaire internet

– Ontologies sémiotiques et approches à facettes locales insérées dans des environnements participatifs Conception participative par des

groupes d’utilisateurs restreints – Certaines approches à facettes locales Conception participative grand public

non contrôlée (sagesse des foules ou

effet de mode) – Folksonomies

La source de la description : primaire ou secondaire, modèle de situation ou de contenu

La deuxième distinction sépare les SOC selon qu’ils visent principalement à rendre compte d’une situation externe ou du contenu d’un document préexistant. Le premier type de SOC vise à représenter de manière schématique les composantes d’une situation qui n’a pas été préalablement documentée sur la base d’interviews avec des experts du domaine ou des usagers potentiels du SOC. Parfois, le document produit se résume au SOC lui-même, comme dans le cas de la saisie d’un formulaire à partir de questions à choix fermés. C’est notamment le cas pour des SOC dont la signification des termes est

(16)

principalement référentielle. Mais il peut également s’agir d’une liste de mots- clefs visant à décrire de manière contrôlée une situation sur la base d’une visite d’expert, description qui peut inclure des éléments d’appréciation plus subjectifs. En fournissant une description primaire, les SOC définissent aussi le modèle d’une situation.

Le second type de SOC correspond aux usages traditionnels des langages documentaires, des métadonnées et des moteurs de recherche. Les SOC visent à représenter le contenu d’un ensemble de documents qui constitue une source secondaire par rapport aux situations telles qu’elles ont pu être expérimentées ou imaginées par les auteurs ¹¹. À ce titre, ces SOC correspondent à des modèles du contenu des documents. Dans l’univers numérique, l’ensemble des métadonnées associées au document peut combiner modèle de situation et modèle de contenu. En bibliothéconomie on associe une description dite physique (catalogage) : titre, noms des responsables intellectuels, date de publication, nombre de pages, etc. (Hudon, 1999-2000), destinée à la notice bibliographique, avec une autre description qui est celle des concepts contenus dans le document à l’aide de descripteurs, l’indexation du contenu. Le modèle physique du document correspond à un modèle de la situation de production de ce document : qui l’a écrit, qui l’édite, à quelle date, etc. L’indexation correspond à un modèle du contenu. Dans certains SOC à facettes destinés à l’archivage numérique (ISIS, Marleau et al., 2008), on introduit explicitement cette distinction en séparant les facettes de contexte (de situation dans notre terminologie) des facettes de contenu (les seules qui étaient prise en compte par Ranganathan). Pour construire les facettes de situation, on peut s’appuyer directement sur une modélisation des processus d’affaire, une description primaire qui permet de caractériser l’origine, le statut et la finalité des documents dans les activités de l’organisation.

11. Notre utilisation de la notion de source de la description diffère quelque peu de celle qui est fait en histoire ou dans le domaine de la veille quand on distingue les sources primaires des sources secondaires. En effet, dans ces disciplines, les sources primaires sont des documents « originaux » qui n’ont pas été retravaillés par le chercheur : courrier, archive, etc. (Wikipédia 2010). Dans notre acception du terme, une description primaire correspond à une description qui est effectuée à partir de l’expérience directe d’une situation par le biais d’observations, d’entretiens, d’analyses, etc. Un SOC a une source primaire quand ses termes font référence aux caractéristiques d’une situation extradocumentaire : attributs d’une personne ou d’un objet, attitude, nom de l’auteur d’une œuvre, etc. Il a une source secondaire quand il décrit le contenu d’un document.

(17)

Tableau 2. La source de la description : contenu ou situation

SOC pour la modélisation des contenus SOC pour la modélisation des situations

¾ Classifications universelles

¾ Thésaurus

¾ Folksonomie

¾ Annuaire internet

¾ Systèmes à facettes dans un contexte de bibliothèque

¾ Index des moteurs de recherche

¾ Les systèmes de métadonnées normalisées pour l’interopérabilité, de Dublin Core aux normes adaptées à différents secteurs : muséographie, diffusion, création, préservation, etc. (cf. le site

« metrometa » ;

¾ Cartes conceptuelles

¾ Ontologies sémiotiques

¾ Ontologies formelles

¾ Systèmes à facettes dans un contexte d’entreprise

¾ Les langages de modélisation

généralistes utilisés dans le domaine du système d’information structuré pour analyser les processus métiers, les services, les « workflow », etc. : modèle entité-association, objet, UML, etc.

¾ Les langages de modélisation spécialisés dans différents secteurs : pédagogie, mécanique, médecine, etc.

Le type et le degré de formalisation du SOC : sémiotique ou logico-mathématique

Le troisième critère établit une distinction selon le type et le degré de formalisation des SOC. Comme nous le développons dans Zacklad (2005), la formalité peut s’entendre en deux sens différents : selon la formalité sémiotique et selon la formalité logico-mathématique. Dans les deux cas le terme du SOC met en évidence des types qui permettront de contrôler la signification attribuée à d’autres termes « objets ». Mais alors que dans la formalité sémiotique, la définition du type est influencée par le contexte et la situation, dans la formalité logico-mathématique ce sens est totalement indépendant de ces paramètres et peut être désigné par des symboles arbitraires qui n’ont aucune signification pour les usagers. Comme nous le verrons dans la partie suivante, cette signification est définie de manière strictement référentielle par des opérations ensemblistes sur des attributs objectifs.

Selon l’autre sens de formel, le sens de la logique mathématique ou de la linguistique générative, formel signifie « qui ne tient pas compte de la signification des éléments » (TLF 2010), comme dans l’expression de

« grammaire formelle ». La logique formelle comme la grammaire formelle sont uniquement constituées par des règles d’agencement syntaxique entre des

(18)

symboles a priori vides de sens qui peuvent faire l’objet de calculs sans considération de sémantique. Celle-ci est appréhendée par la sémantique formelle qui se ramène à une projection dans un modèle dans lequel les propositions manipulées prennent la valeur vrai ou faux. À ce titre, les langages formels ne sont pas des sémiotiques, du moins dans le sens qu’Hjelmeslev et la grande majorité des sémioticiens ultérieurs qui se réclament de lui donnent à ce terme. Comme l’explique S. Badir (2000) :

« Certes, les sémiotiques sont des systèmes de signes (définition usuelle) mais, dans l’acception hjelmselvienne, leurs plans d’expression et de contenu doivent chacun avoir une structure propre. Au vu de cette condition, le jeu d’échec, ou l’algèbre, ne sont pas des sémiotiques parce que chaque élément d’expression y est toujours corrélé au même élément de contenu (de sorte que l’on n’a pas besoin véritablement d’y dissocier un contenu et une expression). La valeur d’un fou est d’aller sur plusieurs cases en toutes diagonales (et en toutes diagonales exclusivement au contraire de la reine), que le fou soit blanc ou noir, en marbre ou en plastique, et quelle que soit sa place sur l’échiquier. […]. Dans les sémiotiques, au contraire, le plan de l’expression et le plan du contenu ne sont pas conformes l’un à l’autre […]. À un phonème (plus petit élément d’expression), pas d’élément de contenu qui ait dans son plan la même fonction que lui, et, à un sémème (plus petit élément de contenu), pas non plus d’élément d’expression qui ait dans son plan la même fonction que lui. » (pp. 35-36).

Nous différencions ainsi les SOC selon qu’ils relèvent d’une formalité logico-mathématique ou d’une formalité sémiotique. Dans la première catégorie (tableau 2) on trouve tous les langages qui relèvent de la logique, à commencer par les langages visant à concevoir des ontologies comme OWL. Cependant, même si le degré de formalisation logico-mathématique de RDF est beaucoup plus faible que celui des langages ontologiques, bon nombre de ses applications sont également conçues comme un préalable à des efforts de formalisation visant à doter certains éléments de contenu des documents d’une sémantique formelle, au sens logico-mathématique, formalisation dont nous verrons l’intérêt indiscutable dans certains contextes applicatifs (cf. infra 4.4).

D’autres SOC relèvent d’un autre type de formalisation qui s’applique à la très grande majorité des langages documentaires et des ressources numériques : thésaurus, CDU, approches à base de facettes ou de points de vue, cartes conceptuelles, ou utilisation de RDF « locales » qui ne visent pas une forte cohérence inter-applicative. Ce type de formalisation que nous qualifions de sémiotique est basé sur une métasémiotique au sens de Hjelmslev (Badir 2006) :

(19)

Les métasémiotiques prennent leur source dans des sémiotiques dotées, pour ainsi dire, d’un plan de contrôle. Grâce à ce plan, chaque élément du contenu trouve à s’adjoindre une expression sous un rapport de dénomination. C’est ce que l’on fait lorsqu’on dit, dans un exemple célèbre exploité par Roland Barthes, que dans telle publicité pour des pâtes françaises les teintes jaunes et vertes sur fond rouge (les couleurs du drapeau italien) signifient l’italianité (Barthes, 1982, p. 26). Italianité est une expression métasémiotique pour désigner la signification d’éléments visuels (de couleurs).

Comme nous le disions plus haut, la constitution d’un terme en élément d’un SOC correspond à l’opération de lexicalisation qui consiste à lui accorder un statut particulier dédié à la gestion et à la recherche d’autres ressources, notamment informationnelles. Pour constituer une folksonomie une lexicalisation « simple » suffit. Pour accroître l’investissement définitionnel, deux approches sont possibles : soit comme dans un dictionnaire en fournissant une définition des termes employés, soit en utilisant une métasémiotique pour contrôler les acceptions du terme. La métasémiotique exerce un contrôle catégoriel sur les termes du SOC en leur assignant une fonction spécifique qui sera exploitée dans les opérations ultérieures de gestion et de recherche d’information. On assignera, par exemple, à un terme le statut de « terme- générique » dans un thésaurus, « d’item » dans l’approche par point de vue d’HyperTopic, ou de « nom de facette » dans une approche par facettes locale.

Mais le contrôle catégoriel que la métasémiotique exerce sur les termes n’est pas de même nature que celui exercé par des « types » sur les objets dans la logique mathématique, ou celui exercé par les classes sur les objets (instances) en programmation, pour lesquels l’appartenance au type se ramène in fine à l’appartenance à un ensemble définie par la possession d’un certain nombre de propriétés discrètes (approche discrète et binaire de la sémantique). Dans une métasémiotique, pour déterminer si un terme relève ou non d’une catégorie, il faut procéder à une double interprétation en contexte du système des catégories et du système des termes objets. Par exemple, pour savoir si /musique bretonne/ (terme objet) est bien un « genre musical », « représentatif de »,

« musique celtique » (trois termes de la métasémiotique) il faut interpréter les notions de « genre musical » (selon la source sonore, le lieu de destination, la durée du morceau, le rôle social, Wikipédia 2010) de « représentatif » (un exemple, un type majoritaire, un prototype, une tendance actuelle…) et la notion de « musique celtique » (p.e. définition géographique ou ethno- musicologique). L’interprétation peut laisser subsister des ambiguïtés ou des sens multiples qui pourront être résolus (ou non) en contexte et être considérés, selon les cas, comme une richesse ou comme un défaut.

(20)

/Musique Bretonne/, le terme objet doit lui-même être interprété selon le texte ou la situation d’interlocution d’où il émane pour savoir s’il désigne, par exemple, la /musique folklorique bretonne/ ou la /musique produite par des artistes bretons/. Dans tous les cas, les choix d’interprétation dépendront d’une intention argumentative ou rhétorique qui correspond à la finalité du SOC, à la logique de conception adoptée par ses auteurs et à celle de l’usage, qui ne sont pas toujours superposées. Il faut souligner que les termes de la métasémiotique comme les termes objets du SOC sont le plus souvent empruntés à la même langue naturelle, ce qui peut entraîner des processus de « contamination » réciproques même si les deux plans sont formellement indépendants. Ces processus, s’ils sont eux-mêmes contrôlés, ne sont en rien problématiques, l’usage de ces termes étant destiné à des communautés linguistiques sensibles à ces évolutions.

Tableau 3. Type et degré de formalisation du langage et des combinaisons syntaxiques

Pas de définition du rôle des lexèmes permettant leur combinaison syntaxique

Formalisation sémiotique basée sur une

métasémiotique explicite

Formalisation logico- mathématique basée sur un langage formel

Langue de codification fermée

Classification décimale de Dewey

CDU Thésaurus

Approches à facettes universelles

Ontologie formelle (l’ensemble des prédicats est définis dans une série d’ontologies, allant des ontologies « de haut niveau » aux ontologies

« de domaine »)

Langue de codification ouverte

Folksonomie Index de moteur de recherche simple

Ontologie sémiotique Annuaire collaboratif internet

Carte conceptuelle Utilisation « libre » de RDF Approche à facettes locales Index de moteur de recherche traitant les métadonnées ou inférant le rôle des lexèmes ¹²

Formalisation faible de type RDF (chaque application possède son jeu de prédicats ad hoc mais une cohérence inter- applicative est visée)

Le recours à une métasémiotique autorise donc une forme de codification puissante, qui peut permettre des traitements informatiques simples, mais dont

12. Repérage automatique d’un titre ou d’un nom d’auteur, par exemple.

(21)

les résultats ne peuvent pas faire l’économie d’une interprétation par les utilisateurs. Cette interprétation découle largement du contexte, mais peut aussi être précisée par des annotations de nature diverse. Ainsi, lors d’une recherche sur un site musical, les catégories « genre musical », « représentatif de »,

« musique celtique », permettent de contrôler la signification de /musique bretonne/ en écartant la signification /musique produite par des artistes bretons/ au profit de /musique folklorique bretonne/. Notre point de vue est que sauf dans les cas ou une stricte automatisation excluant l’interaction avec l’usager est nécessaire, le recours à des métasémiotiques souples et faciles à mettre en œuvre est préférable aux ontologies lourdes dont le déploiement nécessite des compétences informatiques poussées (mais dont nous verrons cependant les avantages dans certains contextes).

Le niveau de signification des termes du SOC par rapport aux éléments qu’ils décrivent : référentiel ou rhétorico-herméneutique

Ce critère correspond à l’évaluation des procédés d’interprétation qui permettent d’attribuer aux termes des SOC une signification. Le lexique du SOC est en relation avec les situations d’activités et le contexte documentaire selon différentes modalités d’interprétation qui conditionnent la manière dont il doit être utilisé pour indexer et l’exploitation qui peut en être faite dans la recherche d’information. Selon Rastier (1999), la linguistique oscille entre plusieurs traditions de l’interprétation et donc de la signification : syntaxique, sémantique (au sens de la logique) et rhétorique/herméneutique :

« 1. La conception syntaxique fait du sens le résultat d’une interprétation au sens syntaxique du terme, c’est-à-dire d’un transcodage. Il faut alors postuler d’une part une séparation entre le syntaxique et le sémantique et, d’autre part, une compatibilité des formats (les formalismes syntaxiques et les formats sémantiques, en général propositionnels, comme la forme logique chomskyenne, sont issus du même paradigme formel) […]

2. La conception sémantique (de tradition logique) repose sur la relation de représentation entre des symboles logiques et des objets. Cependant, elle n’offre aucune garantie linguistique, et ne relève pas de la linguistique, dans la mesure où elle est nécessairement fondée sur une ontologie — et qui plus est une ontologie discrète, telle que des objets puissent être représentés par des symboles et des états de choses par des propositions.

(22)

3. Par contraste, la conception rhétorique/herméneutique conduit à une définition non logique de l’interprétation ¹³ : même si elle peut décrire des opérations logiques, elle s’appuie non sur la logique mais sur les sciences sociales, psychologie, sociologie, anthropologie. Fondamentalement, l’interprétation est conçue comme un parcours dans un texte ou une performance sémiotique. Cela suppose quatre facteurs ignorés par les conceptions syntaxique et logico-sémantique de l’interprétation : 1) un sujet interprète situé, 2) une pratique sociale, et donc 3) une action et 4) une temporalité (…). »

Les deux premières relèvent globalement des approches logico- mathématiques elles-mêmes largement inspirées par les positions de la philosophie analytique et du positivisme logique, même si une analyse plus fine permettrait de mettre en évidence des divergences entre les courants. Elles correspondent aux procédés d’interprétation associés aux langages formels que nous avons examinés dans la partie précédente. Mais, certains de leurs présupposés se retrouvent directement dans d’autres types de SOC, comme ceux qui relèvent de la terminologie (Rastier, 1995), voire dans les thésaurus qui font de la référence au « concept » leur fondement théorique. Le procédé d’interprétation associé au SOC et son degré de formalisation sont deux critères qui ne se recouvrent pas entièrement même si la formalisation logico- mathématique implique un niveau de signification référentielle.

Comme le rappel Bachimont (2000) la signification référentielle peut s’entendre en deux sens extentionnel ou intensionnel, « le paradigme référentiel, (…) associe à chaque unité linguistique une référence, un objet pris dans un univers de référence (référence extensionnelle) ou un concept (référence intensionnelle) ; comprendre un mot, c’est trouver l’objet qui lui correspond. ».

A priori, la référence, surtout dans sa dimension extensionnelle, pointe sur des objets tangibles. La référence intensionnelle de ces objets, le concept, correspond à une liste de propriétés définitoires. Selon ces approches, au concept de « mammifère » sont associées deux définitions : selon la référence intensionnelle le mammifère correspond à la somme des propriétés suivantes : vertébrés, vivipares (excepté les monotrèmes), allaitant les jeunes, possédant un cœur à quatre cavités, un système nerveux et encéphalique développé, une homéothermie (température interne constante) et une respiration de type pulmonaire (Wikipédia 2010), selon la référence extensionnelle il correspond à l’ensemble des « instances » de mammifères existant dans l’univers. Même si l’on devait considérer des lexèmes et des concepts moins tangibles, comme celui de « nombre pair », il faudrait de la même manière être en mesure de

13. Au sens logico-mathématique.

(23)

définir une interprétation référentielle en intension (la divisibilité par deux) et en extension (la liste infinie de ces nombres).

La caractéristique principale de la signification selon l’approche référentielle est que celle-ci doit être en mesure de fournir des critères de décision basés sur des propriétés des « objets » (ou des concepts associés) représentés par des propositions prenant sans équivoque possible une valeur vraie ou fausse. De cette manière il est possible de se débarrasser de toute influence exercée par le contexte du terme (le « texte » environnant) comme de toute influence exercée par la situation d’énonciation et/ou d’interlocution. Ce niveau de signification ne nous semble possible que dans trois cas de figures :

– pour traiter de concepts définis par des caractéristiques tangibles pouvant se prêter à des mesures physiques fournissant des critères de décision univoques (masse, dimensions, quantité, caractérisation physico-chimique, localisation selon longitude et latitude, heure fournie par une horloge atomique, etc.) ¹⁴ ;

– pour traiter de concepts définis par des caractéristiques administratives et institutionnelles apparaissant comme indiscutable à une époque et dans une ère géographique donnée sous le contrôle d’une autorité administrative identifiée (patronyme, localisation administrative, prix, date de création, etc.) ;

– pour traiter de concepts abstraits définis par des axiomatiques formelles portées par des communautés scientifiques actives (comme dans l’exemple du nombre pair).

Dans tous les autres cas, il semble très difficile de prétendre être en mesure de fournir l’interprétation référentielle d’un concept sauf à vouloir se limiter à des usages prescrits, locaux et contrôlés par une autorité incontestée dans le contexte d’une tâche et d’une application informatique spécifique. Mais dans ces cas, la référence à la notion de concept semble un peu excessive ¹⁵. Précisons que le choix consistant à adopter un niveau de signification référentielle n’implique pas l’usage d’un langage formel au sens de la logique. Le bon fonctionnement de toutes les bases de données administratives ou techniques respectant des contraintes de cohérence doivent nécessairement faire le choix de cette signification pour le plus grand bien de leurs utilisateurs qui souhaitent que soit garantie la dénomination unique d’une pièce de rechange ou d’une chambre d’hôtel quelle que soient, par ailleurs, les évolutions plus subjectives dont elles pourraient faire l’objet. De la même manière, les

14. Il n’est pas sûr, par exemple, que toutes les classifications du vivant rentrent facilement dans cette catégorie.

15. Dans Zacklad (2005) nous opposons aux concepts référentiels, les concepts sémiotiques associés à la signification rhétorico-herméneutique.

(24)

termes d’un thésaurus de spécialité dans le domaine de l’ingénierie mécanique ou de la chimie doivent de préférence viser un niveau de signification et une cohérence référentielle pour faciliter des échanges non ambigus entre techniciens, ingénieurs, scientifiques manipulant des ingrédients complexes.

Dans des contextes où il s’avère nécessaire de rendre « interopérables » ces bases de données, le recours à des langages formels ontologiques et à leurs possibilités d’inférence peut apporter une plus-value indiscutable. Par ailleurs, le recours à la notion d’ontologie, qui traduit pour nous un effort de généralisation des concepts qui va au-delà d’un contexte applicatif à la fois restreint et changeant ¹⁶, trouve ici tout son intérêt pour permettre de s’émanciper en partie des bases de données propriétaires et de leurs éditeurs. La capacité à rassembler des groupes d’utilisateurs et de concepteurs pour qu’ils s’entendent sur la signification référentielle de certains termes et qu’ils puissent échanger des ressources informationnelles à travers leurs applications est le bénéfice majeur des projets ontologiques comme du web sémantique dans son acception originelle (essentiellement, selon nous, quand les ressources sont appréhendées sous un angle technologique et/ou administratif).

Un travail similaire de contrôle de la signification peut-être bien sûr fait à moindre coût si l’on adopte un niveau de signification rhétorico-herméneutique comme dans le web socio-sémantique, en étant conscient du fait que les modèles construits ne viseront pas une automatisation intégrale des traitements mais requerront une interprétation humaine complémentaire. En contrepartie, il sera possible de représenter de manière explicite les points de vue complémentaires et/ou divergents en présence et d’en confier pour partie la gestion aux communautés qui les promeuvent. Cette autre approche de la signification est basée sur une conception rhétorico-herméneutique dont nous avons explicité les spécificités dans des publications relatives au web socio- sémantique et à la méta-sémiotique Hypertopic (Zacklad, 2005 ; Zacklad et al., 2007 ; 2008). Dans Zacklad (2005), pour préciser le sens de ce terme, nous nous appuyons sur les travaux de Mounin (1968), qui propose une subdivision du signifié selon trois tendances relevant d’autant de théories : logiques, contextuelles, situationnelles (ou pragmatiques). Si l’on restreint la signification du terme de logique au domaine de la logique mathématique, on peut alors considérer que la première approche du signifié correspond à la signification référentielle.

Contexte et situation correspondent alors aux deux facettes herméneutiques et rhétoriques de la signification rhétorico-herméneutique. Le contexte correspond au texte ou aux éléments de contenu qui environnent l’expression.

Ces éléments contextuels, à commencer par le genre du document, connotent le

16. Bien que certains auteurs parlent d’ontologie de tâche.

(25)

sens de l’expression qui ne peut donc pas être appréhendé indépendamment de celui-ci. Cela a pour conséquence que la même expression, utilisée dans deux contextes différents, a également une signification en partie différente, mais cela signifie également que le contexte est une ressource qui permet d’expliciter, de désambiguïser, la signification de l’expression. La situation renvoie à la prise en compte de la situation d’énonciation et donc aux dimensions rhétoriques et argumentatives qui sont toujours présentes dans un SOC ne serait-ce qu’à travers la sélection d’un lexème parmi de nombreux quasi-synonymes disponibles. C’est en imposant une suspension délibérée de la perception des connotations rhétoriques, que la signification référentielle peut parvenir à fournir une illusion de neutralité.

Tableau 4. Théorie de la signification sous-jacente : relation entre le terme et les éléments de la situation et/ou du contenu

Sens basé sur une sémantique référentielle et possibilité d’accès selon cette sémantique

Sens rhétorico-herméneutique et accès selon les associations

« heuristiques » (contexte et situation sont souvent codéterminés)

Référence liée

à la situation Référence liée contenu

¾ Ontologies formelles

¾ Facettes au sens universel dans leur relation à la situation

¾ Index des moteurs de recherche dans leur relation au contenu

¾ Thésaurus avec une référence au concept

¾ Facettes au sens universel dans leur relation au contenu

¾ Carte conceptuelle

¾ Annuaire internet

¾ Classification universelle CDD

& CDU

¾ Ontologie sémiotique et facettes locales

¾ Folksonomie

¾ Thésaurus donnant la primauté à l’usage en situation et en contexte & thésaurus ad hoc ¹⁷

¾ Le terme de l’index de moteur de recherche dans sa relation à la situation (médiatisée par le document)

Les choses se compliquent si l’on différencie les cas selon que la signification référentielle vise une situation ou un contenu. C’est en particulier le cas pour les moteurs de recherche qui sont basés sur une signification référentielle stricte du point de vue du contenu puisque l’index est basé sur analyse de l’occurrence des termes indépendamment de leurs sens en contexte

17. Cf. Desfriches-Doria et Zacklad 2010a.

(26)

ou en situation (même si certains algorithmes avancés tentent de prendre en compte le contexte). Par contre, la relation entre le document sélectionné et les situations qu’il évoque n’est pas référentielle. Un document indexé par le terme

« transport », peut renvoyer aux « transports amoureux » ou aux « transports urbain ». S’agissant des « transports urbains » le document peut aussi bien en fournir une typologie, indiquer l’emplacement d’un réseau de bus, que dénoncer leurs nuisances dans certains environnements.

Les principes d’association et les paradigmes de recherche :

typée et référentielle (requêtes de données), heuristiques (navigation), statistiques (moteur de recherche)

Les principes d’associations fournissent une justification aux relations entre les termes des SOC que ceux-ci soient manuels ou automatiques et entre un terme et une ressource documentaire. Ce sont eux qui guident le fonctionnement des algorithmes qui permettent d’associer entre eux les termes du SOC et donc d’étendre la recherche d’information en prolongeant les requêtes portant sur certains lexèmes à d’autres termes associés. À chaque principe d’association correspond un paradigme d’accès à l’information, c’est-à- dire une vision qui conditionne de manière globale et cohérente les algorithmes de recherche, les interfaces homme-machine, les finalités et les usages, les visions développées par les communautés de recherche… Les principes d’association et les paradigmes correspondant sont au nombre de trois.

Association typées et référentielles : paradigme de la requête de données

Les associations typées et référentielles s’appuient sur la formalisation logico-mathématique et sur un niveau de signification référentiel strict. Ce sont bien sûr celles que l’on va trouver dans les ontologies et qui inspirent les projets de web de données. Ce sont aussi celles que l’on trouve dans les bases de données de gestion. L’utilisation de thésaurus dans une stricte logique référentielle relève aussi de ce type d’associations. À ces associations correspond le paradigme de la « requête de données », au sens où les requêtes sont construites à l’aide de combinaisons complexes de couples attribut-valeur qui permettent d’explorer des données objectives, relatives à une situation particulière grâce à la signification référentielle extensionnelle des termes employés dans la requête. Ce paradigme repose sur une vision du monde ou celui-ci est décrit par des attributs standardisés faisant l’objet de conventions administratives, de mesures objectives ou permettant de gérer des inventaires d’objets numérisés ou non.