• Aucun résultat trouvé

Modalités d’organisation et de description des contenus documentaires

La structure organisationnelle de l’information trouve un ancrage historique dans les méthodes successives employées par les dispositifs d’arrangement de ressources, qu’il s’agisse d’encyclopé- dies ou de bibliothèques notamment. Il s’agit avant tout d’organiser ces ressources elles-mêmes,

autrement dit des objets physiques : l’Encyclopédie, publiée en France entre 1751 et 1778, pré- sente un état des connaissances sous forme d’articles classés selon l’alphabet, vu comme un ordre conforme à la raison ; le système de classification documentaire de Dewey19, destiné aux

bibliothèques, repose sur le système décimal et divise les connaissances en 10 grandes catégories, elles-mêmes sous-divisées par multiples de 10 sur deux niveaux supplémentaires (cf. figure 1.5). Dans ces deux exemples, la rationalité se pose comme pré-requis pour le bien-fondé du mode organisationnel adopté ; dans le second, c’est le principe de catégorisation qui préside à l’organi- sation.

Figure 1.5 : Extrait de la table de classification décimale de Dewey.

Remontant à l’approche classique d’Aristote, la catégorisation se présente comme le procédé prototypique d’organisation, où la catégorie se définit par un ensemble de caractéristiques com- munes à tous ses membres. Augmentée d’une dimension hiérarchique, la catégorisation définit des classes et sous-classes, dont la précision du sens et la portée dépendent de leur degré de spécificité. Comme dans le système de Dewey, une catégorisation consiste en l’énonciation d’un ensemble de classes censées représenter un domaine donné — ici, tous les domaines considérés comme possibles par Dewey. Cette énonciation est indissociable d’un choix de représentation et fige la catégorisation selon cette restriction. Une catégorisation, ainsi que son composant hiérar- chique, est de fait limitée dans son rôle organisateur puisqu’elle constitue le reflet d’une certaine vision, que celle-ci dépende d’une époque, d’une opinion ou d’un statut social particulier et ne peut prétendre à l’exhaustivité, de nouveaux domaines et objets de connaissances émergeant continuellement. Ainsi, Dewey place la philosophie comme catégorie première de son système, suivie par la religion, dans laquelle la Bible et le christianisme occupent sept des dix sous- catégories prévues. La catégorie 376, dédiée au thème de l’éducation des femmes, existe encore de

19. Reproduit en intégralité à l’adresse http://www.gutenberg.org/files/12513/12513-h/12513-h.htm dans le cadre du projet Gutenberg

2. Documents et métadonnées : formalisation pour le traitement de l’information 41 nos jours. Lors de l’apparition de l’informatique, les sujets associés ont été placés par les main- teneurs du système dans la catégorie 000, dévolue aux « généralités », la catégorie « Technologies et sciences appliquées » ne présentant plus d’entrée décimale disponible. Dans le 23e édition du système de Dewey datant de 2003, le thème informatique accède au statut de catégorie plénière avec le renommage de la catégorie 000 en « Informatique, information et généralités ».

Un tel mode de catégorisation hiérarchisée est non seulement limité quant à la description de la réalité qu’il propose, mais également en tant que reflet de l’état du patrimoine considéré : les livres, en tant objets physiques, ne peuvent par nature être disposés à plus d’un endroit, ce qui empêche une catégorisation multiple d’ouvrages dont le sujet peut être caractérisé par plusieurs classes du système. Cette limitation correspond à ce que l’on peut appeler un « premier ordre » de l’organisation de l’information, ou celle-ci est contrainte par les objets eux-mêmes et fondée sur une vue unique des connaissances.

Bien que le système de Dewey continue d’être utilisé dans de nombreuses bibliothèques du monde entier, et que le principe de catégorisation demeure un mode fondamental d’organisation de l’information, un « second ordre » existe qui s’attache à la distinction entre les objets contenant les connaissances et les éléments informatifs eux-mêmes. Le système documentaire des biblio- thèques présente là aussi une instanciation prototypique de ce second ordre, en tant que l’accès aux ressources qu’il permet repose en grande partie sur le principe de l’indexation. Par le relevé, pour chaque ouvrage, d’une liste d’indications descriptives et en les associant avec une méthode d’identification, le fonds d’ouvrage se trouve doublé d’un catalogue permettant de retrouver, à partir des descripteurs disponibles, les ouvrages pertinents. En termes plus généraux, les éléments d’un tel catalogue constituent des métadonnées, c’est-à-dire des unités d’information distinctes du contenu, chargées d’un sens particulier le rattachant à ce contenu.

Les métadonnées usuelles concernant les ouvrages conservés en bibliothèque sont les titres, noms d’auteurs, année d’édition et autres informations relatives à la publication, ainsi que les sujets auxquels un ouvrage donné se rattache, choisis par exemple parmi les classes d’une ca- tégorisation similaire à celle de Dewey. Plus généralement, les documents constituant l’unité informative générique dans les systèmes d’information sont dotés de telles métadonnées et sont ainsi rattachées à la catégorisation dont relève le système correspondant. Cette dernière peut être plus ou moins générale ou spécialisée, organisée en catégories de diverses granularités, selon une hiérarchisation profonde ou non.

Ce processus d’indexation rend possible un accès aux connaissances par plusieurs points d’entrée, mais ne permet cependant pas de s’affranchir de l’arrangement physique des objets considérés. De plus, dans sa forme historique, il maintient une distinction entre le rôle d’organi- sateur et de pourvoyeur de la connaissance, notamment celui du bibliothécaire, et celui du public souhaitant y accéder. Dans ces deux ordres d’organisation, le principe d’une autorité chargée de la définition, du maintien et de la diffusion de l’information préside à un mode bi-directionnel d’accès aux connaissances, où la recherche d’information est limitée à l’espace et à l’organisation définis par cette autorité.

2.1.2 Organisation en réseau et contenus numériques

Plusieurs propositions alternatives pour l’organisation de l’information sous sa forme documentaire émaillent le vingtième siècle, comme le rappellent Wood ou Weinberger [Woo10 ; Wei07], autour de la remise en question de la catégorisation comme principe d’organisation.

Le « Répertoire bibliographique universel » (RBU) [Otl34] de Paul Otlet, entamé à la fin du XIXe siècle, se présente en 1934 sous la forme d’un catalogue constitué de 15 millions de fiches d’indexation, dans le but de répertorier tous les ouvrages publiés dans le monde. Le RBU repose sur la « classification décimale universelle », qui comprend des catégories mais également des notations algébriques permettant de faire référence à des intersections de sujets et donc de

représenter un réseau de concepts. Cette catégorisation multiple traversant les ressources permet à Otlet de répondre par courrier à des requêtes pour lesquelles il fournit les fiches d’indexation pertinentes, à la manière d’un réseau documentaire préfigurant le Web et les moteurs de recherche associés. Otlet imagine d’ailleurs dans l’avenir un « télescope électrique, permettant de lire de chez

soi des livres exposés dans la salle teleg des grandes bibliothèques, aux pages demandées d’avance. Ce sera le livre téléphoté. » [Otl34].

Le documentaliste Jesse Shera, dans une réflexion sur l’introduction de la technologie in- formatique dans la gestion des bibliothèques, propose en 1965 [She65] une catégorisation non hiérarchique et indépendante des ouvrages physiques qui, selon lui, ne mettent pas au jour les re- lations existant entre leurs contenus ; ceux-ci sont constitués d’« unités de pensée », vers lesquelles l’organisation et la recherche de l’information doit être redirigée et ainsi dédiée à la conservation de l’intégrité intellectuelle présentée par ces contenus plutôt que des livres eux-mêmes.

En 1945, Vannevar Bush [Bus45] décrit le système théorique du « Memex », répondant ainsi au besoin d’une nouvelle organisation de l’information pour l’accès et la recherche, considéré comme nécessaire devant l’augmentation de la production documentaire, à laquelle Bush considère qu’il devient impossible de faire face avec les moyens alors à disposition. Ce système, invoquant les notions de « mémoire » et d’« index », aurait consisté en une bibliothèque miniaturisée munie d’un accès intelligent et à la disposition de tout un chacun. Les « pistes associatives » en constituent le fondement : à la manière d’annotations produites par l’utilisateur, ces pistes viendraient associer les contenus reliés et permettre d’y accéder ultérieurement. Il influence notamment Ted Nelson qui propose en 1965 [Nel65] le terme « hypertexte » dans le cadre de son modèle de création et d’utilisation de contenus interreliés, finalement concrétisé par les travaux de Tim Berners-Lee et l’avènement du Web.

Le tournant numérique touchant les ressources documentaires et le développement d’Internet comme support d’expansion du Web fait passer l’information de lieux de dépôts uniques, structu- rés selon un ordre centralisé et figé, à un espace de publication dont l’architecture est distribuée, tant au niveau de la production des contenus que de leur mise à disposition, construite en un réseau fondé sur le principe des liens hypertexte. Il s’agit là d’un changement de paradigme ma- jeur, où les contraintes organisationnelles liées aux objets physiques laissent place à la possibilité de l’ubiquité. Le principe de catégorisation, loin de disparaître, s’inscrit dans cette structure en réseau en voyant sa forme fondamentale renouvelée : à partir d’une représentation sous forme d’arbre, la catégorisation spécifie par les nœuds et arcs les sujets et relations de subsomption existant entre sujets, les feuilles de l’arbre correspondant aux ressources du domaine représenté. Dans ce qui peut être qualifié de troisième ordre d’organisation, les feuilles peuvent être rattachées à autant de nœuds qu’il se trouve de sujet dans la catégorisation pour les caractériser. Les moyens informatiques permettent à ce processus de rattachement, c’est-à-dire de catégorisation multiple et indépendant d’une vue figée, d’avoir lieu lors de l’accès aux ressources, selon des critères défi- nis par l’utilisateur, en fonction de besoins particuliers et éventuellement ponctuels, plutôt qu’au moment de la conception de l’ensemble documentaire considéré.

Ce nouvel ordre d’organisation de l’information est largement adopté par de nombreux secteurs d’activités présents sur le Web. L’entreprise Amazon20, dont le site Web est majoritairement

consacré au commerce en ligne de livres, présente une classification des ouvrages selon des schémas variables, dépendants à la fois de catégories assignées statiquement aux ouvrages mais multiples, de revues fournies par les utilisateurs ainsi que des historiques de recherche et d’achat liés aux ouvrages consultés. L’encyclopédie en ligne Wikipedia traite de tout sujet abordé par un de ses collaborateurs dans des articles dont l’organisation sous-jacente est très faiblement spécifiée : les catégories assignées aux articles sont assimilées à des étiquettes plutôt qu’aux nœuds d’une classification hiérarchisée et sont rassemblées dans une liste indexée peu utilisée dans les

2. Documents et métadonnées : formalisation pour le traitement de l’information 43 modalités d’accès aux contenus de Wikipedia. Ces modalités sont davantage conditionnées par l’enrichissement des articles en liens hypertexte renvoyant à d’autres articles de l’encyclopédie ou à des ressources externes, favorisant ainsi une exploration des ressources fondée sur des relations pertinentes et modulables, intégrant également une dimension de sérendipité pouvant bénéficier à ce processus d’exploration.

Bien que le principe de catégorisation continue de jouer un rôle déterminant dans l’organi- sation de l’information sur le Web, elle tend à se réaliser selon un axe allant des ressources vers la structuration, au gré de besoins variables au fil du temps et selon les individus, communau- tés et domaines. Le processus principal de caractérisation des données permettant d’obtenir les catégorisations en question est celui de l’étiquetage des ressources, à tout niveau — fragment textuel, page ou document, par lequel les catégories pertinentes peuvent être spécifiées explicite- ment ou inférées à partir d’ensembles relevant d’étiquettes similaires ou liées. Le paradigme du Web 2.0 exploite principalement ce processus en laissant les utilisateurs en charge de sa mise en œuvre. Les étiquettes ainsi créées, de même que les catégories qui en dérivent, constituent des folksonomies où la notion de taxonomie attachée aux catégorisations dérive de ce processus participatif et individualisé. L’effacement du principe d’une autorité à l’origine de l’organisation de l’information et contrôlant les modalités d’accès aux connaissances est particulièrement prégnant dans ce modèle.

Dans le troisième ordre d’organisation de l’information permis par la numérisation documen- taires et le développement du Web, l’ensemble des objets pouvant constituer des descripteurs définis pour l’accès à une ressource s’élargit à tout élément lui appartenant, dépassant le cadre des métadonnées classiques : il peut s’agir d’un nom d’auteur ou d’un titre d’ouvrage, mais éga- lement de tout ou partie de son contenu textuel — une œuvre peut être retrouvée à partir de la citation d’un passage ou du nom de personnages qui y sont évoqués, grâce à l’indexation « plein- texte » sur laquelle repose le Web dans sa forme la plus usuelle. C’est en effet le paradigme de la

Recherche d’Information (RI) qui, parallèlement à l’ubiquité caractérisant les ressources documen-

taires numériques en matière de classification, définit pour une large part les modalités d’usage et de développement du Web. La RI dans sa forme moderne et informatisée procède ainsi à l’indexation des ressources documentaires, en particulier textuelles, par la sélection de l’ensemble des mots ou termes de ces ressources — moyennant des processus de filtrage et de transforma- tion — pour jouer le rôle de descripteurs exploitables par le modèle de RI en question. Il s’agit là aussi d’une émancipation au regard de la maîtrise du processus de description, réservé dans la RI manuelle à l’expertise du bibliothécaire : chargé de la production des descripteurs pertinents pour chaque ouvrage et relativement à l’ensemble du fonds, il est également l’intermédiaire obligé pour l’interrogation des ressources selon le schéma de description ainsi produit. Le principe de pertinence des descripteurs en RI contemporaine repose en revanche sur la notion de mots-clés, identifiés empiriquement parmi l’ensemble des termes d’indexation.

2.2 Vers des métadonnées sémantiques

L’enjeu pour le Web Sémantique en tant que cadre renouvelé de publication documentaire consiste notamment à dépasser le paradigme « plein-texte » de la RI telle qu’elle régit en grande partie les usages du Web actuel. Bien qu’indispensable au fonctionnement du Web et profondément ancrée dans les pratiques de la majorité des utilisateurs, la RI classique présente en effet un certain nombre de limitations freinant encore un accès aux ressources sophistiqué et directement exploi- table par des services automatisés. L’indexation et la recherche par mots-clés ne caractérisent en effet les contenus qu’à un niveau lexical peu profond, en s’appuyant sur leur présence ou leur absence. Cette méthode, bien que prenant en compte des mesures de pertinence sophistiquées et ayant prouvé son efficacité pour l’accès à des ressources qui ne sauraient, à l’échelle du Web, être manipulées manuellement, exclut en revanche une approche sémantique de l’information. Le ni-

veau lexical considéré est en effet isolé des structures plus profondes à l’œuvre dans les contenues textuels : un mot-clé ne représente que lui-même, sa relation au reste du document comme à la requête est ignorée ainsi que le sont tous les phénomènes d’ambiguïté intervenant dans l’usage du langage naturel. La polysémie caractérisant un mot-clé pourra provoquer un résultat de recherche bruité voire non pertinent, tandis qu’une relation lexicale telle que la synonymie, non modélisée par les systèmes de RI classiques, empêchera la sélection de toutes les ressources pertinentes. Plus généralement, ce niveau lexical freine toute conceptualisation dans les processus d’indexation et de recherche et contraint à une manipulation de l’information dépourvue de sémantique.

L’étiquetage collaboratif évoqué précédemment, notamment développé sur les plateformes du Web 2.0, permet une distinction de nature entre contenus et mots-clés, les étiquettes étant choisies en regard du contenu et non extraites de celui-ci. La sémantique des catégorisations ainsi obtenues est néanmoins très faiblement définie : aucun schéma conceptuel précis et partagé n’étant prévu pour ces étiquettes, celles-ci relèvent, comme les contenus, du langage naturel, et les problèmes d’ambiguïté s’y appliquent donc de la même façon ; cette absence de schéma exclut également l’exploitation de l’étiquetage à des fins d’automatisation, du moins en ce qui concerne la définition d’une sémantique pour l’interprétation. Si cette faible conceptualisation n’empêche pas une utilisation satisfaisante des applications dérivées, elle ne s’inscrit pas dans les propositions de formalisation et de manipulation des contenus du Web Sémantique.

La refondation du modèle de représentation des connaissances proposée par le Web Séman- tique peut être interprétée comme une RI sémantique, où les descripteurs sur lesquels reposent l’indexation et le processus de requêtes sont munis de sens et non uniquement considérés sous leur forme surfacique. Si les mots-clés en RI classique peuvent être vus comme des métadonnées, dans la mesure où ils constituent effectivement un mode de description des contenus, il s’agit dans le Web Sémantique d’user du principe des métadonnées afin d’ancrer les contenus dans une sémantique définie par les conceptualisations spécifiées pour un domaine donné. La RI reposant sur des métadonnées sémantiques franchit ainsi le seuil de la description surfacique pour intégrer ces conceptualisations : une requête visant à obtenir des informations sur les États membres de

l’Union européenne ou des acteurs français se limite, en RI classique, aux documents mention-

nant les mots de la requête eux-mêmes ; les documents mentionnant l’Allemagne ou la Grèce, Isabelle Huppert ou Lambert Wilson, mais pas les termes de la requête, seront alors ignorés dans les résultats de recherche. Avec une Annotation Sémantique des documents et une indexation sur les métadonnées ainsi produites, elles-mêmes associées à une ontologie dans lesquelles les individus référencés (Allemagne ou Isabelle Huppert) sont spécifiés comme membres de classes conceptuelles correspondant à des termes utilisables dans des requêtes, la RI peut alors accéder à un ensemble de documents plus pertinents. La RI sémantique donne lieu depuis quelques années à des travaux de recherche et de développement proposant différentes modalités de mise en œuvre ; celle-ci est notamment déterminée par le niveau d’intégration de la conceptualisation dans l’application, selon que les requêtes elles-mêmes ou seuls les résultats retournés sont de nature sémantique. Mangold [Man07] établit une classification de plusieurs de ces travaux autour de critères définis pour la caractérisation de la RI sémantique (semantic search en anglais).

Dans le paradigme de la RI sémantique et plus généralement de la caractérisation séman- tiques des contenus, ceux-ci fournissent eux-mêmes les descripteurs nécessaires, comme c’est le cas avec les mots-clés, mais les métadonnées ainsi produites sont porteuses d’information dépas- sant la simple identification des mots ou termes sélectionnés : elles en spécifient la sémantique par association avec le schéma conceptuel correspondant. Les contenus ne sont donc pas étique- tés au niveau documentaire mais enrichis au niveau textuel lui-même par des annotations. Une dimension collaborative peut donc venir caractériser ce processus, puisque tout rédacteur puis lecteur et utilisateur peut augmenter cette couche d’annotation, usant de tout schéma considéré comme pertinent. Cette flexibilité associée à un ancrage dans des conceptualisations définies

2. Documents et métadonnées : formalisation pour le traitement de l’information 45 et identifiées renvoie aux notions de partage et d’intégration aux fondements du Web Séman- tique. Elle contribue également à effacer la distinction entre tenants de l’autorité concernant la structuration de l’information et utilisateurs confinés à la consultation.

La gestion documentaire envisagée par le Web Sémantique repose donc sur l’addition de métadonnées aux contenus, celles-ci étant dérivées d’annotations dont la production est intégrée au processus rédactionnel. La couche sémantique ainsi adjointe aux documents doit permettre à la fois une exploration plus riche et sophistiquée pour les utilisateurs humains et un mode d’identification et d’extraction à destination d’agents automatiques. En termes de RI, le Web