• Aucun résultat trouvé

2.1.4-Le projet du Web sémantique : Standardisation de la W3C

Une quatrième politique, ayant comme ambition une structuration des données à l'échelle du Web dans son ensemble est l'approche représentée par le courant du Web sémantique. Cette politique, antérieure à l'apparition du Web 2.0 mais ayant connu un déploiement limité, consiste en la mise en place et la diffusion de standards permettant la production d'un système hiérarchisé d’ontologies. Le concept du Web sémantique a été développé par le W3C79 et trouve ses origines chez T. Berners-Lee qui évoquait, dès la création du consortium W3C en 1994, l'importance pour optimiser la recherche dans l'espace documentaire du Web de mieux structurer et identifier les ressources disponibles, aussi bien en ce qui concerne leur forme que leur contenu, pour permettre une accessibilité optimisée aux ressources par les humains et les machines. L'idée du Web Sémantique est donc de rendre plus efficace l'accessibilité aux données aussi bien pour l'homme que pour les machines et de ce fait, d'aboutir pour l'utilisateur à un allégement de la tâche de recherche.

Sur le plan technique, le projet du Web sémantique a comme objectif de normaliser les modes d’indexation des informations en proposant des cadres communs qui permettent de décrire le contenu et la structure des documents disponibles en ligne. Cette normalisation implique la production de standards acceptés et utilisés par tous les développeurs et donc l’adhésion au projet du Web sémantique tel qu’il est proposé par le W3C, afin de faciliter l'interopérabilité des différentes ressources disponibles sur le Web.

Ces standards sont adoptés à l'issu d'un processus de validation relativement contraignant, mis en place au sein de la W3C qui fait figure d'autorité. Les standards, avant d'être adoptés, sont produits par différents groupes de travail qui soumettent des « working draft », documents encore en construction, qui peuvent être modifiés durant un délai maximum de trois mois avant d'être formalisés sous forme de documents finaux et doivent proposer au moins deux

prototypes concrètement réalisables. Ces versions finales de recommandations sont ensuite validées par un groupe d'experts qui s'assurent de la compatibilité des standards avec les couches existantes. Seulement à la suite de ces différentes étapes, une recommandation peut être validée en tant que standard de la W3C. A l'inverse des politiques de structuration des données observables sur le Web 2.0 développées de manière autonome, principalement par des micros sociétés avant l'arrivée des grands acteurs qui ont procédé à leur rachat, il s'agit dans le cas du Web sémantique d'une organisation structurée autour de règles bien établies qui a comme ambition une structuration de l'ensemble des données constituant le Web.

On représente l'ensemble de ces standards et de ceux qui sont encore en cours de construction à travers un schéma nommé le « cake sémantique » (The Semantic Web layer cake : figure 6). Il est utilisé comme un guide d'action au développement devant faire aboutir le projet du Web sémantique.

Figure 6 : « Cake sémantique » qui présente les différentes couches techniques sur lesquelles repose le projet

A travers la lecture des couches du « cake sémantique » il est possible d'observer le modèle de structuration proposé par le Web sémantique et les choix politiques sur lesquels il se fonde. Pourtant toutes les couches ne sont pas encore abouties, seules les quatre premières font l'objet de standards adoptés et validés par le W3C, bien que certaines technologies intégrées au « cake sémantique » connaissent des évolutions impulsées par des équipes du W3C. Les différentes couches sont interdépendantes et c'est l'ensemble de ces standards associés qui est susceptible de permettre une meilleure structuration des ressources Web telle qu'elle est envisagée par le W3C. Si l'on veut faire une description sommaire pour expliciter les quatre

couches les plus basses du Web sémantique on peut dire que (Charlet, Laublet, Reynaud, 200480) :

-La première couche se fonde sur les URI (Uniform Ressource Identifier) qui sont un standard d'identification des ressources Web, ainsi que l'Unicode qui est une norme internationale de codage des textes.

-La seconde couche est constitué principalement du langage XML (Exetnsible Markup Language). Ce langage permet notamment un balisage du code plus abouti que celui que propose le langage HTML (Hypertext Markup Language) car il permet d'en isoler toutes les informations élémentaires. Les schémas XML permettent de décrire la structure d'un document.

-La troisième couche est constituée sur le langage RDF (Ressource, Description, Framework), lequel est un standard de description des relations entre des ressources basé sur des triplets, dont l'ensemble produit un graphe orienté et étiqueté. Les triplets sont constitués par le « sujet » (la ressource que l'on cherche à décrire, par exemple un site, une page Web, ou une partie d'un document), un « prédicat » (qui décrit la relation au sujet) et un « objet » (qui qualifie la relation).

-La quatrième couche est constituée par les ontologies qui s'expriment à partir du langage OWL (Ontology Web Language). Elles sont une version plus complète et optimisée des métadonnées qui peuvent être effectuées à partir de RDF. A partir de constructeurs, ce langage permet de définir des classes et des types de propriétés entre les objets de façon plus complexe. Il permet par exemple de déterminer si un objet est un sous ensemble d'une classe, s'il est à l'intersection de deux classes, ou encore s'il est semblable, différent ou inverse d'un autre objet. Ce langage permet donc de spécifier plus en détail les relations entre les ressources que le projet de Web sémantique tente de structurer.

Les deux dernières couches que nous avons définies, RDF et les ontologies, nous intéressent plus particulièrement dans le cadre de notre recherche car elles représentent le mode de catégorisation des ressources Web tel qu'il est proposé dans le projet du Web sémantique. A la

80 CHARLET J., LAUBLET P., REYNAUD C., « Le Web sémantique », Revue I3 : Information - Interaction – Intelligence, Cépaduès, hors série, 2004,190p.

différence des folksonomies qui sont produites par les internautes, le Web sémantique, dans sa version classique, repose sur l'application par les développeurs de sites des standards préconisés par le W3C.

Le modèle de production des métadonnées est émis par une autorité et déployé de façon descendante aux développeurs chargés d'appliquer les standards afin d'optimiser la communication entre les différents sites et les bases de données en ligne qui ont adoptés ces standards. Le choix de la politique du Web sémantique est donc fondé sur l'idée qu'il existerait une manière unifiée de décrire et de classer les ressources Web et que chaque ressource pourrait intégrer une classification structurée et standardisée, constituée à partir d'un ensemble d'ontologies bien délimitées.

Contrairement au modèle des folksonomies qui autorise des classifications des ressources Web pleines d’ambiguïtés, en tension permanente sur la manière de définir les éléments du monde, le Web sémantique défend l'idée que chaque éléments qui composent le Web peuvent être classés, sans équivoque, au sein d'une structure logique, stable et partagée par tous. La structure du « cake sémantique » montre bien la logique qui est à l'oeuvre dans ce courant de structuration des données en ligne.

La première couche consiste à définir de manière fixe les entités qui vont entrer dans la classification. Les couches XML, RDF, OWL ont comme objectif de fournir les outils pour créer l'architecture de la classification, à partir de concepts ontologiques, et de les associer entre elles par des liens relationnels logiques (évacuant toute forme d'ambiguité). Enfin, les deux dernières couches montrent que l'objectif est d'aboutir à un système dans lequel la définition des ontologies est suffisamment éprouvée et garantie par des autorités pour la confiance. Le paradigme de recherche valorisé dans le cas du Web sémantique est plus proche de celui du Web classique que de celui du Web 2.0. Le projet du Web sémantique conçoit le Web comme une base de données documentaires (« Web of data ») face à laquelle l'utilisateur, dans une logique utilitariste, cherche à trouver une information précise. Si la recherche précise et rationnelle d'information pourrait être facilitée à partir d'une meilleure structuration des ressources (comme cela fonctionne à partir de taxinomies dans des espaces de connaissance restreints aux frontières bien délimitées), le succès du Web 2.0, du point de vue des usages et des modes d'orientation plus souples qu'il offre, montre que toute l'activité sur le Web ne correspond pas nécessairement au paradigme de recherche utilitariste défendu dans le projet du Web sémantique.

Le projet du Web sémantique a connu un certain nombre de difficultés dans son développement qui ont révélé en partie ses faiblesses. Sur un plan technique, bien que le projet se soit développé au fil du temps et que les standards aient progressé dans leur réalisation technique et leur diffusion, les outils, tels que les moteurs de recherche ou les sites de E-commerce basés sur cette technologie, sont encore assez peu répandus sur le Web et se cantonnent le plus souvent à des espaces du Web bien délimités.

Cette incapacité du Web sémantique à se déployer à grande échelle est largement liée aux limites (Pédauque, 200381, 200582) du modèle de structuration que propose le Web sémantique dans sa version classique. En voulant tenter de structurer le Web en décrivant à partir d'ontologies formelles les ressources pour que celles-ci soient interprétables par des machines, on limite les possibilités d'interprétation à celles encapsulées au préalable dans l'ontologie. Si une ontologie, en tant que conceptualisation d'une connaissance, peut être partagée dans un collectif ayant des connaissances et un vocabulaire de description communs, et si l'on se place dans un cadre multiculturel qui est celui du Web, il est difficile, voir impossible, d'établir des ontologies qui soient partagée par tous. On peut citer comme exemple, les évolutions des taxinomies scientifiques (en tant que formes d'ontologies) qui évoluent avec le temps et font l'objet de débat à l'intérieur d'une même communauté scientifique (voir chapitre 3). Les formes de catégorisation du monde sont en perpétuelle tension. Les catégories que nous produisons sont intrinsèquement liées à des visions du monde, des objectifs visés et à des contextes temporels et culturels.

Les ontologies formelles apparaissent comme des outils pertinents dans des communautés bien délimitées car elles permettent de produire des conventions qui vont orienter les actions de ceux qui adhèrent au système de représentation duquel elles sont issues. Par leur formalisme et le caractère réducteur qu'elles produisent d'une connaissance plus large, elles sont un bon moyen de coordonner des actions au sein d'un collectif donné, partageant des connaissances et ayant des intérêts communs. A l'inverse, dans un univers ouvert comme le Web, leur application systématique pose le problème d'un possible écrasement d'autres formes de pensées par un système de pensée dominant faisant autorité. Le principe selon lequel il existerait une forme de structure universelle de la pensée que l'on pourrait conceptualiser, à partir d'ontologies formelles, est l'un des postulats sur lequel repose le projet du Web sémantique dans sa version classique.

81 PEDAUQUE R. T., « Document : forme, signe et médium, les re-formulations du numérique », RTP-DOC, 2003

Le problème de la langue est aussi une des limites posée par le Web sémantique, dans sa tentative de structuration nécessitant une uniformisation de la pensée et du langage. On trouve un exemple similaire de l’échec d'une tentative de mobilisation d'un cadre de connaissance universel servant de socle commun, dans les outils de traduction automatique des langues. Les approches probabilistes de traduction automatisée, même si elles présentent certaines limites et imperfections, semblent tout aussi efficaces et davantage opérationnelles que des approches valorisant un cadre universel de structure du langage (Chomsky, 197983) lequel servirait d'étalon commun à partir duquel on pourrait redescendre vers d'autres variantes pour effectuer une traduction de texte d'une langue à une autre.

Les échecs des développements du Web sémantique, de l’Intelligence Artificielle tout comme ceux de la traduction automatique sont dus à l'incapacité des machines à imiter les processus humains complexes de catégorisation et d’interprétation des catégories en contexte (Rastier, 200184 ; Floridi 200985). Le projet du Web sémantique fait donc face à de nombreuses difficultés qui tendent à limiter son développement et ses ambitions. Le volume de données et la diversité des ressources du Web représentent une première barrière à une indexation complète et uniformisée permettant leur traitement. La fiabilité des données (erreurs, non uniformisation, diversité des sources) et la dynamique d'expansion font du Web un univers informationnel mal adapté à une logique de description à partir d'ontologies formelles. Pourtant les défenseurs du Web sémantique tentent de convaincre qu'il pourrait constituer un socle de description partagé par tous, au delà de la multiplicité de langues, de représentations du monde et des schèmes d'action infinis qui mobilisent le Web comme source d'information. Selon les termes de F. Chateauraynaud (200586), « la logique de déplacement continu des

usages du Web laisse perplexe sur la possibilité d'une organisation sémantique formelle fondée sur des classifications de classes et de niveaux d'informations voués à changer de sens selon les contextes et la nature des situations de communication visées par les internantes »

(Chateauraynaud, 2005, p4).

83 CHOMSKY N., Structures syntaxiques, Seuil, 1979 (première édition 1957), 150p. 84 RASTIER F., Sémantique et recherches cognitives, PUF, 2001, 272p.

85 FLORIDI L., « The Semantic Web vs. Web 2.0 : a Philosophical Assessment », Episteme, 2009, n°6, p.25-37. Disponible sur : http://www.philosophyofinformation.net/publications/pdf/w2vsw.pdf

86 CHATEAURAYNAUD F., « Moteur de (la) recherche et pragmatique de l'enquête : Les sciences sociales face au web connexionniste », Colloque Classification et Histoire. De Gabriel Naudé à Rameau. L'historien face à l'ordre informatique, Nanterre, 5 octobre 2005. Disponible sur :

Etant donné les difficultés d’ordre technique (multiplicité des langages informatiques, difficulté de passage à l’échelle macro) et le risque potentiel de formatage ou d’uniformisation de la pensée et du langage dans le Web sémantique, on peut se demander si, en se basant sur les utilisateurs et en respectant une plus large diversité des langues et des représentations du monde, les systèmes de tagging collaboratif seraient en mesure d’échapper à certaines de ces difficultés et s’ils seraient susceptibles de proposer un mode pertinent de catégorisation et de recherche d’informations sur le Web. Comme nous le verrons dans la seconde partie de ce chapitre, face aux échecs et aux critiques qu'a connu le Web sémantique, d'autres modèles de contribution à la structuration des ressources semblent aujourd'hui envisageables. Ils tentent de donner une place plus importante aux internautes pour catégoriser et structurer les données qu'ils traitent ou mettent en ligne, en proposant des services et des outils permettant d'intégrer aux standards du Web sémantique des pratiques d'indexation plus locales, telles que les pratiques de tagging ou d'autres formes de métadonnées produites de manière individuelle par les internautes. Cependant, cette ouverture du projet de Web sémantique atténue largement les ambitions de structuration globale du Web dans son ensemble et remet en cause la capacité d'un tel projet à produire, à partir d'ontologies formelles, un système de catégorisation adopté et partagé par le plus grand nombre (Floridi, 2009). Autrement dit, les choix d'ouverture et de remise en question à l'oeuvre dans certains courants de développement du Web sémantique aujourd'hui, contraignent en partie à un resserrement de l'ambition initiale du projet en proposant une structuration de sous-ensembles réduits du Web (non plus du Web dans son intégralité) à partir de formes de catégorisation plus locales ne prétendant plus à une forme intenable d'universalité.

A travers cette présentation des différentes tentatives de structuration du Web, on observe que la question d'un modèle de catégorisation est un choix politique qui nécessite l’établissement d'une définition et d'une représentation d'un monde commun. Dans son article sur les politiques pluralistes des architectures internet, D. Boullier nous explique que « dès lors que

l’espace s’ouvre pour des choix techniques non prédéterminés, la politique peut enfin reprendre ses droits, c'est-à-dire le débat, pour composer le monde commun qui convient. »

(Boullier, 2008). Il étudie les politiques selon deux dimensions que sont leur capacité à s'inscrire dans un cadre acceptant des formes d'incertitude et la manière dont elles procèdent à une volonté de détachement caractéristique du modernisme. En projetant les différentes politiques d'architecture du Web sur ces axes on obtient une boussole cosmopolitique qui permet de déterminer les positions de chacun (figure 7).

Le Web sémantique tend à limiter l'incertitude en s'appuyant sur des autorités, « toute

information produite sur le Web et donc tout site, doit renvoyer à une référence et une seule, elle-même renseignée par son auteur et conforme à une classification standardisée » (Boullier

2008). Les annuaires Web, bien qu'ayant une ambition moindre que celle du Web sémantique, en tant que classification produites par des professionnels, se situent également au même emplacement de la boussole.

Figure 7 : Boussole des politiques d'architecture du Web

Le Web des moteurs de recherche se positionne également du côté de la certitude mais celle-ci n'est plus garantie par de grandes autorités comme dans le cas du Web sémantique, mais par les algorithmes qui structurent le Web à partir d'un traitement automatisé du Web et se basent sur un principe d'autorité, calculé à partir de la structure hypertexte du Web et de la notoriété des sites. Les moteurs de recherche présentent « l’avantage de garder prise sur le Web non

référencé, non cloturé, tout en produisant une cloture de fait, mais jamais reconnue, puisqu’elle est naturalisée comme un outil transparent traitant toute l’information disponible. En effet, la prétention au détachement vis-à-vis des autorités et des communautés de référence qui porte le modèle marchand moderne d’orientation dans les contenus ne fonctionne qu’en produisant de nouvelles certitudes, de nouvelles garanties, celles des fournisseurs de contenus qui y deviennent autorités de substitution. » (Boullier, 2008).

Le Web 2.0 et les folksonomies s'inscrivent du côté de l'incertitude et de l'attachement au monde et aux personnes, car la structuration du Web 2.0 repose sur une agrégation automatisée des catégories produites de manière isolée par les utilisateurs, ou au sein de communautés d'intérêts et sans aucune forme de contrôle légitime garantie par une autorité. En ce sens, le Web 2.0 accepte davantage l'incertitude mais offre en retour des repères familiers aux utilisateurs qu'ils ont eux-mêmes produit de manière localisée.

Du côté de l'incertitude et des formes de détachement par rapport au monde, on trouve le Web dit « sans repères », la navigation « opportuniste » qui ne s'appuie sur aucune forme d'organisation centralisée ou certifiée mais qui, par son abondance, offre des opportunités, la possibilité de pouvoir « surfer » sans cadre prédéfini et arpenter un univers incertain, totalement détaché de tous repères et références (Boullier 2008).

En effectuant un effet de zoom et en focalisant notre attention sur les folksonomies, on observe pourtant qu'au delà du tagging libre, qui est le représentant typique de la position du Web 2.0, d'autres politiques de gestion des folksonomies peuvent être dégagées et permettent de construire une autre boussole des politiques d'architecture liées au tagging et à leur développement.

Outline

Documents relatifs