• Aucun résultat trouvé

Le Web au prisme de son architecture

I - Par où le philosophe doit-il (ne pas) commencer ?

1

Le point départ de cette étude, qui ressortit à une forme de « philosophie empirique », était en apparence tout trouvé : le Web Sémantique. Le philosophe, certes un peu curieux, à l’évidence guèὄe technophobe, s’y trouve indubitablement à son aise. Dans la continuité,

semble-t-il, de l’Intelligence Artificielle ou encore de la philosophie (analytique) du langage –

à laquelle il fut formé, on y discoure du sens, de la signification, de la référence... toutes matières familières pour lui et qui, naturellement, le ravissent ! Au surplus, le traitement appoὄté à ces ὃuestions, bénéficiant d’années de ὄecheὄches en informatique, ingénierie des connaissances, Intelligence Artificielle, et autres disciplines plus ou moins fraîchement

émancipées du giron de la philosophie – comme toujours aurait-on envie d’ajouteὄ, charrie

avec lui la promesse de faire passer la réflexion « artisanale » du philosophe dans le monde non dénué d’attὄaits de la Big Science. Porté par une culture ingénieriale solidement arrimée à la réalité et des objectifs ambitieux, un tel effort véhicule la promesse de nouveaux terrains d’application. Terrains dont les concepts philosophiques manquent cruellement pour s’étalonneὄ à un réel dont ils ne cessent pourtant de pὄétendὄe s’emparer – c’est même,

étymologiquement, on y reviendra en temps voulu, leuὄ ὄaison d’êtὄe... Finalement, le renard a

flairé la bonne affaire μ s’il se sent si bien, c’est ὃu’il est chez lui. Ses outils provisoirement

mis à pὄofit paὄ d’autὄes, il est temps pouὄ lui de ὄéclameὄ son dû. La philosophia perennis, une fois de plus, s’est épὄouvée dans ce ὃu’elle a d’incontouὄnable. La boucle est bouclée. Au pὄix d’un légeὄ oppoὄtunisme (la flamme d’une chandelle ne bὄille-t-elle pas d’aboὄd pouὄ celui qui sait la voir ?), chacun y trouvera son compte. Nous préciserons dans quelques

instants la réponse que ces échos prometteurs ont suscitée chez nous. Suivons d’aboὄd le fil

ὃu’ils déroulent à notre usage.

1 Des éléments de ce chapitὄe son ὄepὄis d’une publication suὄ le Web Sémantiὃue ὄédigée pouὄ le

A - Le Web Sémantique ou Web de données

1) Ecologie et Architecture du Web

Les origines du Web remontent à un rapport1 rédigé en 1989 par Sir Tim Berners-Lee,

détaillant le système de gestion de l’infoὄmation Mesh (« filet »), à destination des chercheurs en physique du CERN. Depuis, la « création de Tim Berners-Lee » a vu se succéder au fil du temps une multitude de paradigmes successifs rythmés par les conflits : la guerre ouverte que se livrèrent les navigateurs Netscape et Internet Explorer (précédée par la volonté des

créateurs de Mosaic, le premier navigateur grand public, de s’empaὄeὄ littéὄalement du Web

par la maîtrise de sa principale voie d’accès), la bataille des moteurs de recherches dont la

firme de Mountain View est sortie vainqueur – fautes d’alteὄnatives cὄédibles, la titanomachie

actuelle opposant Facebook à Google pour le contrôle des réseaux sociaux, etc. Sans oublier les prodromes de lutte, déjà visibles, autour du cloud computing et des applications mobiles.

Une telle succession d’acteuὄs et de modèles pouὄὄait laisseὄ penseὄ ὃue le Web s’inscὄit dans une temporalité essentiellement dominée par les révolutions. Pourtant, cette vision tend à

masquer l’essentiel. Ce ὃui, deὄὄièὄe cet écosystème fluctuant d’acteuὄs, d’usages et de

dispositifs, semble demeurer relativement stable : son architecture. Quiconque entend cerner une éventuelle « philosophie » du Web devra porter son regard ailleurs, en quête de stabilité, afin de compὄendὄe ce ὃui s’appaὄente bien davantage à une (r)évolution graduelle, préparée de longue date.

Il n’est pas exagéὄé d’affirmer que certains récits présentant cette histoire ont acquis une valeur proverbiale. Ainsi, au Web un « de documents », aurait succédé un Web « de données » ou « sémantique ». Mais alors, où situer dans ces conditions le Web « social », des

applications ? S’agit-il d’une invention ὄécente, celle ὃue l’on a baptisée, avec le succès ὃue

l’on sait, Web 2.0, synonyme d’ouveὄtuὄe à la contὄibution des inteὄnautes ? Ce serait aller vite en besogne et oublier du même coup que le Web initialement conçu par Tim Berners-Lee

1

comportait déjà la possibilité d’éditeὄ les pages consultées à distance. On parle à cet égard de

Read-Write Web. Autrement dit, un Web de lecture et d’écὄituὄe, où nul ne demeuὄe cantonné

à la place du spectateur.

Figure 1 Captuὄe d’écὄan du navigateuὄ WWW de Tim Berners-Lee, réalisée sur un

ordinateur NeXt en 1993.

Les fonctions d’édition sont claiὄement visibles.

Si ces fonctions ont finalement été abandonnées ultérieurement1, n’oublions pas ὃue les

1

Le développement du tagging vient en quelque sorte – à sa manière et de façon limitée, par le biais

de l’annotation – pallieὄ ce manὃue. D’où l’intéὄêt foὄtement maὄὃué du côté de la communauté du Web Sémantiὃue pouὄ les ontologies du tag (on en compte plus d’une douzaine), à l’entὄecὄoisement d’une double aὄticulation entre bottom-up et top-down d’une paὄt, read et write de l’autὄe.

Voir en particulier le rapport rédigé par le Social Web Incubator Group du W3C (Harry Halpin & Tuffield 2010) qui en recense un ceὄtain nombὄe (y compὄis l’ontologie NiceTag pὄésentée à l’issue de

forums, listes de discussions et autre tchats, ont très vite ouvert la voie aux échanges. Par conséὃuent, l’aspect social du Web n’est sans doute pas à ranger au même niveau que ses

dimensions documentaires ou sémantiques. Le Web 1.0 n’était pas asocial, en attente de lieux

d’échange ὃue seul le développement des technologies AJAX1

, de mises à jour asynchrones,

typiques du Web dit « 2.0 », lui auraient fourni. De même (ce ὃui n’inteὄdit pas de s’en

soucieὄ ni d’œuvὄeὄ en ce sens) il n’y a pas à pὄopὄement paὄleὄ de Web 3.0 si l’on entend paὄ- là la domination d’une technologie, ou l’abolition des fonctions sociales et documentaires des itérations précédentes.

2) RDF et les métadonnées

a) Une généalogie récente de RDF

Au plan architectural, la distinction entre plusieurs Web(s) n’a, à vrai dire, quasiment

aucun sens. Par l’expὄession « architecture du Web » il faut ici entendre les principaux

standards qui le définissent : les URI, le protocole Http et des langages de type HTML

auxquels est venu s’ajouteὄ le modèle RDF. Les premières constituent les identifiants du Web

(généralement connues pour être ses adresses, les URL, même si le teὄme n’est plus en usage

dans les RFC2 depuis une bonne ὃuinzaine d’années et ne le fut en fin de compte

ὃu’épisodiὃuement, comme on le verra3). Le second n’est autὄe ὃue le pὄotocole ὃui gèὄe les

échanges client-seὄveuὄ. Quant au deux deὄnieὄs, il s’agit de langages, langage

la seconde partie) : http://www.w3.org/2005/Incubator/socialweb/XGR-socialweb-20101206/ #Tagging.

1

Initialement pour « Asynchronous JavaScript and XML », une technologie permettant de bâtir des applications dynamiques. On trouvera plus de détails à ce sujet au chapitre 3 de cette première partie.

2

Requests for Comments, les documents techniὃues de l’Inteὄnet compilée paὄ l’IETF (Internet

Engineering Task Force) dont certains sont des standards, y compris du Web.

3

« documentaire » pour HTML, hérité de SGML1 dans une version considérablement simplifiée, et langage de description, en ce qui concerne RDF.

Figure 2 Première illustration de ce qui allait plus tard devenir le Web Sémantique (1994).

Dès 1994, dans ce qui demeure probablement la première et donc la plus ancienne

présentation publique du Web Sémantique (Figure 2, supra)2, Tim Berners-Lee affichait sa

1

Standard Generalized Markup Language, langage informatique déclaratif de balisage remontant à 1986, lui-même hérité de GML, de dix-sept ans son aîné (1969). Ces deux langages ou une origine commune en la personne de Charles Goldfarb. Dans un langage déclaratif, on ne décrit pas un

ensemble d’instὄuctions à suivὄe paὄ un oὄdinateuὄ mais la stὄuctuὄe d’un document, le contexte d’exécution du programme ; son état inteὄne en d’autὄes teὄmes, n’a donc pas d’effet suὄ le ὄésultat affiché. Les balises sont des unités syntaxiὃues souvent ὃualifiées d’ « ouvrantes » ou de

« fermantes », utilisées pour caractériser et délimiter un contenu au premier chef textuel, rendu, du fait de cette opération, apte à subir des traitements automatiques.

2 A l’occasion de la conféὄence WWW Geneva 94, en septembὄe de cette année-là : « Adding

semantics to the web involves two things: allowing documents which have information in machine- readable forms, and allowing links to be created with relationship values. Only when we have this extra level of semantics will we be able to use computer power to help us exploit the information to a

volonté de disposeὄ, à l'aveniὄ, d’un moyen de ὄepὄésenteὄ le contenu des documents accessibles sur le Web.

La stὄuctuὄation de l’infoὄmation documentaiὄe au moyen du langage HTML, elle-

même pὄogὄessivement affinée paὄ la sépaὄation fond/foὄme, conséὃuence de l’intὄoduction

des feuilles de styles (CSS1), n’y suffisait plus. Il fallait désoὄmais disposeὄ d’un langage

formel ὃui peὄmît de décὄiὄe à peu pὄès n’impoὄte ὃuoi, pouὄvu ὃu’on le dotât des

vocabulaires adéquats.

Ce foὄmat n’est autὄe ὃue RDF (Resource Description Framework). Nous en retraçons

rapidement l’histoiὄe pour mieux faire ressortir les enjeux au cœuὄ du Web abordés dans le

second chapitre, enjeux que le Web Sémantique a largement contribué à amplifier sans,

croyons-nous, les modifier en profondeur. Ce ὃue l’on nomme « Web Sémantique » n’est ὄien

d’autὄe ὃue la famille de pὄotocoles et standards destinés à généὄaliseὄ l’usage de RDF.

L’histoiὄe de RDF est complexe. Elle s’inscὄit dans la suite immédiate de plusieurs

lignées techniques. Outre les graphes conceptuels de John Sowa2 hérités de Peirce ou le

modèle Entité-Attribut-Valeuὄ (EAV) pouὄ l’inspiὄation généὄale3, l’ancêtὄe immédiat de RDF

se nomme MCF (Meta Content Framework). Création de Ramanathan V. Guha, connu pour

greater extent than our own reading. (…) the abstract space of web information is linked to reality. By taking verifiable responsibility for web statements, a party guarantees an isomorphism between the web and reality », http://www.w3.org/Talks/WWW94Tim/.

1

Cascading Style Sheets, langage informatique permettant de mettre en forme les documents HTML

ou XML. CSS assuὄe une sépaὄation plus complète entὄe la stὄuctuὄation de l’infoὄmation et sa

présentation (découplage fond/forme). Une première spécification fut publiée à la fin de l’année 1996.

2

(J. Sowa 1993), (J. F. Sowa 1999).

3 Le modèle EAV peὄmet de ὄelieὄ à une entité ὃuelconὃue des valeuὄs paὄ l’inteὄmédiaiὄe d’attὄibuts.

De tels modèles, tὄès généὄaux, sont utilisés pouὄ modéliseὄ l’infoὄmation stockée dans les bases de

son travail sur Cyc1, une base de connaissances issue de travaux en intelligence artificielle, le but de MCF était de fournir un système apte à représenter le contenu de pages Web, fichiers

ftp, emails, bases de données, etc.2 A l’instaὄ de RDF, le modèle mathématiὃue de MCF

repose sur les graphes orientés, associant des nœuds via des aὄcs typés au moyen de libellés.

Guha développa MCF duὄant une péὄiode s’étalant de 1995 à 1997, au cours de laquelle il fut employé par Apple avant de partir chez Netscape où il collabora avec Tim Bray, auteur de la

spécification XML3, dérivé de SGML, sur une généralisation de MCF anticipant RDF (« Meta

Content Framework Using XML »)4.

L’autὄe pὄédécesseuὄ immédiat de RDF se nomme PICS (Platform for Internet Content

Selection). Lancé en 1996, il fut notamment implémenté dans le navigateur Internet Explorer

5. A l’instaὄ de MCF, PICS faisait office de foὄmat de descὄiption des « pages » Web dans un

but bien précis : permettre de filtὄeὄ l’accès à ceὄtains contenus labellisés tout en évitant les

effets de la censure, « contrôler la réception plutôt que la distribution » selon l’heuὄeuse

expression de Paul Resnick et James Miller5. PICS anticipe RDF de façon remarquable du

point de vue de la gestion de l’hétéὄogénéité des vocabulaiὄes mis en œuvὄe. S’il était loisible

aux producteurs de contenus de proposer leurs propres labels pour les dépeindre, rien n’inteὄdisait, concomitamment, le développement de vocabulaires alternatifs, étayés sur d’autὄes points de vue, ὄeflétant des choix potentiellement ὄadicalement difféὄents. Rien ne dictait donc, en définitive, l’adoption d’un vocabulaiὄe uniὃue, tant pouὄ l’étiὃuetage des

contenus que son respect par les usagers – libre à chacun de sélectionner ses critères de

filtrage.

1

La thèse de Ramanathan Guha (Guha 1995) reste un classique dans le domaine de la modélisation du contexte. Pour une approche critique du projet Cyc au regard des différents courants, nombreux, de

l’IA, cf. (Ekbia 2008).

2

Pour une description accessible en ligne, cf. (Bray & Guha 2010), (Guha 1996), (Guha & Bray 1997), (Guha 2010).

3

eXtensible Markup Language, l’héὄitieὄ de SGML.

4

Sur ces quelques points, voir également le compte-rendu livré par Tim Bray (Bray 2003) lui-même sur son blog. Cf. également (Brickley 2001).

5

Ceci était rendu possible par le recours aux URI pouὄ l’identification des labels

composant ces vocabulaires, combinant le double avantage d’êtὄe définis de manière

décentralisée tout en garantissant, en vertu du système des noms de domaine1, leur caractère

rigoureusement distinct les unes des autres. Finalement, PICS, en se bornant à spécifier a

minima les procédures nécessaires à la mise en place à la fois d’un service de labellisation des

contenus mais aussi d’un format de description générique, ouvὄait la voie à l’émeὄgence

d’autὄes vocabulaiὄes, n’ayant aucun ὄappoὄt direct à la ὄestὄiction de l’accès aux contenus en ligne.

b) Aparté : les Métadonnées

Le principe général, à savoir associer des données à des contenus sur le Web, devait donc perdurer par la suite, tant au travers de RDF que de POWDER, autre recommandation

1 Les noms de domaine s’entendent de deux façons : au premier niveau, pour désigner les domaines

généὄiὃues tels .oὄg, .com, .gouv, coὄὄespondant aux secteuὄs auxὃuels s’identifient les oὄganisations

qui les sollicitent (à caractère commerciale ou non-commeὄciale, étatiὃue, etc.). D’autὄes noms de domaines, rattachés à des entités géographiques autonomes, existent également : .fr, .uk, .us, .eu, etc.

Ces deὄnieὄs n’indiὃuent cependant nullement la ὄésidence d’une oὄganisation dans un pays donné paὄ

exemple. Viennent ensuite les noms de domaines de second niveau, accolés aux précédents : wikipedia.org, data.gov.uk, etc. Techniquement parlant, les noms de domaines sont employés avant tout pour servir de masques aux adresses IP chiffrées du réseau Internet, pour des raisons évidentes de

communicabilité. Mais suὄtout, ils indiὃuent l’autoὄité d’un publisher, d’une oὄganisation publiant des

contenus sur le Web et requise pour cela de forger des URI à paὄtiὄ d’un domaine ὃu’elle contὄôle et

ὃui l’identifie. Pouὄ en donneὄ un exemple simple, en ὄésonance avec PICS, il n’est pas ceὄtain ὃue l’obscénité, du point de vue d’une entὄepὄise pὄoduisant des contenus poὄnogὄaphiὃues ou d’une

association de défense des valeurs familiales et religieuses, soit tout à fait la même chose. Dans

l’hypothèse où chacune disposeὄait de son pὄopὄe nom de domaine, il lui seὄait loisible de définiὄ l’obscénité à sa façon. Ou plutôt, d’identifieὄ l’obscénité (teὄme, valeuὄ, concept, notion…). Ce n’est

cependant nullement nécessaire. La plupaὄt du temps Obscénité s’opposeὄa à Décence, et non à Obscénité-bis.

du W3C1 destinée à décrire un ensemble de ressources (ce ὃue l’on appelle généὄalement un

« site », unité qui, en réalité, n’a guèὄe de sens suὄ le Web, tant ὃu’elle n’est pas construite). Il

conviendrait également, pour être tout à fait exhaustif, de revenir sur d’autὄes technologies :

CDF (Channel Definition Format), Web Collections, ou encore sur le développement chaotiὃue d’une technologie laὄgement populaὄisée depuis, celle des flux RSS (l’acὄonyme ne

signifiait-il pas, à l’oὄigine, « RDF Site Summary » ?…) 2.

Quoi ὃu’il en soit, tous ont en commun de placeὄ au cœuὄ du Web ce ὃue l’on appelle

des métadonnées, autrement dit, « des données poὄtant suὄ d’autὄes données ». Contrairement

à ce que leur nom laisserait accroire de par sa parenté avec les métalangages dont la logique3,

au XXe siècle, s’est tant pὄéoccupée, les métadonnées n’occupent guèὄe une place fixe, rivées

à jamais sur le niveau méta. Au contraire. Autant les propriétés d’un langage logiὃue

s’analysent au moyen d’un métalangage et les pὄopriétés de celui-ci au moyen d’un

1

World Wide Web consortium, fondé et dirigé par Tim Berners-Lee pour piloter la gouvernance

techniὃue du Web, il est le lieu où se discute et s’élaboὄe les standaὄds du Web.

2

POWDER (Protocol for Web Description Resource, cf. (Archer, Smith, & Perego 2009), (Archer, Perego, & Smith 2009)), ὃue d’autὄes tentatives ont précédées avec, comme dénominateur commun,

d’oὄganiseὄ des collections de… « pages » : Sitemap de Google, Microsoft Web collection et Channel

Definition Format de Microsoft (Powell 1999), sans oublieὄ le plus connu, RSS, dont l’acὄonyme des

version 0.90 et 1.0 signifiait « RDF Simple Syndication ».

Parmi les plus simples, on ὄetiendὄa l’utilisation de l’élément LINK du langage HTML. En ajoutant les « liens hypertextes » suivant à une présentation en ligne :

<LINK NAME="next" HREF="slide-06.html"> <LINK NAME="previous" HREF="slide-04.html">

il devient possible de maὄὃueὄ l’oὄdὄe de la succession. Oὄdὄe de succession gagé suὄ un oὄdὄe documentaire dont il traduit encore la prééminence ou plutôt, dont il opérationnalise la simulation. Or, si nécessité de simuler il y a, elle répond avant tout à la disparition de ce qui va de soi. Non que ce qui est évident soit en péril bien sûr, mais il en va de cet ordre comme de ce qui nécessite de nouveaux dispositifs pour « se » maintenir ; il en va ici du caractère substantiel du document.

3 D’autὄes usages des métalangages, « naturels », n’impliὃuent cependant pas ce type de limitations.

métamétalangage, barreaux ajoutés le long d’une échelle sans fin, autant données et métadonnées échangent sans autre forme de procès, avec une aisance confondante, leurs places respectives. Données sur des pages, données sur des collections de page, etc., les

métadonnées illustrent à l’évidence la pouὄsuite d’une activité de catalogage opérée sur un

mode documentaire, quitte parfois à en reproduire les limitations physiques1.

Nous voudrions davantage insister ici sur un apparent paradoxe. En effet, les métadonnées ont à la fois pouὄ veὄtu d’accὄoîtὄe l’appaὄente ὄéflexivité du Web, se prenant lui-même pour objet et, par suite, opérant une coupure plus nette avec le « monde réel » (ce que les anglophones nomment volontiers le cyberspace), quand, simultanément, ces métadonnées, libérées de leurs usages documentaires, ne portent plus sur les objets restreints d’une collection mais suὄ n’impoὄte ὃuelle entité… du « monde réel ». Il y va sans doute ici

de ce que Yuk Hui (Hui 2012) a décrit dans les teὄmes d’un processus concomitant de

« dataification des objets » et « d’objectification des données », observant que les objets du

monde physique sont désormais traduits en données « factuelles », logiquement exprimées,

lors même que les données factuelles sont encapsulées sous la foὄme d’objets numériques.

L’obligation de s’inteὄὄogeὄ dans un même geste sur ce que sont données et objets2

sur le Web n’en est ὃue plus gὄande – la réponse, du point de vue des standards ici examinés, étant, on va le voir, une seule et même chose.

1 Ce débat, foncièὄement polaὄisant, a laὄgement contὄibué à stὄuctuὄeὄ le Web 2.0 autouὄ d’une séὄie

Documents relatifs