• Aucun résultat trouvé

Annotation Sémantique, Intelligence Artificielle et TAL

1.3.1 Nécessité du lien entre contenus et représentations pour le Web Sémantique

L’intelligence artificielle rebaptisée Les accomplissements technologiques associés au renou-

vellement de la pratique de publication documentaire initié par le Web Sémantique justifient leur existence et leur mode de mise en œuvre par l’objectif d’une information accessible et compréhensible par les machines. Le but énoncé, en particulier dans [BLHL01], est celui d’agents automatiques capables d’accomplir des tâches diverses en exploitant les connaissances jusqu’alors uniquement réservées à la compréhension humaine. À la suite de Wilks et Brewster [WB09 ; Wil08], on peut observer qu’il s’agit là d’une reformulation, dans les termes contemporains du Web et des pratiques logicielles associées, des objectifs originels poursuivis par les recherches en intelli- gence artificielle (IA) au vingtième siècle. Si une continuité entre IA et Web Sémantique peut être constatée dans ces objectifs, Wilks observe cependant qu’elle n’existe que peu dans les lignes de recherches suscitées par le second. Le Web Sémantique encourage sur ce plan l’adoption de sché- mas de représentation simples, favorisant des traitements algorithmiques à la complexité limitée. Ce manque de sophistication peut contribuer à poser la question de la puissance de représenta- tion permise par les outils du Web Sémantique. On peut en tout cas faire état d’une transition entre IA et Web Sémantique où la représentation des connaissances formelle et traditionnelle laisse place à l’adoption des ontologies comme outil central de représentation et de traitement.

Un manque d’annotations Si le Web Sémantique devait constituer une forme contemporaine

d’IA, on ne peut que constater que son objectif de départ ne correspond pas à une réalité flagrante : de nombreux services ayant pour base le Web existent, mais ne témoignent pas encore d’un accomplissement généralisé de tâches par les machines comme cela était imaginé au début des années 2000 par Tim Berners-Lee. Le Web Sémantique actuel existe davantage en tant qu’ensemble d’avancées technologiques, et plus encore comme centre de gravité d’un effort de standardisation et de définition de pratiques modernisées. La carence la plus manifeste en ce qui concerne une réalisation concrète du Web Sémantique se situe au niveau des annotations : les données annotées selon les directives énoncées dans le cadre du Web Sémantique sont loin de constituer une masse visible dans l’espace de publication documentaire. Or, c’est bien l’Annotation Sémantique qui doit permettre une exploitation automatique par l’extraction de connaissances à partir de contenus, afin de constituer un ensemble d’informations sous une forme distincte du langage naturel. L’Annotation Sémantique de contenus, même si elle dispose désormais d’un certain nombre de conditions nécessaires pour sa mise en œuvre, n’est pas encore une norme généralisée dans la publication de données.

L’annotation : partie prenante du processus rédactionnel Ce constat nous ramène au pro-

blème de l’enrichissement de contenus textuels pour lequel le Web Sémantique constitue un cadre formel et pratique : il s’agit d’ancrer les contenus d’intérêt dans une sémantique permettant l’interprétabilité, afin de proposer une publication documentaire augmentée au niveau informa- tif et disponible pour des traitements ultérieurs sophistiqués. Cet ancrage dispose de la structure nécessaire à l’endroit des outils fournis par le Web Sémantique décrits précédemment (1.2) : le lan- gage de description RDF, le mécanisme de référencement et de localisation des URI, ainsi que les ontologies pouvant être conçues pour tout domaine à l’aide du langage OWL. Il reste néanmoins à déterminer les modalités concrètes de mise en œuvre de l’Annotation Sémantique attendue pour un fonctionnement effectif du Web Sémantique : l’Annotation Sémantique se conçoit comme partie prenante du processus rédactionnel, et c’est en ce sens que le Web Sémantique en pro- pose un renouvellement. Il apparaît dès lors que ce versant productif du Web Sémantique ne se situe pas au niveau du développement informatique et logiciel mais à celui de ses utilisateurs,

1. Le Web Sémantique 37 c’est-à-dire des auteurs des documents eux-mêmes. On observe en cela un trait typique du Web depuis sa conception originale, celui de la distribution, où les contenus et leur interconnexion se construisent par une intrication d’initiatives et de communautés plutôt que sous l’autorité d’un organe central.

Coûts et freins de l’annotation Le faible taux de données annotées révèle cependant que

ce mode de pratique rédactionnelle est encore peu répandu, et ce pour des raisons tenant manifestement au coût qu’elle induirait. L’Annotation Sémantique de contenus demande en effet du temps aux rédacteurs qui en sont chargés, ce qui peut être en soi rédhibitoire. Mais elle réclame également la mise en place d’une structuration de l’information du côté des données publiées, qu’il s’agisse d’une organisation, publique ou privée, ou d’un rédacteur isolé : les annotations doivent établir des liens référentiels vers des ensembles de données existants, constitués en interne dans une ontologie de domaine par exemple, ou externes, comme DBpedia ou tout autre nœud des Linked Data pertinent pour les contenus considérés. Cette nécessité de structuration se traduit par un effort de développement technique non négligeable, mais également de conceptualisation sans lequel le processus d’annotation ne peut aboutir aux résultats escomptés. Construire et adopter un modèle de connaissances, puis le lier à des contenus en langage naturel en maintenant les impératifs de sens et de formalisation sont des opérations non triviales sur lesquelles il convient de mener une réflexion.

Périmètre de l’annotation Dans la perspective d’une Annotation Sémantique accomplie par

les rédacteurs au moment de la production des contenus, elle peut être envisagée comme plus ou moins aisée, dès lors que les structures et outils adéquats sont mis à leur disposition — au moins une ontologie peuplée de cibles pour l’annotation ainsi qu’une interface de sélection et d’ajout de métadonnées au contenu liée à cette ontologie. Mais une telle réduction de l’Anno- tation Sémantique aux contenus produits à compter d’aujourd’hui semble impossible, puisqu’elle reviendrait à laisser de côté l’ensemble des contenus d’ores et déjà existants, sur le Web ou au sein d’organisations, c’est-à-dire à ignorer la majeure partie des connaissances déjà publiées. Si l’on considère les contenus du Web comme devant être traités de façon généralisée, le processus d’Annotation Sémantique nécessite la mise en œuvre de techniques et méthodologies adaptées, ce qui constitue un pan crucial des recherches à mener au sujet du Web Sémantique.

1.3.2 Les deux filiations du Web et de l’annotation sémantiques

L’Annotation Sémantique constitue donc un problème de nature double quant à sa mise en œuvre : vecteur fondamental de l’acquisition de connaissances pour un Web Sémantique fonctionnel, elle pose la question de l’expression du sens à partir du langage naturel vers une autre modalité de représentation ; destinée à l’acquisition du sens sur un très grand ensemble de contenus touchant à tous les domaines, elle demande à s’interroger sur les moyens de sa réalisation concrète à une si large échelle ainsi que sur les possibilités de validation de la sémantique ainsi constituée. Ces deux axes problématiques permettent d’envisager l’Annotation Sémantique dans une filiation avec, d’un côté, les réflexions menées en intelligence artificielle (IA) sur la place du langage et de la représentation des connaissances, et, de l’autre, la tradition d’annotation et d’analyse textuelle en traitement automatique du langage (TAL). Ces deux lignées entretiennent des relations historiques et fondamentales dans lesquelles se place l’Annotation Sémantique nécessaire à la mise en œuvre du Web Sémantique.

L’Annotation Sémantique invoque tout d’abord une dichotomie classique en IA, celui de la représentation des connaissances et de sa relation au langage naturel : il s’agit de savoir si les connaissances véhiculées par la communication linguistique peuvent trouver une représentation

dans un autre système symbolique, c’est-à-dire si le langage naturel ne tient que par et pour lui-même et si toute autre représentation est parasitaire ou insuffisante quant au sens exprimé. À l’inverse, cette relation interroge la nature parasitaire du langage lui-même et la nécessité de ramener le sens à des formalismes non linguistiques afin d’en avoir une connaissance exacte. Autrement dit, l’Annotation Sémantique se situe dans la problématique du recodage de contenus, dans laquelle la place et l’expression du sens dépend du degré de formalisation et d’autonomie accordé au langage naturel.

Par ailleurs, l’Annotation Sémantique promeut le document et son contenu textuel comme objet central dans le Web Sémantique, et se place ainsi dans la lignée du TAL, qui s’intéresse de façon primordiale à ces objets. Le principe de l’annotation de contenus textuels dans le but de formaliser de façon explicite les divers niveaux et types de connaissances qui y sont exprimés sous forme linguistique est en effet un élément constitutif des méthodes et objectifs du TAL. Ce principe est notamment réalisé par une association entre certains éléments textuels dans un document donné et des éléments de codage indiquant une information particulière au sujet des premiers. Les éléments de codage, autrement dit les annotations elles-mêmes, sont au moins vues comme une traduction plus formelle des éléments textuels en question.

Dans le Web Sémantique et à la suite des paradigmes de représentation des connaissances développés notamment dans le cadre de l’IA, cette formalisation repose sur un ancrage des éléments de codage dans un schéma de conceptualisation partagé et bien défini, c’est-à-dire dans une ontologie. D’autres modalités d’annotation sont toutefois envisageables, la plus prégnante à ce jour étant celle des étiquettes (en anglais « tags ») associées aux contenus sous la forme d’une indexation et largement répandue dans l’espace du Web et des services associés identifiés comme « Web 2.0 ». Dans cette pratique, l’annotation relève également des utilisateurs mais suivant un principe de libre choix et de collaboration, où l’ancrage sémantique est formé par une synthèse sociale plutôt que par une définition préalable d’un schéma partagé. On parle alors de

folksonomies, qui de distinguent des conceptualisations formelles en ce qu’elles ne définissent pas

de vocabulaire pour les représentations, qui conservent les caractéristiques du langage naturel — variations, ambiguïté... —, même sous la forme d’étiquettes. Il faut toutefois rappeler, comme le fait Wilks [Wil08] dans ses observations sur la validité de l’ancrage sémantique choisi pour une représentation formelle des connaissances à partir de contenus, que l’annotation doit être fondée empiriquement afin que le sens ainsi dérivé corresponde à une réalité justifiée par les usages humains.

Ainsi, pour Wilks et Brewster [Wil08 ; WB09], l’Annotation Sémantique doit s’effectuer sur la base d’ontologies construites de façon empirique, c’est-à-dire acquises à partir des contenus textuels eux-mêmes. Cette vision empiriste de l’ancrage sémantique pour le Web se ramène à la tâche d’acquisition automatique d’ontologies évoquée en 1.2.2, pour laquelle le TAL présente depuis plusieurs décennies des méthodes et techniques adaptées, le rendant ainsi indispensable à la mise en œuvre d’un Web Sémantique fonctionnel.

Indépendamment de cette vision et de la question du choix de représentation pour l’Anno- tation Sémantique, celle-ci dépend également du TAL en raison de l’espace et du volume de données visées. Il ne serait en effet envisageable ni de procéder manuellement à l’annotation des millions de documents potentiellement utiles, ni de ne considérer que les publications à venir en laissant de côté le Web déjà existant dans le processus de migration vers le Web Sémantique, ce qui constitue également un point de l’argumentation de Wilks en faveur d’un Web Sémantique cohérent [Wil08]. L’Annotation Sémantique doit de fait s’envisager comme une tâche automatisable afin d’atteindre ses objectifs. Le TAL se présente ici aussi comme un recours indispensable, puis- qu’il permet, notamment à travers le large sous-domaine de l’Extraction d’Information, de dériver automatiquement les éléments visés par l’Annotation Sémantique à partir de contenus textuels.

2. Documents et métadonnées : formalisation pour le traitement de l’information 39 plusieurs décennies permettent donc de définir un cadre de réalisation pour l’Annotation Séman- tique. Il lui fournit d’une part les moyens d’un traitement de données à grande échelle, incontour- nable en ce qui concerne le Web Sémantique. Mais l’Annotation Sémantique repose également sur le versant du TAL lié à des considérations centrales de l’IA, c’est-à-dire le franchissement de la frontière entre données linguistiques et représentation logique et formelle.

Le Web Sémantique consiste en une réalité faite de développements de standards et de pra- tiques de publication encouragés par des visées applicatives à la fois larges et donc encore peu spécifiées, mais motivées par une volonté de progrès dans le champ des connaissances et de leur représentation. L’enrichissement de contenus textuels constitue un élément de ce vaste projet, en tant qu’il est le résultat premier du processus d’Annotation Sémantique. En amont de spécification d’applications, de tâches ou de services permis à terme par l’Annotation Sémantique, l’enrichisse- ment de contenus se présente en effet comme un objectif à part entière : il s’agit de donner une forme concrète et active à la mise à disposition de connaissances sous une forme interprétable, quelque soit la nature et la réalité des traitements envisageables sur cette base.

Le renouvellement des pratiques de publication documentaire proposé dans le paradigme du Web Sémantique se traduit donc principalement par l’enrichissement de contenus, où les documents considérés se voient augmentés d’une couche sémantique utile, celle des métadon- nées fournies par l’Annotation Sémantique. Avant d’examiner plus en avant à quelles lignes de recherches et méthodologies se rattache cette annotation (chapitres 2 et 3), il semble utile de poursuivre la présentation de l’enrichissement de contenus en nous intéressant aux objets fonda- mentaux qu’il manipule — documents et métadonnées —, ainsi qu’aux raisons de l’intérêt porté au Web Sémantique par une organisation telle que l’AFP.

2

Documents et métadonnées : formalisation pour le traitement de

l’information

Le Web Sémantique et ses objectifs d’exploitation des connaissances rappellent que le Web est avant tout une forme moderne de publication, de recueil et de consultation de l’information. Il se place à ce titre dans la lignée des traditions de regroupements documentaires destinées à conserver, inventorier et rendre accessible la connaissance humaine, notamment les bibliothèques. Celles-ci constituent la réalisation la plus manifeste de cette activité de gestion de l’information et c’est autour de leur organisation que se forment les paradigmes de formalisation d’accès aux connaissances, transposables à toute organisation concernée par les pratiques documentaires.

Le tournant numérique de l’information poursuit cet effort par de nouveaux moyens et contri- bue à renouveler un certain nombre de concepts fondamentaux dans le champ du traitement de l’information, aboutissant notamment aux développements dans le cadre du Web Sémantique et des ontologies évoquées précédemment. L’exploration de ces concepts ainsi que de leur évolution historique contribue à tracer les contours de l’enrichissement de contenus et des métadonnées, notamment en tant que moyen d’accès à l’information et aux connaissances dégagé de contraintes physiques et fondé sur la notion de réseau.

2.1 Modalités d’organisation et de description des contenus documentaires