• Aucun résultat trouvé

La BBC et DBpedia : mise en relation dynamique de contenus

La BBC présente par son site Web un exemple applicatif concret et notable du Web Sémantique et de ses technologies. La refonte de ce site, initiée à l’occasion de la couverture de la Coupe du monde de football de 2010 et présentée dans [MK12] et [Kob+09], est menée dans l’objectif principal d’améliorer l’exploration des contenus par les utilisateurs par des modalités de navigation enrichies. Il s’agit de mettre en relation les documents produits à travers les différents domaines traités par la BBC par l’usage de techniques et de ressources émanant du Web Sémantique. DBpedia est ainsi adopté comme vocabulaire contrôlé dans la perspective d’une formalisation sémantique de référence des données manipulées.

Le renouvellement du processus de maintenance et d’édition des contenus de la BBC concerne notamment les processus d’indexation à l’œuvre dans l’édition des contenus. Avant ce renouvel- lement, chaque domaine repose sur un index, rassemblant des données référentielles maintenues manuellement et en permanence. Plusieurs index peuvent présenter des métadonnées correspon- dant aux mêmes entités, sans que celles-ci ne présentent de référence commune. L’accès aux contenus est alors statique, défini par les seules métadonnées gérées par l’index de référence.

1. Cas d’utilisation dans la presse numérique 129 Il est ainsi impossible, par exemple, d’accéder à des articles mentionnant un acteur dans le domaine de la politique à partir de documents appartenant au domaine du cinéma. Cette orga- nisation des ressources sans interconnexions constitue donc un frein majeur à une exploration des contenus cohérente et sophistiquée. On retrouve ici une caractéristique usuelle des données d’entreprise, abordées au chapitre 1 (section 3), où l’emploi d’un vocabulaire contrôlé pour la gestion des données se heurte à des pratiques de maintenance séparées et à l’absence de schéma de représentation unifié.

L’adoption d’un modèle de représentation unifié pour l’indexation des contenus constitue donc le cœur de l’approche proposée par la BBC pour son site Web. À partir d’un tel modèle, dont DBpedia se fait ici le pivot central, une indexation des contenus selon une sémantique définie peut être envisagée, permettant ainsi une mise en relation des documents à travers les différents domaines traités. Les points d’accès aux contenus sont alors vus comme multiples et ouvrant la navigation sur l’ensemble de la production sans limitation à un domaine particulier. L’ancrage des métadonnées employées pour l’indexation dans un modèle sémantique tel que DBpedia permet par ailleurs de prendre en compte les évolutions potentielles touchant les entités ainsi référencées : l’attribution à un document d’une métadonnée correspondant à une entité particulière n’est plus figée dans un état de maintenance de l’index mais au modèle de représentation définissant cette entité.

La mise en œuvre de cette modélisation unifiée ainsi que des processus d’indexation renou- velée qu’elle permet prend à la BBC la forme concrète suivante :

Modèle DBpedia est adopté comme pivot pour la représentation des données en raison de sa

large couverture et de sa place centrale dans le réseau des Linked Data, ainsi que de la persistence des références disponibles due à sa disponibilité sur le Web, contrairement à des ressources propriétaires et fermées. Les données d’indexation existantes — les index préa- lablement utilisés par la BBC — sont intégrées au nouveau modèle par le biais d’ontologies de domaines (Sport par exemple) dont les instances sont mises en correspondance avec leurs équivalents dans DBpedia. Le modèle ainsi obtenu est donc associé aux Linked Data. Deux ontologies fonctionnelles sont associées à ce modèle (cf. figure 4.1) afin de représenter les informations d’association entre métadonnées (Tagging Ontology) et documents (Asset

Ontology) d’une part, et entre métadonnées et domaines (Domain Ontologies) d’autre part.

Traitement des contenus Les contenus sont annotés à l’aide du système de Reconnaissance

d’Entités Nommées de la chaîne d’Extraction d’Information GATE [Cun+11b]. Les mentions ainsi obtenues donennet lieu à la sélection des possibles instances correspondantes dans DBpedia, puis une phase de désambiguïsation s’appuyant sur le contexte d’occurrence re- tient l’une d’elle pour constituer une métadonnée du document traité. L’URI fournie par DBpedia pour l’instance est ajoutée à ce document au niveau de la mention d’entité identi- fiée. Le format rNews, élaboré par le consortium IPTC1, permet l’intégration de métadonnées

de contenus au format HTML et est à l’étude pour une intégration à la BBC.

Les journalistes appellent ce traitement sur les documents rédigés à partir du CMS mis à leur disposition (cf. figures 4.2 et 4.3), puis procèdent à une étape de validation manuelle des annotations proposées : chaque lien retourné par l’analyse peut être accepté, refusé ou corrigé avant que le document ne soit transmis pour diffusion. En cas d’ambiguïté entre plusieurs instances de DBpedia pour une même mention, les journalistes sont amenés à choisir l’instance adéquate. Les métadonnées ainsi ajoutées aux documents sont par ailleurs stockées au format RDF et reliées aux ontologies prévues à cet effet (cf. figure 4.1). Le traitement sémantique des contenus est ainsi largement automatisé et ne nécessite

plus de maintenance coûteuse et permanente des index de métadonnées, tout en assurant des fonctionnalités de contrôle et de validation par les journalistes, nécessaires à l’édition appropriée des contenus.

Figure 4.1 : Ontologies fonctionnelles et de domaine de la BBC (reproduit à partir de [MK12]).

Figure 4.2 : CMS de la BBC : Indexation sur l’entité Gareth Barry

(domaine sport) d’une dépêche concernant le footballeur (reproduit à partir de [MK12])..

Figure 4.3 : CMS de la BBC : Annotation d’une dépêche avec le

lieu Milton Keynes (reproduit à partir de [MK12]).

Le résultat du traitement sémantique mis en place pour le site Web de la BBC consiste en une évolution de la mise à disposition des contenus d’un état non relié à une interconnexion complète à l’aide d’un modèle unique et simple, reposant sur DBpedia. La publication de documents prend alors une orientation dynamique et non plus statique, en passant d’une gestion figée des métadonnées à un modèle sémantique clairement défini et accessible, dont les données peuvent changer au cours du temps sans que les liens entre domaines et documents n’en soient affectés.

1. Cas d’utilisation dans la presse numérique 131 Au-delà d’une navigation à travers les contenus à partir de métadonnées sémantiques, princi- palement les entités mentionnées dans les documents de la BBC, ce renouvellement des pratiques d’indexation et de publication permet le développement d’applications reposant sur le réemploi des documents, dépassant leur publication originale. En effet, de nouveaux contenus peuvent être dynamiquement créés à partir des documents enrichis en métadonnées, notamment par agréga- tion autour d’un ensemble de métadonnées spécifiées. La figure 4.4 illustre le résultat d’une telle agrégation dynamique d’information autour de l’entité Chelsea FC, telle qu’elle est présentée aux utilisateurs du site Web de la BBC.

Figure 4.4 : Page dynamique du domaine sport de la BBC pour l’équipe Chelsea FC : agrégation automatique de métadonnées, statistiques sportives actualisées et navigation dynamique dans le

domaine Sport (reproduit à partir de [MK12]).