Du cadre du Web Sémantique à l’acquisition de métadonnées

L’enrichissement de contenus textuels à l’aide de métadonnées a été évoqué à plusieurs reprises dans les précédents chapitres comme un objectif de publication documentaire venant dépasser le seul niveau surfacique des textes et en faire émerger les connaissances de façon formelle et explicite. Il s’inscrit ainsi dans une perspective de traitement de l’information sophistiqué, prin- cipalement défini par les notions de partage, d’intégration et d’interprétabilité, notamment automatique, des connaissances véhiculées. À titre d’illustration, le fragment de document suivant : (6) Vendredi, François Hollande a tenu à rappeler que sa décision de retirer les troupes fran-

çaises combattantes d’Afghanistan n’était "pas négociable".1

mentionne, dans les segments soulignés, une personne et un pays, deux éléments pouvant être considérés comme centraux et pertinents au niveau du contenu informatif. Une version enrichie de ce fragment :

(7) Vendredi, <metadata type="Person" doc_id="123987">François Hollande</metadata> a tenu à rappeler que sa décision de retirer les troupes françaises combattantes d’<metadata type="Country" doc_id="456321">Afghanistan</metadata> n’était "pas négociable". promeut les mentions considérées au statut de métadonnées. Non seulement clairement déli- mitées et ainsi mises en valeur dans la consultation du document, ces mentions fournissent une information explicite sur son contenu. Dans cet exemple, cette information relève d’une association, par l’attribut doc_id de la balise metadata, entre les mentions considérées et une ressource externe, pouvant par exemple être mise à disposition par un service de documentation. L’espace de connaissances couvert par le document est ainsi étendu par une telle association, un programme pouvant automatiser l’accès à cette ressource à partir des métadonnées ajou- tées au document. La manipulation de cet espace informatif peut alors donner lieu à plusieurs types de traitements qualifiés de sémantiques, dont les documents et métadonnées constituent les éléments de base : à des fins de recherche d’information ou de classification automatique, les mé- tadonnées fonctionnent comme descripteurs formels des documents, permettant une indexation structurée ainsi qu’une sélection documentaire guidée par des éléments informatifs explicitement caractérisés. Ainsi, un utilisateur peut bénéficier d’un enrichissement de documents par la pos- sibilité d’exprimer une requête de recherche à partir du pays Afghanistan et d’accéder en retour à l’ensemble des documents disponibles en faisant mention. Une spécification plus détaillée des usages centrés autour de métadonnées munies d’une telle sémantique sera proposée dans le chapitre 4, en relation avec les besoins industriels connus par la presse en termes de traitement de l’information, et par l’AFP en particulier.

L’enrichissement à l’aide de métadonnées se présente ainsi comme une application concrète, visant les usages réels correspondant aux idées de fonctionnement général du Web Sémantique. Il en constitue une formulation tangible, émanant d’acteurs concernés au plus près par les probléma- tiques de renouvellement de traitement de l’information qui s’y trouvent exprimées. L’Annotation Sémantique joue à ce titre le rôle de producteur des métadonnées d’enrichissement, à travers une méthodologie construite par les différentes communautés de développement du Web Sémantique.

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 79 Elle résulte ainsi de travaux moins déterminés par des problématiques de recherche que par des visées d’ingénierie applicatives à l’image du Web Sémantique lui-même, comme l’illustrent des contributions telles que celle de Domingue et al. [DFH11].

1.1.2 Annotation Sémantique : définition

L’Annotation Sémantique (AS) a été abordée dans le premier chapitre du présent travail (section 1.3) en tant que nécessité au niveau opérationnel, découlant des attendus exprimés par le Web Sémantique en termes d’intégration et d’interprétabilité de l’information contenue dans les documents du Web. Elle constitue en effet le processus par lequel un niveau de représentation formelle de connaissances peut émerger du niveau textuel2_{. Si le Web Sémantique propose une}

représentation du monde — réel et global ou réduit et scindé en domaines — reposant sur des modèles de base formelle logique, l’AS en est le pendant opérationnel, qui effectue l’association entre les connaissances distribuées sous forme linguistique et les modèles choisis. Ainsi, à partir d’un ensemble documentaire et d’une ontologie modélisant le domaine considéré, l’augmentation des documents par AS permet une représentation des connaissances exprimées au niveau textuel par le truchement de liens établis avec le modèle. La figure 3.1 illustre une telle configuration, à partir d’articles journalistiques sur le thème de la vie politique européenne et d’une ontologie associée.

Ontologie

Politique européenne Classes Rôles Instances François Hollande Angela Merkel France Germany Herman Von Rumpuy European Union Eurozone Oct2012GrowthSummit Articles annotés

Annotation

Sémantique

Les sujets de discorde ne manquent pas, notamment entre la France et l'Allemagne, pour le sommet qui s'ouvrait à 17 heures. En préambule, Angela Merkel devait rencontrer François Hollande ...

Le sommet européen forge un compromis sur la supervision bancaire Articles

Figure 3.1 : Exemple de schéma général d’Annotation Sémantique. L’AS se définit comme :

[3.1] La mise en relation explicite d’un support informatif, sous la forme d’un segment textuel de document, et d’un modèle de connaissances à l’aide de marqueurs indiquant les éléments informatifs sélectionnés pour l’établissement de ce lien et encodant formellement leur relation référentielle au modèle.

2. l’AS peut s’envisager au niveau de données non textuelles : parole ou autre données sonores, image, video, infographie sont d’autres formes d’information présentes sur le Web pouvant donner lieu à des traitements d’ordre sémantique. Nous nous limitons cependant dans le présent travail aux données textuelles et au problème particulier de la relation entre niveau linguistique et représentation.

Elle repose donc sur les éléments constitutifs suivants :

Documents L’AS est une opération centrée autour des documents : ceux-ci constituent le support

de l’information et des connaissances recherchées ; les annotations se définissent en relation avec le document.

Modèle Le caractère sémantique des annotations repose sur leur association avec un modèle

ontologique, qui doit être spécifié au préalable, accessible et identifiable par le mécanisme des URI. L’adoption du formalisme ontologique répond aux impératifs de spécification conceptuelle et de partage de cette spécification énoncés au chapitre 1 (section 1.2.2), ainsi qu’aux insuffisances formelles des modèles non liés usuellement employés en Extraction d’Information.

Langage Un langage de balisage permet l’insertion des marqueurs d’annotation au niveau textuel,

ainsi que l’encodage formel des associations entre annotations et modèle. La syntaxe du langage XML est généralement adoptée, couplée à l’utilisation d’URI pour les références au modèle.

Au-delà du processus d’AS, tout agent humain ou automatique peut accéder aux connaissances véhiculées par le biais des annotations ainsi produites et des URI renseignées. L’interprétabilité rendue possible par la modélisation permet par suite d’associer à ces annotations des actions programmatiques tenant compte de la sémantique définie par l’ontologie sous-jacente.

La relation de référence entre segment textuel et modèle peut viser tout élément constitutif de l’ontologie :

Concept Annotation d’un segment du document, typiquement un terme ou une expression no-

minale, comme mention d’un concept de l’ontologie ; dans l’exemple 7, le nom commun

troupes peut être associé au concept correspondant s’il est défini dans l’ontologie.

Rôle Annotation d’un segment du document, typiquement verbal, comme mention d’un rôle3 ou

d’une instance derôle ; dans l’exemple 7, le verbe retirer peut être associé au rôle corres- pondant s’il est défini dans l’ontologie, tandis qu’une analyse plus complète et profonde de la phrase elle-même peut identifier une instance de ce rôle, avec pour domaine François

Hollande et pour portée les troupes françaises.

Instance Annotation d’un segment du document, typiquement nominal, comme expression ré-

férant à une instance de l’ontologie ; dans l’exemple 7, les noms propres François Hollande et Afghanistan peuvent ainsi être associés aux instances de concepts représentant les per- sonnes et pays, respectivement.

Dans chacune de ces situations d’annotation, il est utile de souligner que seuls des éléments définis au préalable dans l’ontologie peuvent constituer une cible pour le marqueur correspondant. Cette antécédence du modèle sur les contenus en termes d’éléments qu’il est possible de référencer distingue l’AS de la tâche d’acquisition ou de population d’ontologie, notamment, qui mettent également en jeu une relation entre modèle et contenus textuels informatifs. Dans ces tâches, la structure conceptuelle ainsi que leurs membres instanciés peuvent être dérivés à partir des contenus : c’est donc la mention des concepts, relations et instances dans un ensemble documentaire qui préside à leur introduction en tant qu’élément du modèle. Dans le cadre de l’AS, les éléments informatifs issus des contenus et non représentés au sein du modèle sont donc démunis

3. Le terme rôle est employé dans la description formelle d’ontologies et correspond à la notion de relation conceptuelle ; le terme relation peut ainsi lui être substitué, ainsi que le terme propriété, plus proche de la terminologie propre au langage OWL.

1. La tâche d’Annotation Sémantique pour l’enrichissement de contenus textuels 81 de la relation de référence nécessaire à l’établissement d’une annotation. Le possible complément ainsi exclu de l’ensemble d’annotations peut donner lieu à des traitements particuliers, visant notamment à l’enrichissement du modèle selon un processus cyclique : les outils déployés aux fins d’AS peuvent ainsi, par exemple, constituer au fil de l’annotation un ensemble de candidats non définis dans le modèle, puis le proposer en retour à un module de gestion de l’ontologie ; celle-ci peut, dans le cycle suivant, rendre disponibles les références correspondantes lors d’une nouvelle annotation. Une telle fonctionnalité implique, au niveau des outils d’AS, une capacité à repérer les éléments informatifs absents du modèle. Ceci ne constitue pas une opération triviale, comme l’illustrera l’examen des méthodologies effectives d’AS dans la suite de ce travail.

1.1.3 Constitution et acquisition des métadonnées

Contrairement à la situation usuelle en Extraction d’Information, le déploiement de l’AS n’entre- tient pas de lien de dépendance par rapport à une tâche particulière qui serait envisagée en aval sur les contenus traités. Elle est au contraire conçue pour fonctionner de façon générale dans l’espace du Web Sémantique, indépendamment des applications exploitant les informations représentées sous forme d’annotations. Elle repose ainsi sur le principe de non spécialisation en fonction d’usages, qui ne peuvent faire l’objet d’une prédiction étant donné le caractère ouvert, dis- tribué et diversifié du Web. L’AS peut donc être envisagée comme une tâche autonome, organisée autour de ses éléments constitutifs — documents, modèle, langage d’annotation. Cette autonomie dérive de l’aspect standardisé de l’AS, qui caractérise de façon générale le Web Sémantique ; c’est en effet par la standardisation que sont envisageables des traitements non définis d’avance, dès lors que ces derniers sont également intégrés aux standards du Web Sémantique. C’est ainsi au double titre de composant à part entière du Web Sémantique et de tâche autonome que l’AS se présente comme la méthode de mise en œuvre de l’enrichissement de contenus textuels à l’aide de métadonnées.

L’enrichissement de contenus peut en effet être formulé par des producteurs et éditeurs de contenus — agence de presse comme l’AFP, auteurs de blogs ou gestionnaire de site Web d’entreprise — en tant que besoin générique, visant à une intégration dans le paradigme du Web Sémantique et ne préjugeant pas nécessairement de ses usages possibles. Ceux-ci relèvent en effet des producteurs eux-mêmes, pour qui des contenus enrichis permettent d’envisager une gamme d’applications, elles aussi encadrées par les pratiques du Web Sémantique, mais également des utilisateurs extérieurs au processus de production — clients d’une agence de presse, abonnés d’un blog ou public d’un site Web — et dont les intentions quant à l’usage de ces contenus n’est pas contraint d’avance. La généricité du besoin d’enrichissement concerne donc son caractère formel, défini par l’emploi de l’AS comme méthode primordiale de mise en œuvre.

Une certaine spécialisation intervient en revanche au niveau des contenus visés par l’enrichissement, en tant qu’ils sont généralement constitués autour d’un domaine — champ thématique ou centre d’intérêt d’ordre communautaire. L’information qu’il s’agit ainsi de représenter formellement est donc quant à elle concernée par les notions de pertinence et de sélection, en relation avec le domaine considéré : à partir d’un ensemble documentaire, la question se pose de savoir quels types d’éléments informatifs sont visés par l’enrichissement. Ainsi, un producteur de contenus spécialisés sur la vie politique européenne peut proposer ces contenus au public sous une forme enrichie par un processus d’AS, sans contraindre ni figer a priori leurs usages ultérieurs. Les cibles de l’enrichissement sont en revanche délimitées en relation avec le domaine traité dans ces contenus : il pourra s’agir, comme l’illustre la figure d’exemple 3.1, d’institutions, de pays ou de personnalités liées à ce domaine, ainsi que des relations qu’ils entretiennent. Les contours de cette relation ne sont pas déterminés a priori par le domaine lui-même et relèvent de modalités de décisions propre à la définition d’un modèle, pouvant varier d’un point de vue et d’une situation à l’autre.

La relation entre domaine et cibles de l’enrichissement justifie l’intégration de l’AS au processus rédactionnel, déjà évoquée précédemment (chapitre 1, section 1.3.1. Les métadonnées consti- tuant cet enrichissement sont en effet issues d’une sélection d’éléments informatifs considérés comme pertinents en regard du contenu traité. Celui-ci peut donc être vu comme enrichi de façon concomitante à sa production, même si les deux opérations ne prennent pas place simultanément au niveau temporel. La validité de la sélection, c’est-à-dire la capacité pour un élément informatif à donner lieu à une métadonnée de document, est quant à elle garantie par la possibilité d’une relation de référence au modèle défini.

La fonction méthodologique de l’AS pour l’enrichissement de contenus peut donc être systé- matisée de la façon suivante :

• L’objectif d’enrichissement est formulé à l’égard d’un ensemble documentaire portant sur un domaine. Il implique une sélection d’éléments informatifs au travers de ces contenus, selon un critère de pertinence associé au processus rédactionnel.

• Le domaine considéré ainsi que les éléments informatifs pertinents donnent lieu à une modélisation conceptuelle, sous la forme d’une ontologie. Celle-ci spécifie les concepts relatifs au domaine selon la vue choisie, ainsi que les éventuelles relations entrant dans cette modélisation. L’ontologie peut également être peuplée, c’est-à-dire comporter un ensemble d’instances des concepts spécifiés.

• Les éléments informatifs rencontrant les critères de pertinence adéquats donnent lieu à des annotations, sous forme de marqueurs les délimitant au sein des contenus et indiquant leur lien référentiel avec l’ontologie sous-jacente, lorsque celui-ci existe. Les trois types d’élé- ments ontologiques — concepts, relations et instances — constituent les cibles potentielles de ce lien.

• Les métadonnées de document correspondent à l’ensemble de ces annotations. Chacune d’elles est constituée d’une référence vers un élément de l’ontologie employée, permettant aux traitements utilisateurs d’accéder à sa description, ainsi que d’une association avec le document sous la forme de sa localisation dans le texte.

Dans l’exemple figuré par le schéma 3.1, l’enrichissement des documents traitant de politique eu- ropéenne peut se présenter comme l’illustre la figure suivante (3.2), où un extrait de contenu textuel annoté est reproduit en regard du modèle ontologique. L’URI de l’ontologie utilisée, www.semanticweb.org/ontologies/2012/euroPol, est abrégée en euroPol dans les balises d’annotation nommées metadata.

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 79-83)