• Aucun résultat trouvé

Afin d’intégrer des fonctionnalités d’enrichissement des contenus en métadonnées à la chaîne de production de l’AFP en conformité avec les contraintes énoncées ci-dessus, les outils élaborés dans cet objectif sont envisagés sous la forme d’un module autonome. Dans les processus relatifs à la

3. Cas d’utilisation AFP 147 rédaction et à la transmission de documents et plus spécifiquement de dépêches, un tel module peut être associé à la console dont disposent les journalistes par appel à un service accessible depuis le réseau de travail. L’interprétation des résultats retournés concerne quant à elle la console elle-même et doit donner lieu aux modifications adéquates. Au niveau des traitements non direc- tement liés à la rédaction mais tournés vers l’élaboration d’applications exploitant les contenus et leurs métadonnées, le même module peut être accessible via les systèmes informatiques déployés à l’agence. L’installation des outils constituant ce module au niveau des systèmes d’information peut donc concerner l’ensemble des postes de travail de l’agence, sous la forme de programme directement exécutable ou de service distant par l’intermédiaire d’un logiciel client, intégré aux CMS rédactionnels. Enfin, ces outils doivent être adaptés aux formats de données utilisés par l’AFP, notamment le format NewsML défini par le consortium IPTC, tant en entrée qu’en sortie.

3.3.2 Identification d’entités et métadonnées

Les métadonnées visées par la tâche d’enrichissement concernent en premier lieu les entités mentionnées dans les contenus. Il s’agit donc de procéder à leur identification afin que les mé- tadonnées dérivant des mentions d’entités soient porteuses de sens en termes d’interprétation et d’exploitation ultérieure. L’identité des entités mentionnées est issue d’un processus de mise en relation avec un modèle définissant un ensemble d’individus dont le type appartient à des classes conceptuelles telles que personne, lieu ou organisation. L’ancrage de ces individus dans le modèle donné permet en effet de les identifier de façon unique et explicite, et cette caractéristique est transmise aux métadonnées insérées au niveau des mentions concernées au sein des contenus. L’identification des entités relativement à un modèle défini constitue ainsi la condition néces- saire au fonctionnement des métadonnées ainsi produites comme véhicule de sens à travers les contenus et leurs utilisations.

Les outils conçus pour la réalisation de cette tâche reposent donc sur la capacité à sélectionner les mentions textuelles susceptibles de constituer des métadonnées de document et à identifier les entités auxquelles elles réfèrent, étant donné un modèle et un ensemble d’instances préalablement constitués. Ces deux composants, destinés à automatiser la tâche d’enrichissement des contenus, correspondent aux méthodes d’Extraction d’Information et d’Annotation Sémantique présentées dans les chapitres 2 et 3. Au niveau plus spécifique de la tâche d’identification, les travaux relatifs à la Population de Bases de Connaissances et au Liage d’Entités évoqués au chapitre 3 proposent des orientations méthodologiques permettant la définition d’une approche complète. Il est utile d’observer que l’identification dans les contenus de l’AFP peut en partie s’appuyer sur les règles rédactionnelles relatives aux mentions d’entités suivies par les journalistes ; les personnes et organisations en particulier sont systématiquement mentionnées à l’aide d’un nom canonique et complet à la première occurrence dans un document, les occurrences suivantes pouvant consister en un nom de famille seul pour les personnes et un sigle ou acronyme pour les organisations. Il est par ailleurs établi que la mention d’une personne à l’aide d’un nom de famille est précédée d’un titre — M. ou Mme — et jamais d’un prénom abrégé par l’initiale. On trouvera ainsi la mention du président américain Barack Obama sous cette forme lors de la première occurrence, puis sous la forme M. Obama qui ne peut être interprétée comme référant à son épouse Michelle

Obama en vertu des règles rédactionnelles.

Afin que le processus d’identification d’entités aboutisse à la production de métadonnées utilisables dans les traitements envisagés, un formatage des résultats fournis par les outils déployés doit être réalisé. Il s’agit notamment d’effectuer les conversions adéquates du format natif de ces outils, reposant sur le langage de balisage XML, vers des formats standardisés proposés par les communautés liées au Web Sémantique et à la publication documentaire numérique. La norme

RDFa9a par exemple obtenu le statut de recommandation du W3C en 2008 et 2012 pour sa version

compatible avec le langage HTML. Elle permet l’insertion d’annotations relevant des Linked Data au sein de documents XML et de pages Web suivant le modèle RDF via un ensemble d’attributs de balise définis. La figure 4.13 illustre l’enrichissement d’un paragraphe de dépêche au format HTML, pour lequel l’attribut RDFa vocab définit le modèle de référence ; les entités forment des métadonnées avec des balises <a> et sont identifiées grâce à l’attribut RDFa resource, indiquant l’identité univoque de l’entité concernée dans le modèle. L’attribut RDFa typeof peut être ajouté afin d’indiquer la classe ontologique d’appartenance de l’entité, notamment à des fins de signalement aux moteurs de recherche. L’attribut RDFa property indique que la balise courante <a> constitue une URL liée à la ressource identifiée, spécifiée dans l’attribut HTML classique href. Le consortium IPTC propose depuis 2011 une extension spécialisée de RDFa,

Figure 4.13 : Exemple d’enrichissement de page HTML avec RDFa.

rNews10, pour l’annotation sémantique de contenus journalistiques sur le Web. Cette extension

intègre une référence au modèle conceptuel défini par l’IPTC. Un exemple d’annotation en rNews est donné à la figure 4.14.

Figure 4.14 : Exemple d’enrichissement de page HTML avec rNews.

3.3.3 Modèle et ressources

La définition et la mise à disposition d’un modèle dédié au processus d’enrichissement est né- cessaire afin de fournir un ancrage sémantique aux métadonnées qu’il s’agit d’obtenir à partir des contenus. Conformément aux différents requis de cette tâche ainsi qu’aux standards développés

9. http://www.w3.org/TR/xhtml-rdfa-primer/ 10. http://dev.iptc.org/rNews

3. Cas d’utilisation AFP 149 dans le cadre du Web Sémantique, en particulier au niveau de l’Annotation Sémantique, que nous nous proposons d’adopter, ce modèle est de nature ontologique au sens informatique du terme. Sa création ainsi que les modalités de sa population sont présentées en détail dans le chapitre 7 (section 1). Ses spécifications principales sont :

• La définition d’une taxonomie conceptuelle reflétant le domaine traité par la production de l’AFP et plus particulièrement celui des métadonnées ancrées dans ce modèle. Il s’agit en premier lieu de classes représentant les entités devant donner lieu à ces métadonnées, ainsi que des catégories employées pour la classification thématique des contenus.

• Une taxonomie conceptuelle simple, c’est-à-dire comptant relativement peu de classes et définissant un ensemble de propriétés ou relations minimal. Des classes et propriétés plus raffinées et en plus grand nombre induiraient en effet une complexité et un coût de maintenance non nécessaires étant donné le type de contenus et de métadonnées envisagés. • Une possibilité d’évolution : le modèle élaboré dans le cadre du présent travail répond à des spécifications initiales, destinées au déploiement expérimental d’un processus d’enri- chissement des contenus limité aux entités. Si celles-ci constituent les éléments informatifs centraux de la production, d’autres présentent également un intérêt non négligeable dans des perspectives d’exploitation comparable et doivent pouvoir être intégrés au modèle d’an- crage des métadonnées lors de développements à venir. Il s’agit notamment des événements ainsi que des fonctions existant en tant que relations entre personnes et organisations, trai- tés sur le même plan que les entités nommées dans les contenus textuels par de nombreux travaux en Extraction d’Information. L’intégration de ce type d’information au modèle défini ici doit ainsi être rendue possible par le formalisme adopté. Le langage OWL est considéré dans cette optique comme adéquat de par ses possibilités d’expression et de manipulation des axiomes ontologiques.

• Un périmètre de données adapté aux contenus et au métier de l’agence : la population de l’ontologie adoptée comme modèle doit correspondre à un ensemble d’entités dont la notoriété et l’importance au niveau de l’actualité et des domaines traités sont considérées comme pertinentes par les journalistes. Plutôt qu’un recensement visant à une exhaustivité dont les critères de satisfaction seraient difficilement formulables, cette population vise davantage l’adéquation à ces critères de pertinence, ramenant sa taille à des quantités de l’ordre de plusieurs milliers. À titre de comparaison, les ensembles de données généralistes mis à disposition par le réseau des Linked Data, tels que DBpedia et Wikipedia, peuvent compter plusieurs centaines de milliers d’entités ; les données publiées par le NYT sur ce réseau correspondent quant à elles à environ 10 000 entités, de types comparables à ceux envisagés pour les métadonnées destinées à enrichir les contenus AFP (cf. section 1.2). Muni de ces spécifications, le modèle ainsi mis à disposition dans la chaîne de production de l’agence tient lieu de ressource référentielle spécifique à l’enrichissement des contenus en métadonnées et peut ainsi être désigné comme le référentiel de métadonnées de l’AFP, nommé AMO (AFP Metadata Ontology). Son caractère ontologique peut être plus ou moins mis en avant selon les traitements et la place qu’ils accordent à sa structure conceptuelle, par opposition à une valorisation plus directe de l’ensemble de données qui y sont rassemblées sous forme d’instances.

Population et maintenance du référentiel de métadonnées Afin de refléter les contenus

produits par l’AFP, le référentiel de métadonnées fait l’objet d’une population, autrement dit d’une définition d’un ensemble d’instances permettant d’ancrer les métadonnées potentielles. Cette population peut s’envisager selon deux axes :

• Par lot, de façon statique et périodique : les entités identifiées par l’Annotation Sémantique de contenus archivés peuvent être régulièrement extraites et proposées comme nouvelles entrées du référentiel. Des groupes d’entités importées de ressources existantes, considérées comme pertinentes à l’égard des spécifications de domaine de l’AFP, peuvent également donner lieu à une population régulière.

• Au fil de la production : l’Annotation Sémantique menée sur les contenus pour leur enri- chissement simultanément à leur production identifie de façon constante des entités qui peuvent être proposées comme nouvelles entrées du référentiel.

Dans les deux cas, l’ajout d’entrées au référentiel nécessite au préalable de déterminer si les entités identifiées dans les contenus font déjà l’objet d’une instance du référentiel ou si une nouvelle entrée doit être créée.

La population du référentiel de métadonnées, notamment au fil de la production, ainsi que les éventuelles extensions et modifications apportées au modèle donnent lieu à une nécessaire activité de maintenance pour laquelle un service d’administration doit être envisagé. Cette admi- nistration est spécifiquement concernée par les éléments remontés par l’enrichissement au fil de la production, pouvant donner lieu à de nouvelles instances du référentiel.

Ressources Le référentiel de métadonnées est destiné à la couverture des éléments considérés

comme les plus pertinents pour la description des contenus de l’AFP. Il constitue ainsi une cible des traitements, à partir desquels les éléments informatifs devant donner lieu à des métadonnées lui sont associés. L’ensemble des entités mentionnées dans les contenus textuels n’est cependant pas nécessairement limité à la population du référentiel en tant qu’il peut dépasser son cadre de sélection fondé sur la pertinence. Afin d’identifier les entités mentionnées dans ces contenus, avant d’évaluer leur adéquation au statut de métadonnées, les outils d’identification doivent disposer de ressources plus exhaustives, proposant des instances en nombre et diversité à même de couvrir de façon maximale la production de l’AFP. Cette configuration correspond à la mise en œuvre de l’Annotation Sémantique et aux ressources correspondantes, présentées au chapitre 3. Il découle de cette coexistence entre ressources génériques employées par les traitements et référentiel cible la duplication dans ce dernier d’un sous-ensemble d’éléments des premières. On peut observer que la population du référentiel peut également jouer un rôle, parallèlement aux ressources génériques, dans le processus de sélection et d’identification : les informations et connaissances qu’il encode pour chaque instance correspondant à des métadonnées dans des contenus déjà traités peuvent en effet intervenir en tant qu’éléments de contextualisation supplémentaires pour la résolution des divers problèmes posés par la tâche d’identification.

Linked Data Les objectifs liés à l’enrichissement des contenus de l’AFP sont en partie définis

par le cadre proposé par le Web Sémantique. Les métadonnées obtenues à partir de la production ainsi que le référentiel correspondant s’inscrivent également dans ce cadre en tant que tels : leur conformité avec les standards du Web Sémantique rend possible leur publication sous la forme d’ensemble de données sur le réseau des Linked Data, de façon comparable à d’autres acteurs notoires de l’information et du Web, tels que le NYT.

Les éléments de cas d’utilisation et de méthodologie présentés dans ce chapitre font l’objet de présentations détaillées dans la suite de ce mémoire. L’approche proposée pour l’identification des entités nécessaire à l’établissement de métadonnées est décrite dans le chapitre 5, aux côtés des

3. Cas d’utilisation AFP 151 différents ressources employées dans sa mise en œuvre. Le chapitre 6 est consacré au système conçu selon cette approche et donnant lieu au module d’enrichissement répondant au besoin formulé par l’AFP. Le référentiel de métadonnées ainsi que les différents aspects de sa population sont abordés au chapitre 7, qui présente et évalue également un certain nombre d’objectifs applicatifs visés par l’enrichissement de contenus.

Chapitre 5

Approche de l’identification d’entités

dans les contenus textuels de l’AFP

Avoir un système borne son horizon ; n’en avoir pas est impossible. Le mieux est d’en posséder plusieurs.

Raymond Queneau

En tant que généralisation méthodologique de l’Annotation Sémantique, le Liage d’Entités (chapitre 3, section 3) se présente comme le processus par lequel les entités destinées à jouer le rôle de métadonnées pour l’enrichissement sont identifiées en termes formels et relativement à des ressources établies. L’enrichissement de contenus textuels peut ainsi être vu comme l’application de l’Annotation Sémantique à un contexte d’utilisation particulier tel que celui de l’AFP, dans laquelle la méthode du Liage intervient comme composant spécifique à l’opération d’identification. Cette approche donne lieu au développement d’un système dont le composant central repose sur l’identification mais dont d’autres aspects, relatifs au présent contexte de travail, doivent également être pris en compte. Le traitement des données de l’AFP requiert en effet un certain nombre d’adaptations autour des points suivants :

• La production de l’AFP concernée par l’enrichissement consiste en contenus de genre journalistique sous la forme de données textuelles brutes, associées à un certain nombre d’éléments de description au niveau des documents, tels que présentés au chapitre précé- dent (chapitre 4, section 2). De telles données impliquent plusieurs niveaux de traitements dont l’interaction peut s’avérer problématique.

• L’apport du système développé réside notamment dans son aspect automatique, qui porte sur l’ensemble des sous-tâches essentielles liées à l’enrichissement : sélection des éléments destinés à constituer des métadonnées et identification des entités sous-jacentes.

• Les ressources associées au système développé doivent correspondre à une couverture thématique adéquate au vu des domaines traités par l’AFP, autrement dit l’actualité généra- liste. Formellement, elles doivent se conformer aux standards du Web Sémantique afin de garantir l’adéquation des contenus enrichis au paradigme de publication associé.

Ce chapitre propose une description de l’approche adoptée pour l’élaboration d’un système d’identification appelé Nomos, dont le fonctionnement et le processus de développement seront abordées dans le chapitre suivant. Les caractéristiques de l’approche considérée ici tiennent d’une part aux emprunts techniques et méthodologiques qu’elle effectue, notamment au niveau de

l’Annotation Sémantique et du Liage d’Entités, et d’autre part à un déploiement concret, déterminé par le cas d’utilisation AFP. Les contributions dérivant de cette approche sont les suivantes :

• Intégration des propositions à l’état de l’art issues des travaux en Liage d’Entités à l’Anno- tation Sémantique.

• Traitement de données en français : les systèmes d’Annotation Sémantique et de Liage tels que ceux présentés au chapitre 3 portent sur l’anglais et dans une certaine mesure sur le chinois dans le cas de la dernière édition de TAC ; le français ne fait l’objet d’une évaluation en Annotation Sémantique que dans le cas du système Wikimeta. Il semble donc important de souligner que les travaux présentés ici correspondent à des développements spécifiques pour le français. Le chapitre consacré au développement de Nomos pourra déterminer dans quelle mesure la tâche d’identification et ses méthodes sont spécifiques à la langue traitée. • Traitement de contenus textuels bruts : les contenus textuels bruts qu’il s’agit de traiter dans le cadre applicatif de l’AFP requièrent la mise en place d’une chaîne globale, com- prenant l’ensemble des prétraitements nécessaires à l’Annotation Sémantique. La question du repérage des éléments destinés à constituer des métadonnées au sein de ces contenus constitue en effet un problème non négligeable abordé à divers degrés par l’Annotation Sémantique et non pris en compte dans le Liage de TAC/KBP.

La section 1 de ce chapitre présente les différents aspects de l’approche adoptée, qui donnent lieu à des développements spécifiques relativement à la mise en œuvre de l’Annotation Sémantique et l’intégration du Liage. Les deux sections suivantes (2 et 3) font état des ressources utilisées par le système élaboré : il s’agit d’une part des corpus de développement et des connaissances nécessaires au processus d’identification des entités, et d’autre part des outils existants faisant l’objet d’une intégration dans la présente approche. Un système initial d’identification, développé antérieurement dans le cadre du même travail, est également présenté, notamment dans le but de déterminer les points d’amélioration incombant au système Nomos.

1

Reconnaissance et identification d’entités : une approche jointe

pour la production de métadonnées à partir de contenus textuels

bruts

1.1 Reconnaissance de mentions d’entités