• Aucun résultat trouvé

Contraintes fonctionnelles et pratiques pour des données d’entreprises liées

Les modalités de production et de gestion des DE sont fortement conditionnées par les CMS (abré- viation du terme anglais Content Management System, soit « système de gestion des contenus »), outils principaux destinés au traitement de l’information dans les organisations. Les développe- ments d’ingénierie chargés de mettre en œuvre les technologies dites sémantiques dérivées du paradigme du Web Sémantique doivent adapter les CMS afin d’y intégrer les fonctionnalités as- sociées telles que la référence aux schémas définis pour une organisation donnée et l’annotation des contenus à l’aide d’éléments informatifs ancrés dans ces schémas.

Il s’agit autrement dit d’introduire le principe de l’enrichissement à l’aide de métadonnées dans le processus de production documentaire, parallèlement à la gestion générale de l’informa- tion qui peut également se présenter sous forme de données structurées, notamment dans des bases de données relationnelles. L’adaptation des CMS dans cette perspective s’accompagne néces- sairement d’un changement dans les pratiques usuelles de gestion des DE : de façon comparable à la publication documentaire connaissant un renouvellement dans le cadre du Web Sémantique, notamment par l’ancrage sémantique des contenus dans les conceptualisations appropriées, la production de DE doit prendre en compte la nécessité de leur intégration et de leur caractère partageable pour une exploitation efficace de l’information à travers l’ensemble de l’organisation considérée.

À la différence du Web, les DE relèvent d’activités et d’acteurs privés et ne partagent donc pas systématiquement son caractère libre, ouvert et non contrôlé. La production de l’information sur un mode distribué s’accompagne usuellement du maintien de schémas centralisés sous la forme de vocabulaires contrôlés, même lorsque ceux-ci migrent vers des spécifications conceptuelles plus sophistiquées que des listes d’entrées lexicales. Le processus de production intègre souvent une contrainte de correction maximale des données, notamment lors des étapes d’enrichissement à l’aide de métadonnées. L’introduction d’outils d’automatisation de la manipulation des contenus s’accompagne alors de méthodes de contrôle et de validation des résultats plus prégnantes que lors de leur déploiement dans l’espace public du Web.

Les DE constituent un champ d’application des technologies du Web Sémantique en tant qu’elles présentent des similarités de forme avec l’espace documentaire du Web, ainsi que des besoins et contraintes de fonctionnement pour lesquelles l’introduction de traitements dits sé- mantiques peut constituer une réponse adéquate. Cette analogie se concrétise surtout dans le renouvellement de la RI classique vers sa version sémantique, permettant une utilisation des DE plus sophistiquée, des mises en relation de l’information plus aisées et moins coûteuses ainsi qu’une visibilité accrue et facilitée par l’adoption du schéma de publication des Linked Data.

Chapitre 2

L’Extraction d’Information : jalon

méthodologique pour l’enrichissement

de contenus textuels

L’enrichissement de contenus textuels, placé dans le contexte du Web Sémantique au chapitre 1 de ce mémoire, correspond à un objectif de traitement de l’information reposant sur les no- tions de partage et d’accessibilité. La présentation générale du Web Sémantique a souligné le rôle structurant de l’Annotation Sémantique à cet égard : il s’agit du processus par lequel l’en- richissement de contenus à l’aide de métadonnées peut être réalisé, et nécessite à ce titre une définition méthodologique et fonctionnelle. Dans cette perspective, l’Extraction d’Information se présente comme un jalon fondamental : développée dans le champ du traitement de l’informa- tion et du traitement automatique du langage depuis plusieurs décennies, son objectif majeur de structuration de l’information en vue de la facilitation d’une exploitation automatique peut être considéré comme une formulation historique du paradigme du Web Sémantique. Elle fournit ainsi un ensemble de méthodologies et techniques permettant d’envisager la mise en œuvre de l’Annotation Sémantique, notamment en termes d’automatisation.

Un examen de la parenté existant entre Web Sémantique et Extraction d’Information ainsi que du lien méthodologique que l’on peut en dériver permettra de justifier la nécessité de l’intégration de l’Extraction d’Information dans la mise en œuvre de l’Annotation Sémantique (section 1). À la suite d’une synthèse historique du développement de l’Extraction d’Information et de sa systéma- tisation (sections 2.1 et 2.2), la structuration fondée sur la classification qui y occupe une place centrale (section 2.3) pourra être mise en regard du processus d’instanciation ontologique évoqué au chapitre 1. Les entités, qui se placent au centre de l’objectif d’enrichissement de contenus, font l’objet d’un traitement extensif en Extraction d’Information sous leur forme linguistique par le biais de la Reconnaissance d’Entités Nommées, abordée à la section 3.1. Dans la perspective d’une intégration de l’Extraction d’Information à l’Annotation Sémantique, la sémantique attribuée aux entités nommées par les méthodes de reconnaissance pourra être discutée (section 3.2) et mise en regard d’autres approches des entités tenant compte de leur aspect référentiel (section 3.3).

1

Web Sémantique et Extraction d’Information : parenté et relation

méthodologique

1.1 Définitions et périmètre analogique

La proposition de définition du Web Sémantique développée dans le chapitre 1 place au premier plan le problème de la représentation des connaissances à partir du langage naturel dans un objectif de formalisation sémantique pour la facilitation de traitements automatisés. Il a en effet été souligné dans le chapitre précédent que le déploiement du Web Sémantique requiert l’existence d’un niveau informatif formalisé se superposant aux contenus du Web — principalement des documents textuels —, et les modalités d’un tel déploiement ont été discutées. La question du passage entre niveau textuel et représentation sémantique demeure cependant prégnante puisqu’il s’agit là de l’obstacle principal à une réalisation immédiate du Web Sémantique et des modèles de publication de données qui lui sont assimilés.

Cette question occupe depuis plusieurs décennies l’Extraction d’Information (EI), qui se définit et se développe en tant que sous-domaine du traitement automatique du langage (TAL). Celui-ci, notamment dans sa composante de linguistique formelle, pose dès ses débuts le problème de l’obtention de structures non-linguistiques à partir d’énoncés en langage naturel et permettant une représentation du sens. L’EI aborde cette problématique à un niveau applicatif en proposant des moyens de structuration du langage naturel fournissant une représentation de l’information adaptée à des traitements automatiques ultérieurs, tels que la fouille de données, le résumé ou les systèmes de question-réponse, typiquement sous une forme similaire aux bases de données.

Avant de s’intéresser plus en avant à l’EI, on peut d’ores et déjà observer dans cette définition li- minaire une communauté d’objectifs avec le Web Sémantique concernant le traitement du langage naturel, qui vise dans les deux paradigmes à rendre manipulable automatiquement l’information qui s’y trouve exprimée. Au-delà de la possible analogie caractérisant le Web Sémantique et l’EI, cette dernière se présente comme le recours méthodologique venant répondre à la question du passage entre contenus textuels et représentation sémantique telle qu’elle se pose pour la mise en œuvre du Web Sémantique, c’est-à-dire pour l’Annotation Sémantique.

On peut rappeler ici l’organisation du diagramme illustrant le déploiement du Web Séman- tique (figure 1.1, p. 28) : la spécification à son niveau inférieur d’une couche données textuelles (brique « Unicode »), associées aux URI et à un balisage au format XML, correspond à l’Anno- tation Sémantique sur laquelle reposent les niveaux supérieurs. À partir de ces annotations, il est envisagé que soient constitués des inventaires de connaissances, typiquement sous forme de triplets RDF, mettant en relation des entités de diverses natures par le biais de prédicats eux aussi inventoriés. Wilks et Brewster souligne dans [WB09] que ces inventaires sont similaires au résultat attendu d’un système d’EI, chargé de repérer les entités pertinentes au niveau informatif dans des contenus textuels, de les typer et d’indiquer les relations existant entre elles. L’exemple suivant, repris à la présentation de Grishman [Gri12], illustre la démarche de l’EI ; il concerne l’extraction d’informations au sujet de personnels d’organisations, prenant et quittant leur fonction. À partir du passage suivant :

Frédéric Pierrafeu a été nommé directeur des systèmes d’information de Time Bank Inc. en 2031. Il s’est marié l’année suivante et est devenu PDG de Dinosaur Savings & Loan.

le processus d’EI cherche à produire une structure informative, illustrée par la table 2.1, qui pourra être utilisée dans des traitements ultérieurs, tels que la constitution d’un historique de ressources humaines à partir d’un grand nombre de documents comportant ce type d’informations. Un graphe RDF dérivant du même passage, obtenu par une analyse prenant place en 2032 et au

1. Web Sémantique et Extraction d’Information : parenté et relation méthodologique 51

Personne Entreprise Fonction année arrivée/départ

Frédéric Pierrafeu Time Bank Inc. DSI 2031 arrivée

Frédéric Pierrafeu Time Bank Inc. DSI 2032 départ

Frédéric Pierrafeu Dinosaur Savings & Loan PDG 2032 arrivée Figure 2.1 : Exemple de résultat d’Extraction d’Information.

Frédéric Pierrafeu

Dinosaur Savings & Loan

estPDGde

Figure 2.2 : Graphe RDF (sujet, prédicat, objet).

périmètre informatif réduit, peut être représenté par la figure 2.2. La relation entre l’EI et un tel graphe, dont la forme et la structure sont propres aux attentes formulées dans le cadre du Web Sémantique, est d’ordre méthodologique : c’est par une opération relevant de l’EI qu’il est possible de repérer dans les contenus considérés les mentions d’entités — ici, le nom de personne

Frédéric Pierrafeu, les noms d’organisations Time Bank Inc. et Dinosaur Savings & Loan — ainsi

que la réalisation surfacique et linguistique des prédicats par lesquels elles sont mises en relation. Le recours à l’EI implique que l’on considère les éléments informatifs recherchés comme pré- sents dans les contenus — à la différence de méthodes s’attachant à l’inférence de connaissances implicites — et que leur organisation surfacique permet, par le biais de l’analyse adéquate, de les reconnaître au sein de ces contenus. Si l’on accepte l’idée que cette organisation surfacique résulte d’une superposition complexe de niveaux linguistiques et que le sens qu’elle véhicule est fonction de ses différents composants, l’analyse en question consiste alors en une projection inverse, par laquelle il est possible de retrouver les éléments informatifs à partir de la forme linguistique de surface.

Si cette opération ne constitue qu’une étape des traitements nécessaires à une Annotation Sémantique complète, où les entités et prédicats relevés sont identifiés en fonction de ressources sémantiques adaptées — ce qui fera l’objet d’un examen idoine dans le chapitre suivant de notre travail —, elle apparaît cependant nécessaire à sa mise en œuvre. La dimension indispensable de l’EI pour l’Annotation Sémantique requise par le Web Sémantique et plus concrètement l’en- richissement de contenus textuels se justifie d’autant plus que de tels traitements ne peuvent s’envisager sans automatisation, si l’on suit l’argumentaire proposé par Wilks et Brewster [WB09], discuté au chapitre 1 (section 1.3.2) et selon lequel il est difficilement imaginable de réaliser une Annotation Sémantique complète de façon exclusivement manuelle.