Origines : un objectif du TAL et de l’intelligence artificielle

L’EI constitue un sous-domaine du TAL et trouve à ce titre ses origines dans les théories et dé- veloppements orientés vers l’objectif de compréhension automatique du langage naturel formulé dans la seconde moitié du XXe _{siècle. L’idée d’une mise en correspondance entre données tex-} tuelles et structures sémantiques identifiées pour un domaine remonte à Harris [Har58] et peut être considérée comme une formulation originelle de l’EI telle qu’elle se présente aujourd’hui. Les travaux les plus notoires en la matière dans les années suivantes se concentrent sur la mise en œuvre d’une analyse textuelle ambitieuse reposant sur la représentation des connaissances, d’abord envisagée de façon générale.

Cet objectif du TAL renvoie à son intégration dans le champ plus large de l’intelligence artificielle (IA) et place au premier plan la problématique de dérivation sémantique à partir de données linguistiques. La compréhension visée est ainsi ramenée à la possibilité de représentation du sens véhiculé par les énoncés en langage naturel par le biais d’une formalisation permettant l’automatisation de son interprétation. C’est dans cette perspective que sont proposées, à partir des années 1960, des théories et modalités de représentation partant d’un effort de formalisation des structures de connaissances vues comme sous-jacentes au langage.

La théorie de la Dépendance Conceptuelle À la fin des années 1960, Roger Schank propose

une contribution majeure à l’IA sous la forme de la Théorie de la Dépendance Conceptuelle (Conceptual Dependency Theory, CDT) [Sch72]. Le modèle dérivant de la CDT suppose l’existence d’une base conceptuelle indépendante de la langue, rendant compte de scénarios ou de schémas d’exécution d’actions humaines. Organisée autour de primitives (objets, actions, attributs, lieu, temps), cette base conceptuelle présente des interconnexions régies par un ensemble de règles établissant les dépendances possibles entre concepts. Les structures linguistiques sont mises en correspondance avec cette base lors de la compréhension, et créées à partir d’elle lors de la géné- ration, formant ainsi des conceptualisations manipulables selon les règles de dépendance établies. La définition des unités linguistiques (noms, verbes, etc.) est ainsi formulée en termes de primitives ou de prédicats conceptuels. La CDT vise à l’extraction d’informations sémantiques à propos d’événements atomiques à partir de phrases via leur conversion au niveau conceptuel, ce qui peut être illustré par le diagramme reproduit à la figure 2.3. Plusieurs systèmes adoptant ce modèle ont

Figure 2.3 : Exemple de diagramme conceptuel de Schank (extrait de [Sab90]).

été développés, notamment à l’Université de Yale, jusqu’aux années 1980 : SAM [SA77] produit un réseau de dépendances conceptuelles entièrement instancié à partir d’un texte, usant entre autres

2. La tâche d’Extraction d’Information 55 de scripts complets pour l’explicitation des conceptualisations, c’est-à-dire contenant l’intégralité des informations associées à un scénario. La majorité des systèmes de CDT utilisent cependant des scripts incomplets, munis des conceptualisations les plus importantes ou pertinentes. L’analyse partielle ainsi menée permet l’extraction de certains éléments informatifs seulement, ce en quoi elle prédéfinit l’EI, comme le font observer Moens et De Busser [Moe06]. Le système FRUMP, également développé à Yale [DeJ77 ; DeJ82] constitue une réalisation typique de ces scripts partiels. Dans la lignée de la CDT et de la compréhension de scénarios, Lehnert propose la construction de graphes connexes d’unités (plot units) représentant la structure narrative d’un texte [Leh82].

Parallèlement aux recherches en CDT, la compréhension de textes donne lieu au système de Rumelhart ; Rumelhart [Rum77 ; Rum75] fondé sur des grammaires narratives, rendant compte du texte sous forme de structures hiérarchiques. Le « Linguistic String Project » (LSP) commencé en 1965 à l’Université de New York se tourne vers le développement de méthodes de structuration et d’accès à l’information dans la littérature scientifique et technique. L’analyse de document y est fondée sur des principes linguistiques dans une optique de démonstration de l’analyse grammaticale automatique, menant aux méthodes d’analyse de sous-langages [Sag81] et ainsi à la spécialisation en domaines.

Mais les travaux de Schank et la CDT, quoique peu implémentés dans leur totalité théorique, demeurent une influence majeure et durable dans les recherches portant sur les modalités de représentation du langage naturel pour un traitement automatique.

La théorie des cadres Les méthodes de représentation des connaissances fondées sur les cadres

(frames) constituent un courant important dans la lignée de la CDT. Formulée explicitement par Minsky en 1975, la notion de cadre s’inscrit dans le champ des structures de représentation des connaissances pour l’IA. Elle se traduit par des structures de données — les cadres — correspondant à des situations stéréotypées, pour lesquelles chaque cadre enregistre les propriétés des entités, actions ou événements pertinents. Un cadre possède ainsi un certain nombre de champs destinés à être remplis par une valeur, qui peut consister en une référence à un autre cadre. Les cadres disposent de valeurs par défaut pour le remplissage des champs, du principe de l’héritage des valeurs de champs entre cadres, ainsi que de la possibilité d’obtenir une valeur par application dynamique d’une procédure. Un ensemble de cadres avec relations mutuelles définit un réseau sémantique de cadres.

De nombreux systèmes d’EI, développées au cours des années suivantes dans le cadre d’une identification plus précise de cette tâche, reposent sur la structure des cadres. Ceux-ci se pré- sentent en effet comme un mode de représentation largement utilisé et ne se limitant pas à l’EI, comme en témoigne le projet de ressource lexicale FrameNet [BFL98] qui emploie la structure conceptuelle des cadres, ainsi que la conception du langage ontologique OWL et les logiques de description de façon générale, pour lesquelles les cadres constituent une base paradigma- tique [Gra+08].

Ce premier mouvement vers l’EI, que l’on peut circonscrire à ces différentes théories et mises en œuvre, donne lieu, de la fin des années 1970 aux années 1980, à la conception de systèmes génériques. Ceux-ci se caractérisent par une attention portée de façon privilégiée sur un fondement théorique et linguistique, devant garantir par des représentations adéquates une forme de compréhension automatique du sens. L’EI en tant que discipline y trouve de premières réalisa- tions, mais l’idée de collecter des informations selon des structures définies par domaine reste un moyen de démonstration des capacités des systèmes mis au point plutôt qu’une tâche circonscrite et envisagée en tant que telle. Comme cela est rappelé par Poibeau et Nazarenko [PN99], de tels

systèmes, reposant sur des structures de nature logico-conceptuelles destinées à formaliser l’information contenue dans l’ensemble d’un texte et souvent conçus indépendamment du domaine, donnent lieu à des représentations d’une complexité peu opérationnelle. Le fondement linguistique, logique ou cognitif dominant les recherches de cette période tendent donc à réaffirmer le problème de la relation entre langage naturel et sens, sans permettre de dégager de méthodes manifestement adéquates pour sa compréhension et son implémentation informatique.

Dans le document Identification automatique d'entités pour l'enrichissement de contenus textuels (Page 55-57)