La normalisation des représentations de texte

Caractérisation des différents attributs

4.3 La normalisation des représentations de texte

Ainsi que nous l’avons signalé au début du §4, il est important que les représentations de texte soient comparables, donc normalisées. Les principaux éléments constitutifs des UTs étant les graphes représentant les propositions des textes, cet effort de normalisation porte essentiellement sur eux, donc sur la représentation sémantique des textes.

Un des premiers aspects de cette normalisation réside tout simplement dans le découpage en propositions. Nous nous appuyons pour ce faire sur des critères essentiellement syntaxiques. Les graphes conceptuels composant les attributs contiennent chacun un concept prédicatif¹ désigné par un marquage spécifique comme le prédicat principal de la proposition qu’il représente. Ce prédicat correspond en pratique au verbe de la proposition. Les concepts qui lui sont liés peuvent eux-mêmes être précisés par des caractéristiques. Celles-ci, apparaissant dans la proposition sous la forme d’adjectifs, sont également des concepts prédicatifs. Cependant, nous ne construisons un graphe indépendant ayant la caractéristique concernée comme prédicat principal que si l'accent est mis sur cette caractéristique dans le texte. Cela revient à trouver une proposition portant sur l’explicitation de cette caractéristique, comme c’est le cas pour le graphe C1 de l’UT TentativeAssassinat de la figure 5.5. Ce graphe représente alors un état. Autrement, on se contente de lier le concept et sa caractéristique par une relation de type caractéristique. Le concept [Heures: {*} *x15] du graphe D1 de l’UT Hôpital ci-dessus en est un exemple.

Les figures de style telles que la métonymie ou la métaphore constituent un autre problème important du point de vue de la normalisation des représentations de texte. Dans le cas de la métonymie2, il est ainsi nécessaire d’adopter systématiquement la forme la plus complète. La proposition ‘ce livre est incompréhensible‘ doit ainsi avoir la même représentation (dans un contexte général, supposé être le cadre de modélisation des connaissances sémantiques) que la proposition ‘le texte de ce livre est incompréhensible‘, cette représentation faisant apparaître l’entité ‘texte’ qui n’est pas explicitée dans la première proposition. Pour les métaphores, il convient dans le même esprit de se ramener à l’entité cible afin d’avoir toujours la même référence. La proposition ‘le moteur a rendu l’âme‘ doit donc avoir une représentation identique à celle de la proposition ‘le moteur a cessé définitivement de fonctionner‘, la référence à adopter étant celle de l’arrêt du fonctionnement. Nous renvoyons le lecteur au §4.1 pour une discussion sur la possibilité seulement partielle de procéder à une normalisation pour la métonymie et la métaphore. Les autres figures de style telles que la litote, l’hyperbole ou l’ironie sont plus rares dans le type de textes que nous avons considéré et ne seront donc pas abordées.

Le dernier point relatif à la normalisation des représentations des texte concerne le niveau de description à adopter. Grâce à l’opération d’expansion des types de concept, un concept d’un graphe conceptuel peut être remplacé par le graphe de définition de son type. À l’inverse, si un sous-graphe correspond à la définition d’un type de concept, il peut être remplacé par un concept ayant ce type grâce à l’opération de contraction de type. Suivant la façon dont un texte est formulé, une même notion peut apparaître directement sous la forme

1 Nous ferons ici l’hypothèse simplificatrice consistant à définir de façon statique des types de concept prédicatif. En pratique, ce sont les types de concept s’instanciant en langue sous la forme de verbes ou d’adjectifs. On pourra se reporter à [Sabah 78] pour une analyse faisant apparaître cette notion de prédicat de façon plus dynamique.

2 Le terme ‘métonymie’ doit être pris ici dans son sens le plus large. On ne différencie pas ainsi la métonymie stricte de la synecdoque.

Chapitre 5 - Les représentations de texte 135 d’un seul mot ou bien au travers d’une paraphrase, équivalente à sa définition. Les propositions 6 et 7 du texte de la figure 5.2 offrent l’exemple d’une telle diversité d’expression. La proposition 7 fait apparaître de façon directe l’action de poignarder tandis que la proposition 6 n’y fait référence que par sa définition : enfoncer un objet pointu dans le corps d’un homme. À supposer que l’on compare deux UTs dont l’une contient un graphe comportant explicitement le type de concept Poignarder tandis que l’autre abrite un graphe où n’apparaît que sa définition, on devra trouver que ces deux graphes sont équivalents.

La solution en apparence la plus directe pour résoudre ce problème consiste à ramener tous les graphes des UTs à un niveau de représentation commun. En pratique, cela suppose que les définitions des types de concept ne comportent aucune circularité. Chaque type de concept doit être défini en ne faisant appel qu’à des types de concept appartenant à des niveaux strictement supérieurs au sien. Cette définition par niveau suppose l’existence d’un niveau initial, constitué d’un ensemble de primitives sémantiques. Ce niveau initial constitue de fait un cadre de référence privilégié pour comparer les graphes. Pour se ramener à ce cadre, il faut réaliser pour chaque graphe d’une UT des expansions de type successives pour ses différents concepts jusqu’à ne plus avoir que des types de concept appartenant à ce niveau.

L’opération d’expansion d’un type de concept est cependant assez coûteuse en termes de complexité algorithmique puisqu’il faut toujours vérifier si tout ou partie du graphe de définition s’apparie avec le graphe dans lequel s’effectue l’expansion. L’utiliser avec un tel systématisme risque donc d’être trop pénalisant en regard de contraintes minimales de performance. Par ailleurs, nous verrons dans le chapitre suivant que l’agrégation des graphes s’accompagne d’une généralisation des concepts qu’ils contiennent tout en conservant les concepts d’origine. Par définition, dans un graphe expansé de façon maximale comme nous le suggérons ci-dessus (les graphes ne contiennent alors plus que des types de concept ‘primitifs’), les concepts ne sont plus généralisables puisque les types qu’ils possèdent forment le sommet de la hiérarchie des types de concept. En utilisant cette expansion, on gagne la possibilité de détecter des similarités entre graphes plus difficiles à établir mais on perd dans le même temps la dimension prototypique de ce qui est dit.

La solution que nous considérons comme la plus réaliste consiste à ne pas normaliser systématiquement les représentations de texte en se ramenant à un niveau de référence mais à reporter ces problèmes de différences d’expression sur la comparaison des graphes. Il existe en effet des moyens plus rapides que l’expansion des types de concept pour vérifier que deux graphes d’une représentation de texte ne sont pas similaires, ce qui correspond en pratique à la majorité des cas¹.

Nous adoptons la même attitude face au problème des inférences immédiates que nous avons évoqué au §3.3.2. Lors de la construction d’une représentation de texte, on n’ajoute pas de façon systématique les graphes pouvant être inférés des propositions véritablement exprimées par l’intermédiaire des graphes de définition. En revanche, lors de la comparaison de deux UTs A et B, si l’on ne trouve pas, pour un graphe de l’UT A, un équivalent au niveau de l’UT B, on vérifie si ce graphe ne pourrait pas être inféré d’un des graphes constituant déjà l’UT B. Le résultat des inférences ainsi réalisées est ensuite conservé au niveau des UTs concernées afin de ne refaire le même travail plusieurs fois. Ce procédé ne réduit pas la complexité intrinsèque du problème mais il permet de la répartir au fur et à mesure des besoins.

1 Tous les concepts d’un graphe ne jouent pas le même rôle au sein d’une représentation de texte. Le prédicat possède en particulier un statut particulier puisque la condition minimale pour que deux graphes puissent être similaires est qu’ils aient le même prédicat. C’est au niveau de celui-ci que les efforts doivent porter principalement. Pour cela, on peut se contenter d’expanser un type de concept uniquement par les types de concept de sa définition, sans se soucier de déterminer, pour une première vérification rapide, s’il existe également un appariement structurel.

136 Chapitre 5 - Les représentations de texte

Récapitulatif

Ce chapitre nous a permis d’exposer la nature précise des représentations de texte qui sont produites par l’analyse des textes et qui servent dans le même temps de support à l’apprentissage des connaissances pragmatiques. Une représentation de texte, appelée également épisode, se présente comme un ensemble d’Unités Thématiques organisé par des relations de suivi thématique. Chaque UT rassemble les propositions d’un texte relative à une même situation. Elle possède une structure en trois attributs proche de celle des schémas de la mémoire pragmatique.

À côté de la structure proprement dite des épisodes, nous avons examiné plus en détail leur contenu et nous avons discuté des moyens de le caractériser, voire de le déterminer. Notre attention s’est portée plus spécifiquement sur le contenu des UTs. Ces dernières abritent la représentation sémantique des propositions des textes, laquelle constitue le prérequis de MLK. Nous avons ainsi analysé dans quelle mesure l’obtention de ce prérequis est envisageable. Cette étude laisse apparaître que des réalisations, comme le projet MENELAS par exemple, existent dans des domaines spécifiques. Même si rien n’interdit a priori leur extension, à condition de réaliser un effort très conséquent au niveau de la modélisation des connaissances sémantiques, nous restons conscient que des représentations de texte obtenues sur une large échelle n’obéiront pas nécessairement à toutes les contraintes de normalisation que l’on pourrait espérer.

Nous faisons néanmoins l’hypothèse que la nature même du modèle de mémoire épisodique que nous proposons le rend capable de résister à la variabilité résultant de cet ‘étage’ sémantique. Par ailleurs, des travaux comme Wordnet et son prolongement pour les langues européennes, EuroWordnet [Vossen 1998], ou des travaux tels que ceux de Chibout, que nous avons plus particulièrement détaillés au chapitre 4, montrent qu’un intérêt croissant existe pour une modélisation sémantique à large échelle et que des ressources générales seront de plus en plus largement accessibles dans ce domaine.

À côté du problème des représentations sémantiques, nous nous sommes également intéressé à la façon dont la structuration interne des UTs peut être menée. Nous avons en particulier mis en évidence la possibilité d’exploiter une analyse temporelle, même fondée sur la seule recherche d’indices linguistiques, afin de mener à bien cette tâche dans un nombre significatif de cas.

Nous avons également souligné que le contenu des épisodes se doit d’être purement de nature informationnelle. Tout point de vue exprimé à propos de la dimension locutoire des textes n’apparaît donc pas dans les représentations de texte.

Enfin, nous avons abordé le difficile problème de la normalisation des épisodes. Celle-ci cherche à contrer la variabilité d’expression d’une même notion face à la nécessité de comparer des graphes lors de l’agrégation des UTs. Une action peut en effet apparaître aussi bien sous la forme d’un concept spécifique, d’une proposition rapportant sa définition ou bien encore d’une proposition issue d’une inférence immédiate répertoriée au niveau sémantique. Le coût de l’adoption d’un niveau de représentation privilégié nous a amené à préconiser l’intégration de cette normalisation directement au sein de l’opération de comparaison des graphes, ceci ayant pour avantage de ne faire intervenir les opérations de normalisation que lorsqu’elles sont nécessaires.

Chapitre 6 - La mémoire épisodique 137

Chapitre 6

Dans le document ANTHAPSI : un système d'analyse thématique et d'apprentissage de connaissances pragmatiques fondé sur l'amorçage (Page 141-144)