Formalisation : ensemble de structures paraphrastiques

5.5 Récapitulatif : les idées extraites de l’analyse

6.2.2 Formalisation : ensemble de structures paraphrastiques

Nous allons maintenant formaliser l’ensemble de structures paraphrastiques en suivant la logique des dix postulas.

Au niveau plus abstrait démuni de la syntaxe et de la morphologie, un ensemble de paraphrases ressemblerait en quelque sorte à l’ensemble de groupes de sens. La figure 6.5 ci-dessous illustre un ensemble de groupes de sens.

Figure 6.5 – Perception de l’ensemble de groupes de sens à un niveau plus abstrait, représentant un ensemble de paraphrases

La figure 6.5 bien-entendu ne ressemble à rien et c’est bien ce que nous voulons montrer. En effet, à ce niveau le plus abstrait, les sens ne sont pas ordonnés, ni tangibles, ni visibles à l’œil (Saussure les appelle « concepts » ou peut-être « la représentation sémantique » pour certains). Cette figure elle-même n’a rien d’intéressant. Or, voyons à quoi ressemblerait cette figure si chaque groupe de sens, i.e. une phrase, présente un prédicat et ses arguments (figure 6.6).

Les choses sont un peu plus intéressantes dans la figure 6.6. On y voit le lien entre le prédicat et ses prédicats dérivés, et également entre les arguments. Le plus important est dit. En effet, l’image elle-même n’est pas intéressante mais révèle déjà un principe clé à l’extraction de la paraphrase : pour extraire un ensemble

Figure 6.6 – Groupes de sens comme groupes de prédicat et ses arguments de structures paraphrastiques, on devrait commencer par identifier les prédicats dérivés.

En langage naturel, ces sens sont représentés par une combinaison entre les mots (lexique), la forme de ces mots (morphologie) et la façon dont ces mots sont agencés (syntaxe). En évoquant ce trio, nous sommes maintenant sur terre, autrement dit au niveau de surface, le niveau que le TAL peut réellement exploiter. Considérons la figure 6.7 montrant, au niveau de surface, les paraphrases possibles qui correspondent aux groupes de sens dans la figure 6.6.

Nous pouvons maintenant procéder à la fusion de la figure 6.6 et la figure 6.7. En d’autres termes, il s’agit d’un mapping de la phrase vers la structure prédicat- argument.

La Argument1(pizza royale) Argument2(nous) Prédicat(déçoit)

Argument2(Nous) sommes Prédicat-dérivé(déçus) de la Argu- ment1(pizza royale)

Pour Argument2(nous), la Argument1(pizza royale) est Prédicat-

dérivé(décevante)

Argument2(Nous) trouvons cette Argument1(pizza royale) Prédicat-dérivé(décevante)

Argument2(Notre) Prédicat-dérivé(déception) à propos de la Ar- gument1(pizza royale)

Quelle n’est pas Argument2(notre) Prédicat-dérivé(déception) quant à Argument1(la pizza royale)

Figure 6.8 – Phrases de surface étiquetées des fonctions prédicat-argument La formalisation dans la figure 6.8 s’opère au niveau de la phrase (syntaxe + lexique + morphologie) qui ne fait que refléter un niveau plus abstrait : la séman- tique représentée ici par le prédicat et ses arguments.

Cependant, ces structures devraient être plus générales en vue du traitement automatique. Nous procédons ainsi à la suppression des articles (à l’exception des pronoms possessifs en raison de leur importance sémantique), à la déflexionnalisa- tion (la transformation des formes flexionnelles en forme canonique non fléchie). Les autres éléments comme les verbes et propositions sont préservés car ils parti- cipent à la configuration de la phrase. La figure 6.9 donne une formalisation des structures paraphrastiques sous forme de prédicat-argument.

Note :

– « Argument2 » est noté « arg2 »

– « Prédicat » et « Prédicat-dérivé » sont toutes deux notées « préd ». – La valeur de l’argument1 est remplacé par X, l’argument2 par Y.

arg1(X) arg2(Y) préd(décevoir) arg2(Y) être préd(déçu) de arg1(X) pour arg2(Y) arg1(X) être préd(décevant)

arg2(Y) trouver arg1(X) préd(décevant) arg2(Y) préd(déception) à propos de arg1(X) quel ne être pas arg2(Y) préd(déception) quant à arg1(X)

Figure 6.9 – Formalisation : ensemble de structures paraphrastiques sous forme de prédicat-argument

Il est maintenant temps d’adresser la question comment extraire ces structures paraphrastiques en TAL. La partie III Implémentation propose une méthodologie d’extraction des structures paraphrastiques guidée par les résultats de nos travaux d’analyse et la formalisation présentés plus haute. Les différentes techniques seront basées sur les connaissances linguistiques.

Implémentation

Introduction

Le raison principale de l’existence de cette partie implémentation est de donner une réponse à la question soulevée par nos analyses linguistiques et leur formalisation dans la partie précédente et qui pourrait être utile en traitement automatique des langues. Le système d’extraction des structures paraphrastiques que nous allons présenter n’est qu’une mise en pratique possible de nos travaux théoriques précédemment exposés. Nous ne prétendons pas avoir créé une application en vue d’une commercialisation immédiate, ou une application opérationnelle sur des mil- lions de phrases. Loin de là, dans notre perspective, nous visons plutôt à constituer un système informatique de démonstration du point de vue du linguiste.

Nous nous sommes efforcé de réaliser un système de traitement en cascade, pas vraiment simple, mais dont la logique est facile à comprendre. Nous mettons à disposition des lecteurs, et surtout de nos collègues chercheurs ou étudiants, tous les codes du programme et les ressources utilisées dans l’annexe B, parce que nous voulons que ce système soit avant tout compréhensible, transférable, adaptable à d’autres contextes. Cependant, il n’est pas obligatoire de suivre nos méthodes à la lettre pour obtenir des résultats similaires. Comme plusieurs chemins peuvent mener à la même destination, il en va de même pour la programmation : on peut recourir à d’autres méthodes de traitement ou à d’autres ressources linguistiques, selon bien entendu les conceptions théoriques du chercheur.

Certes, c’est un système compact car il comprend seulement une centaine de pages de codes de programme, y compris les ressources linguistiques utilisées, mais il est assez complet. En effet, il comprend toutes les composantes nécessaires au bon fonctionnement du programme du point de vue à la fois technique et théorique. Ce système est réellement opérationnel pour un ensemble de quatre-vingt-douze phrases (annexe B.1).

Nous allons, dans un premier temps, esquisser le schéma général de notre sys- tème d’extraction des structures paraphrastiques en mettant en relief ses composantes principales. Ensuite, nous expliquerons un par un comment fonctionnent ces modules de traitement. Finalement, en guise de démonstration, nous allons tracer le flux de traitement sur quelques exemples dans la section « Démonstration point par point ».

Extraction des structures

paraphrastiques

7.1 Processus d’extraction

En quelques lignes, le processus d’extraction de structures paraphrastiques dans la figure 7.1 se résume comme suite. En données initiales du système il y a notre corpus. Le taggueur Labelgram dans le module de traitement 1, qui a déjà opéré sur des corpus avec succès, découpe les phrases en mots. Le module 2 prend comme entrée des phrases coupées en mots et rend en sortie des phrases candidates consti- tuant des structures paraphrastiques pour un sème donné. Ces phrases candidates sont passées au module 3 qui les découpe en « groupes de mots »1 _{ayant comme} tête des noms, pronoms, adjectifs ou verbes. Le module 4 prend ces phrases consti- tuées en chunks comme données d’entrée. Seront supprimés dans ce module 4 les 1. Nous évitions le terme syntagme car son concept ne s’applique pas dans notre travail. Le syntagme verbal, par exemple, peut être composé de verbe comme tête et de syntagme nominal. Notre approche s’inspire plutôt des arbres de dépendance de Lucien Tesnière. Ainsi, le groupe nominal complément d’un verbe constitue un groupe de mots non incorporé dans le verbe.

mots sémantiquement vides se trouvant dans les chunks. Une fois nettoyées, les phrases seront transformées en structures prédicat-argument dans le module 5.

Figure 7.1 – Processus d’extraction de structures paraphrastiques et ses composantes

Dans le document Analyse linguistique et formalisation pour le traitement automatique de la paraphrase (Page 127-139)