• Aucun résultat trouvé

Partie 1 : Positionnement et état de l’art

5.2 Analyse linguistique des textes

5.2.1 Les niveaux d’analyse linguistique

Pour comprendre un élément textuel (texte, phrase, proposition, mot ...), il faut combiner le sens des unités de taille inférieures. Le but d’une analyse linguistique est de montrer ce que sont les mots. Que signifient-ils ? Comment se combinent-ils pour former la phrase ? Et, par ailleurs, comment calculer le sens d’une unité plus grande ?

Dans notre cadre de travail, nous nous basons uniquement sur la langue écrite (l’ana- lyse des sites web des entreprises) ce qui implique que les entités les plus petites que nous allons étudier sont les mots. En conséquence, l’analyse de notre corpus textuel (site web des entreprises) peut se rapporter à quatre niveaux :

L’analyse morpho lexicale : qui se préoccupe de la structure des mots.

L’analyse syntaxique: étudie les règles liant les unités linguistiques entre elles et contrôle la bonne formation de la phrase.

L’analyse sémantique : qui s’intéresse au sens des phrases considérés individuel- lement.

L’analyse pragmatique: définit un contexte autour de chaque phrase. 5.2.1.1 L’analyse morpho-lexicale

Elle a comme objectif d’identifier les mots du texte (simples, composés, noms propres, abréviations) et leurs traits (genres, nombre, mode, temps etc.). Elle repré- sente également l’étude des règles de combinaison des morphèmes (unités minimales de sens). En pratique dans le cadre de traitement automatique de la langue naturelle, l’analyse morpho lexicale consiste en une succession des étapes suivantes :

1. Segmentation : découpage du texte en phrases puis en mots distincts (Toke- nisation).

2. Lemmatisation : elle consiste à associer un lemme à chaque mot du texte. c’est la forme canonique d’un mot qui regroupe les différentes formes que peut revêtir un mot : le genre, le nombre, la lexion, etc.

3. Etiquetage : identifier la bonne catégorie morpho-syntaxique (nom, verbe, ad- jectif, etc.) des mots selon le contexte.

Chacune de ces trois étapes est très importante car elle conditionne le contexte du mot. En effet un même mot qui s’écrit de la même façon peut avoir plusieurs inter- prétations différentes. Considérons par exemple les deux phrases suivantes :

Phrase 1 : Une entreprise a le produit. Phrase 2 : Elle l’a produit.

Une analyse morpho-syntaxique avec l’outil TreeTagger1

donne le résultat suivant

1. http ://perl.linguistes.free.fr/ telechargements.html

C’est un outil pour l’annotation grammaticale de données textuelles, par l’association à chacun des mots partie du discours son genre : noms, verbes, adj, etc et son lemme. Cet outil a été développé par HELMUT SCHMID dans le cadre du projet " TC " à l’institut de Linguistique informatique de l’Université de Stuttgart. TreeTagger a été utilisé avec succès pour différentes langues : allemand, anglais, français, italien, chinois. Il est fondé sur un algorithme d’arbre de décision pour effectuer l’analyse grammaticale.

5.2. Analyse linguistique des textes 49 (table 5.1 : La même forme (produit) qui s’écrit de la même façon dans les deux

Mot Catégorie Grammaticale Lemme

Une DET :ART un

entreprise NOM entreprise

a VER :pres avoir

le PRO :PER la/le

produit NOM produit

. SENT .

Elle PRO :PER la/le

l’ PRO :PER la/le

a VER :pres avoir

produit VER :pper produire

. SENT .

Table5.1 – Analyse Morphosyntaxique des deux phrases "Une entreprise a le pro- duit" et "Elle l’a produit"

phrases donne lieu à deux interprétations grammaticales différentes. Dans la pre- mière phrase, il a indiqué le mot produit comme un (nom). Tandis que dans la deuxième phrase il a indiqué le mot produit comme un verbe (ver :pper).

5.2.1.2 Analyse syntaxique

L’objectif de cette étape est de structurer une chaîne d’unités lexicale en unités syntaxiques (syntagmes) et de déterminer comment les mots se combinent pour former des syntagmes puis des propositions et enfin des phrases correctes. C’est aussi la procédure permettant de décider si une phrase appartient ou non à un langage. Souvent le résultat de l’analyse syntaxique est représenté sous une forme hiérarchique (figure5.1: Pour tester si une phrase est correcte, on doit trouver une application des règles d’une grammaire qui l’engendre. Une grammaire est composée de :

– Un vocabulaire terminal, l’alphabet sur lequel est défini le langage.

– Un vocabulaire non terminal qui n’apparait pas dans les mots générés. Un symbole non terminal désigne une catégorie syntaxique.

– Un ensemble des règles de réécriture ou de production.

– Un symbole de départ. C’est à partir de ce symbole non terminal que l’on commencera la génération des mots au moyen des règles de la grammaire. Par exemple la grammaire suivante valide la phrase une entreprise a le produit : S −→ N P, N V N P −→ DET, N V P −→ V, N P DET −→ une N −→ entreprise V −→ a

Figure 5.1 – Arbre syntaxique de la phrase "une entreprise a le produit" Avec S : sentence (phrase) ; NP : noun phrase (syntagme nominal) ; VP : verbal phrase (syntagme verbal) ; DET : déterminant ; N :nom ; V : verbe

DET −→ le N −→ produit

5.2.1.3 Analyse sémantique

Cette étape essaie de donner un sens aux phrases du texte. Dans cette phase, les phrases sont traitées de manière isolée. Pour déterminer le sens d’une phrase, une première étape va se préoccuper du sens de chacun des mots constituant la phrase. Ensuite à l’aide des informations fournies par l’analyse syntaxique, le sens complet de la phrase pourra être déduit grâce à la connaissance des relations existant entre les mots. Pour ce faire une représentation du sens est nécessaire :

Représentation logique du sens

Il est possible de symboliser le sens d’un énoncé par une représentation logique à l’aide de prédicats possédant une syntaxe simple et dépourvue d’ambigüité ; ainsi la phrase l’entreprise a le produit peut être représenté comme suit :

∃x∃y, entreprise(x) ∧ produit(y) ∧ avoir(x, y)

De ce point de vue, déterminer la signification d’une phrase P d’une langue revient à établir les conditions de vérité de P dans l’ensemble des mondes possibles. Cette méthode a été introduite par Richard Montague en 1974 pour analyser un fragment de l’anglais. Un des principes gouvernant la grammaire de Montague (MG) est le principe de compositionnalité : à chaque règle syntaxique correspond une règle sémantique. Son analyse procède de la façon suivante : chaque phrase de la langue naturelle est traduite en une formule logique, toujours selon le parallélisme entre la syntaxique et la sémantique. Cette représentation logique de la phrase est ensuite évaluée dans l’ensemble des mondes possibles. En effet pour déterminer la signification d’une telle expression complexe dans une telle langue, on doit passer par la dérivation syntaxique (arbre). Malheureusement, la MG se heurte à certains problèmes d’interprétations des pronoms au-delà des limites de la phrase,

5.2. Analyse linguistique des textes 51 et en particulier, au problème des relations anaphoriques entre les pronoms et les descriptions définies. Pour cette raison au début des années 80, certains travaux ont cherché des voies alternatives à l’approche montagovienne, parmi lesquelles on trouve la théorie des représentations discursives (DRT).

Représentation avec la DRT

La DRT est une théorie de représentation du discours introduit par Kamp [90] qui traite dynamiquement les enchaînements de phrases à l’intérieur d’un discours et représente les phrases qui ne pouvaient être traduites par la logique des prédicats du 1er ordre. La DRT permet une représentation systématique et compositionnelle du discours. Elle traite la représentation de phénomènes linguistiques courants mais complexes comme la résolution d’anaphores, les phrases conditionnelles et l’emploi de quantificateurs.

Dans ce qui suit, on étudiera un exemple qui traite le problème de résolution de l’anaphore par les référents accessibles dans la Structures de Représentation du Discours (DRS). Si on considère la phrase "L’entreprise fabrique des roulements. Elle a une bonne réputation", sa représentation donne :

x, y, z entreprise (x) roulements (y) fabrique (x, y) z = ? avoir-une-bonne-réputation (z) Par résolution anaphorique on obtient :

x, y, z entreprise (x) roulements (y) fabrique (x, y) z = x avoir-une-bonne-réputation (z)

Ces différents phénomènes et formalismes d’interprétation et de représentation de la sémantique n’ayant que peu de répercussions sur notre travail, nous ne nous attardons pas beaucoup sur ces questions.

5.2.1.4 Analyse pragmatique

Pour la bonne compréhension d’un texte, un lecteur a besoin de connaître un certain nombre d’éléments qui ne sont pas exprimés explicitement dans le texte : connaissances relatives à la culture générale, au sujet abordé, etc. L’enchainement

des étapes précédentes conduit parfois à des ambigüités qu’il est possible de suppri- mer en utilisant l’analyse pragmatique. Cette dernière, permet d’étudier le lien entre les unités linguistiques et leur contexte. Ainsi la phrase Là, tu tournes à droite ne peut avoir un sens complet et correct que si le lecteur possède une vision pragmatique claire sur la position de la personne en question.