• Aucun résultat trouvé

Partie III. Antelope : une plate-forme pour extraire les sens du texte

B. Diversité des éléments à analyser

Commençons par détailler les tâches élémentaires qu’un programme informatique peut effectuer et les informations qu’il peut associer, lors de l’analyse d’un ensemble de textes, à chacun de ses éléments : mot, phrase, paragraphe, document, en allant jusqu’au corpus dans sa globalité.

1.

Mot

Le mot est l’élément atomique constituant un texte. Plusieurs opérations sont possibles sur un mot : correction orthographique, calcul de sa langue, de sa racine, d’une étiquette morphosyntaxique, de sa flexion, de sa forme de base, de sa valence…

Énumérer les sens possibles d’un mot est un problème discret33 qui se résout par rapport à un lexique de référence. La notion de lexique apparaît donc dès l’analyse des constituants les plus fins des textes ; nous la préciserons dans la partie IV, consacrée aux données linguistiques.

2.

Phrase

L’analyse de la phrase vise à déterminer les relations que les mots entretiennent entre eux. Des ambiguïtés existent sur ces relations, par exemple sur les rattachements prépositionnels. Plusieurs modèles de représentation sont possibles, par exemple sous forme d’arbres de constituants ou d’arbres de dépendances syntaxiques.

Plusieurs mots peuvent se regrouper au sein d’expressions plus ou moins figées. Certaines langues compositionnelles forgent des mots composés complexes (par exemple, en allemand,

Donaudampfschifffahrtsgesellschaft = Société de navigation à vapeur du Danube).

Plusieurs prédicats peuvent être énoncés dans une même phrase, reliés entre eux par des relations du discours ou des conjonctions. Une prédication peut être exprimée avec des mots ordonnés selon un ordre canonique (sujet, verbe, complément). Toutefois, les textes sont rarement écrits aussi simplement : la présence de relatives, de constructions passives, de verbes à montée ou à contrôle… permettent des constructions arbitrairement complexes.

La présence de plusieurs mots dans la phrase (et dans les phrases voisines) crée un contexte qui aide à identifier le sens d’un mot parmi ceux qui sont possibles. Des algorithmes de désambiguïsation peuvent alors exploiter les différents indices présents.

Une phrase peut se représenter sous forme de graphe syntaxique (de surface ou profond) ou de graphe sémantique, en fonction de la précision de l’analyse qu’on souhaite effectuer.

33 Problème discret, du moins en TAL, où la désambiguïsation revient à choisir l’un des sens parmi ceux

proposés sous forme d’une liste finie dans un lexique de référence. La polysémie semble être un problème universel, dans la mesure où ce phénomène se retrouve dans toutes les langues, et concerne en premier des mots du quotidien. (Victorri, Fuchs, 1996) propose, dans le cadre d’une conception dynamique et continue de la construction du sens, une explication des mécanismes cognitifs permettant à un locuteur humain de traiter avec la même facilité les mots polysémiques et les mots monosémiques.

3.

Document

La représentation d’un document étend et généralise celle de la phrase. Les anaphores intra- phrastiques étant relativement rares34, elles ne sont généralement pas explicitées dans les modèles de représentation de la phrase. Au niveau du document, il devient indispensable de prendre en compte les informations concernant les anaphores (pronominales, nominales, événementielles…). Les composantes connexes du graphe des anaphores constituent des chaînes de coréférence concernant une entité ou un événement particulier. D’autres types d’extractions de connaissances sont envisageables au niveau du document : résumé, opinions, thématiques…

4.

Paragraphe

Segmenter un document en phrases et en mots n’est pas une opération triviale (Grefenstette, 1994). Un niveau intermédiaire entre la phrase et le document est le paragraphe, un segment de texte compris entre deux alinéas. Le paragraphe est un élément de structure essentiel du document : un changement de paragraphe marque la composition du texte en termes d’interlocution ou le désir de l’auteur de mettre en avant un énoncé ou une idée.

Il peut s’agir d’un titre ou d’un élément d’énumération (un style est alors associé au paragraphe) ou d’un ensemble de phrases ; dans le premier cas, la présence d’un style permet de connaître l’importance du paragraphe ; dans le second cas, la présence d’un nombre suffisant de mots permet de calculer sa thématique.

Les paragraphes sont eux-mêmes organisés au sein d’éléments de structure, tels que des sections ou parties d’un document.

5.

Corpus

Disposer d’un grand nombre de documents dans un domaine donné, partageant un certain degré d’homogénéité, offre un volume « suffisant » de texte qui permet de tirer parti des hypothèses distributionnelles (loi de Zipf et de Harris). L’exploitation endogène d’un corpus permet d’extraire les principaux termes du domaine (en effectuant une extraction terminologique), d’effectuer des opérations d’apprentissage automatique (classification…) ou encore de regrouper automatiquement des documents en sous-ensembles thématiques (appelés clusters en anglais).

6.

Types de corpus analysés avec Antelope

Antelope a déjà été concrètement utilisée pour analyser des documents issus de corpus de natures variées, en anglais et en français, et de qualité rédactionnelle variable. Nous présentons ici rapidement la nature de ces corpus.

a)

Articles encyclopédiques

Nous avions initialement concentré nos travaux sur des articles encyclopédiques ; ces documents sont en effet généralement bien écrits et factuels, et se prêtent donc bien à un traitement automatique. Nous avons notamment effectué des analyses sur la Wikipédia française et sur la

Simple Wikipedia. Cette dernière est particulièrement destinée aux enfants anglophones et aux

adultes dont l’anglais n’est pas la langue maternelle ; elle est écrite avec une grammaire et un champ

22 lexical simplifiés, ce qui en rend la lecture en principe plus simple pour le public visé. Nous formulons l’hypothèse que cette encyclopédie a une caractéristique intéressante pour le TAL : si est elle plus simple à lire pour des humains (par rapport à l’English Wikipedia complète), elle devrait être aussi plus facile à traiter pour un analyseur syntaxique. D’autre part, elle compte moins d’articles, ce qui autorise une analyse d’ensemble plus rapide35.

b)

Articles de presse

Antelope a été utilisée dans le cadre du projet SCRIBO, présenté en détail au chapitre VI.A, page 132. L’un des objectifs de ce projet est l’extraction d’information (personnes, lieux, organisations) à partir d’articles de presse en français ou en anglais, émanant notamment de l’Agence France-Presse. SCRIBO utilise des annotateurs en architecture UIMA, et représente les informations avec des standards du Web sémantique.

c)

Avis de consommateurs

Antelope est le moteur d’Ubiq, une solution de gestion d’e-réputation présentée au chapitre VI.D, page 141. Ubiq extrait des informations à partir d’avis de consommateurs, et détermine ce qui se dit autour d’une marque donnée et de ses concurrentes, pour répondre aux questions suivantes : quels sont les sujets dont parlent les consommateurs, de quoi sont-ils satisfaits ou mécontents, et quelles sont leurs attentes ? En regroupant les informations d’une même période temporelle, Ubiq détecte aussi les tendances, et permet d’anticiper des alertes telles que des risques sanitaires ou juridiques. Ces avis sont collectés soit à partir du Web public (notamment de blogs et de forums), soit à partir d’emails envoyés spontanément à la marque ou de retranscription de conversation téléphonique. Ces documents sont donc parfois très mal écrits, et font l’objet d’une correction orthographique avant analyse.

d)

Offres d’emplois et CV

Antelope a aussi été utilisée avec succès pour l’analyse de documents dans le domaine des Ressources Humaines, offre d’embauche ou Curriculum Vitae de candidat. L’adaptation d’Ubiq au domaine RH est présentée au chapitre VI.E, page 146.

Antelope permet une extraction fine des postes, compétences, talents, diplômes, lieux, langues, etc. Les résultats obtenus autorisent ensuite à trouver les offres d’emploi correspondant le mieux à un CV donné ou, d’une façon symétrique, de filtrer les profils de candidat pour retenir ceux qui sont les mieux adaptés à une offre.

C. Modèle unifié des niveaux de représentation