• Aucun résultat trouvé

Pour traiter, dans les textes en langage naturel, d’une notion aussi fondamentale que la temporalité, il est important de comprendre ce que ces textes représentent, comment ils ont été produits, et se- lon quels mécanismes ils pourront être compris par un lecteur. Pour aborder ces différents aspects, nous avons utilisé un outil d’interprétation bien connu : le triangle de référence (Ogden et Richards [1969]).

Un texte, quel qu’il soit, n’est qu’une matérialisation sous une forme particulière d’une certaine réalité, objective ou subjective. Les objets (entités, événements, faits, idées, etc.) qui existent en pensée ou en réalité sont donc exprimés selon un code qui est le langage naturel. Ogden et Richards [1969] présentent un modèle qui se situe à la croisée des chemins de la linguistique, de la philosophie et de la psychologie : le triangle de référence (Figure 3.1), aussi appelé le triangle sémiotique. Il permet d’analyser les relations entre les objets du monde, la représentation qui en est faite et les unités lexicales qui permettent de les décrire. Il est donc composé de trois dimensions, une sur chaque

3.4 Le texte au travers du triangle de référence 107

sommet, représentant respectivement le monde, le domaine conceptuel et le domaine symbolique.

Figure 3.1 : Le triangle de référence (Ogden et Richards [1969]).

Les faits ou événements (les données) ont une existence objective ou subjective dans ce que nous appellerons le monde (sommet referent). D’autre part, ces objets sont projetés dans le domaine

conceptuel dès l’instant où une personne les manipule mentalement et s’en fait une représentation

(sommet tought of reference). Pour un objet du monde réel, il peut bien entendu exister plusieurs conceptualisations différentes. Prenons l’exemple d’une voiture de sport. Un ingénieur en aura une représentation liée à l’aspect technique, le fait qu’elle est composée d’un châssis, d’un moteur et de diverses autres parties. Un pilote y associera plutôt l’idée de vitesse et de performance, alors qu’une personne soucieuse de l’environnement pensera à la pollution qu’elle engendre. Ces représentations subjectives sont souvent, de manière consciente ou inconsciente, incomplètes ou erronées par rap- port à la réalité. Cet ensemble de conceptualisations, qui correspondent à un seul et même objet du monde, peut être transposé dans le domaine symbolique de diverses manières et selon une multitude de formalismes (sommet symbol). Le formalisme le plus évident est bien entendu le langage naturel. Celui-ci se décline sous sa forme orale ou écrite, dans différentes langues et selon différents styles. En l’occurrence, nous nous intéressons principalement à l’écrit. Ce mode d’expression présente une grande variété stylistique. Pour parler de notre voiture de sport, il sera possible de rédiger une fiche technique reprenant ses spécifications détaillées, de la décrire en langue standard voire d’écrire un poème ou un roman à son sujet. Notons qu’à côté du langage naturel, il existe d’autres moyens d’ex- pression tels que les langages mathématiques, le langage binaire, la représentation sous la forme d’une base de données relationnelle ou d’une ontologie, etc.

Le temps, en tant que composant du monde, ne fait bien entendu pas exception au principe d’interpré- tation du triangle de référence. Il s’écoule selon des lois précises, est perçu d’une certaine manière, et est exprimé au moyen de mécanismes linguistiques particuliers. L’objectif des chapitres suivants est d’exposer les diverses approches qui s’intéressent aux différentes parties du triangle de référence.

Les théories linguistiques (Chapitre 4) ont pour objectif l’observation et l’explication du fonctionne- ment de la langue. Il s’agit donc d’analyser le processus de production de textes et d’informations, illustré par le cas du journaliste, au point 1 de la figure 3.2. L’analyse linguistique part donc du domaine symbolique, c’est-à-dire les textes, vers le domaine conceptuel, c’est-à-dire les théories

108 3 La notion de temps

linguistiques.

Figure 3.2 : Le triangle de référence appliqué à différents systèmes : production de texte et analyse linguistique, intelligence artificielle, extraction d’information.

Par ailleurs, d’autres théories, principalement issues du domaine de l’intelligence artificielle, vont plutôt s’intéresser aux moyens de modéliser, de représenter et de raisonner directement sur les élé- ments du monde réel (Chapitre 5). Comme le montre le point 2 de la figure 3.2, ces travaux de modélisation se situent entre les sommets qui représentent la réalité (ou le monde) et le domaine conceptuel. Évidemment, les modèles doivent être exprimés dans un langage adapté, qui sont du ressort du sommet formalisation (domaine symbolique).

Ces deux premiers domaines ne sont bien entendu pas complètement cloisonnés et il arrive que l’un contribue à faire progresser l’autre. C’est par exemple le cas pour certaines théories linguistiques d’analyse du discours qui font appel à une représentation formelle issue de la logique.

Enfin, nous nous intéresserons au domaine de l’extraction d’informations qui, par sa visée plus opéra- tionnelle et applicative, a pour vocation de réunir linguistique et intelligence artificielle (Chapitres 6 et 7). Son objectif est de passer d’une représentation symbolique à une autre (voir le point 3 de la figure 3.2). En l’occurrence, il s’agit d’aller de la langue naturelle vers une représentation plus faci- lement manipulable par des moyens informatiques, et dans laquelle des attributs ont été attachés à certains éléments d’informations (des données sémantiques par exemple). Cette opération s’effectue nécessairement en effectuant un détour par le domaine conceptuel afin que la nouvelle représentation symbolique réponde à un modèle bien précis.

Comme nous l’avons déjà mentionné, cette thèse s’inscrit dans la problématique de l’accès à l’in- formation, et plus particulièrement de la recherche d’informations (RI). Les différents travaux que nous allons passer en revue (Chapitres 4 à 6) servent de fondations au développement d’une méthode

3.4 Le texte au travers du triangle de référence 109

d’analyse de la temporalité (Chapitre 7), orientée vers l’utilisation dans un cas applicatif concret, l’in- dexation multidimensionnelle, ou plus précisément thématico-temporelle (Chapitre 8). L’approche proposée n’est pas spécifique à ce cas précis, mais certains aspects ont été mis en avant au détriment d’autres. Cette démarche, courante dans le domaine de l’extraction d’informations, pourrait être vue comme réductrice. Au contraire, elle constitue un intérêt particulier. L’objectif n’est en effet pas d’étudier de manière exhaustive tous les problèmes liés à la temporalité dans le langage naturel, mais bien d’identifier les aspects qui peuvent être utiles dans une perspective de traitement automatique en général, et pour l’amélioration de l’accès à l’information en particulier.

C

HAPITRE

4

E

XPRESSION DU TEMPS DANS LE LANGAGE NATUREL

4.1 Introduction

Comme nous l’avons déjà évoqué, la démarche menée en linguistique consiste à étudier ce qui dans la langue permet d’exprimer l’information temporelle. L’intuition donnée à la section 3.3 au sujet de la variété des références au temps dans le langage naturel a également été mise en avant par de nombreux auteurs, tel que Bell [1998]. Celui-ci explique que le temps est exprimé à différents ni- veaux : dans la morphologie et la syntaxe des groupes verbaux, dans les adverbes temporels (lexique ou paraphrase), dans la structure du discours. Gosselin [1996] relève lui aussi le fait qu’il existe un ensemble de marques linguistiques de la temporalité, mais aussi que celles-ci doivent être évaluées conjointement afin de pouvoir en dériver une interprétation correcte :

« [...] les marques temporelles et aspectuelles se répartissent sur divers éléments de l’énoncé (le verbe, le temps verbal, les compléments du verbe, les circonstanciels, les constructions syntaxiques, etc.) qui paraissent interagir les uns avec les autres de telle sorte que la valeur de certains marqueurs semble ne pouvoir être fixée indépendamment du calcul global de la valeur du tout. » (Gosselin [1996], p. 23)

Dans les sections suivantes, nous allons examiner successivement les diverses marques linguistiques qui véhiculent la temporalité.