• Aucun résultat trouvé

7.3 Modèle pour une interprétation temporelle

7.3.1 Éléments d’information pris en compte

La date d’émission du texte est une information fondamentale car elle constitue un point de repère par rapport auquel vont se situer de nombreuses informations temporelles du texte. Dans une série de situations, la date d’émission n’a que peu de rapport avec le contenu informationnel du document. Les romans et les chroniques historiques constituent deux exemples évidents à cet égard. Cependant, nombreux sont les types de textes à être ancrés dans l’actualité de leur moment d’émission. Les textes de presse, et spécialement les dépêches de presse, en constituent un exemple par excellence8. Par conséquent, la date d’émission est considérée comme une métadonnée du texte, essentielle et obligatoire à son analyse. Elle constitue un prérequis à l’analyse automatique et doit donc toujours être présente et identifiée en tant que telle dans les textes.

L’analyse temporelle du texte est principalement alimentée par les adverbes et locutions adverbiales (voir section 4.2). Ces éléments constituent véritablement le cœur du système car ils présentent le double avantage d’être un vecteur très fort pour l’information temporelle, tout en pouvant être repé- rés efficacement. Ils représentent un moyen largement utilisé pour fixer les repères temporels d’un récit, surtout lorsqu’il s’agit d’une référence qui se rapporte de manière assez précise à l’espace du temps modélisé sous la forme d’un calendrier. Bien entendu, de nombreuses expressions adverbiales désignent aussi des zones temporelles de manière imprécise. Cette caractéristique est prise en compte et conservée lors du traitement automatique.

Autre source d’information importante, les temps verbaux donnent des indications utiles lors de l’analyse des adverbes relatifs. Ces derniers sont en effet interprétés à partir d’un point de repère, explicite ou implicite, et dans une certaine direction temporelle. Les temps verbaux contribuent à indiquer si l’interprétation de l’adverbe doit s’effectuer dans le passé, le futur ou le présent.

L’interprétation des temps verbaux actuellement implémentée reste cependant relativement basique,

8

Rien n’empêche cependant les textes de presse de s’ancrer temporellement ailleurs que dans leur présent, mais cela ne constitue pas la règle du genre.

7.3 Modèle pour une interprétation temporelle 173

et ne va pas jusqu’à exploiter toutes les finesses de la langue. Ce modèle est par conséquent appelé à évoluer afin d’affiner la mise en relation du temps grammatical (ou linguistique) avec le temps notion- nel (ou chronique). Comme nous l’avons vu au chapitre 4, et plus particulièrement à la section 4.7.6, l’interprétation de l’aspect grammatical9, pourrait être une information profitable. L’intégration d’un modèle complet pour les temps verbaux, tel que ceux évoqués à la section 4.7 ne semble cependant pas chose évidente. En effet, l’explication du fonctionnement de ces modèles reste encore un défi en linguistique, et il est dès lors compliqué d’envisager leur implémentation. Il existe d’ailleurs très peu de systèmes qui intègrent un environnement complet de traitement des temps verbaux. Un de ceux qui existent est l’implémentation inspirée du modèle des intervalles de Gosselin proposé par Person [2004]. Ce système présente cependant certaines limites10.

En pratique, le repérage et l’analyse des groupes verbaux est en grande partie réalisée à partir des informations issues de l’analyse syntaxique. Il s’agit en particulier des éléments annotés par XIP (Aït-Mokhtar et al. [2002]) à l’aide des étiquettes relatives aux groupes verbaux finis (« FV »), infinitifs (« IV ») et gérondifs (« GV »). L’annotation qui concerne les formes verbales passives (« AUXIL_PASSIVE ») est également exploitée. Pour les formes verbales simples, les informations fournies par l’analyse en parties du discours (Treetagger, Schmid [1994]) sont également prises en compte. En cas de conflit entre XIP et le Treetagger au sujet d’un code grammatical d’un forme verbale simple, c’est l’analyse du Treetagger qui est privilégiée.

Lors de leur traitement, les adverbes et les temps verbaux sont analysés en fonction de leur contexte. Celui-ci est constitué, au sein de la phrase, par la proposition. La découpe en propositions doit donc faire partie des prétraitements effectués sur le texte. Cette découpe est principalement réalisée sur la base d’informations fournies par l’analyse syntaxique (XIP). En particulier, les séparateurs de propositions peuvent être insérés au niveau des éléments étiquetés « BG », qui marquent le début d’une clause, et « PUN » qui identifient les signes de ponctuation. Dans le cas où une proposition contient plus d’un verbe, celle-ci est scindée, soit sur un signe de ponctuation (par exemple une virgule), soit juste avant un verbe, et cela de manière à n’obtenir qu’un seul verbe par proposition. Le temps du verbe caractérise l’ensemble de la proposition à laquelle il appartient. L’utilité de cette découpe est de lier une expression temporelle avec le verbe qui permet de l’interpréter. Ce lien, lorsqu’il est effectué sur des segments suffisamment fins, peut être réalisé au moyen d’une simple co-occurrence. Si la proposition contient un ou plusieurs adverbes, ceux-ci sont tous interprétés à l’aide du même temps verbal attribué à cette proposition. Le même principe est également employé pour lier indices thématiques et expressions temporelles lors de l’indexation thématico-temporelle (voir chapitre 8).

Enfin, certains phénomènes syntaxiques particuliers apportent de précieux éléments d’information lors de l’interprétation des adverbes temporels. C’est par exemple le cas des expressions dites cadra-

9

Celui-ci détermine la manière dont un événement est montré : dans sa globalité, en tant qu’accomplissement, en cours de réalisation, etc. Cette information est importante pour arriver à construire un ordonnancement temporel correct des données contenues dans le texte.

10Entre autres dues à son objectif, l’analyse de constats d’accidents de la route. Outre l’orientation du système vers

l’analyse de ce type particulier de textes, la reconnaissance des circonstants temporels ne constitue pas la priorité du système et n’est donc pas très développée. De plus, l’analyse nécessite parfois, pour certaines phases, l’avis d’un utilisateur (système semi automatique).

174 7 Implémentation d’un système d’extraction d’informations temporelles

tives (Charolles [1997], voir section 4.9). Il s’agit d’expressions, qui lorsqu’elles apparaissent dans

certaines configurations syntaxiques, ont pour particularité de définir un cadre temporel pour la suite du discours11. À ce cadre est attribuée une valeur temporelle qui devient une clé pour l’interprétation des expressions temporelles qui viennent s’y placer. Par exemple, la mention d’une année en début de phrase (« En 2010 ») est cadrative. L’interprétation des expressions qui suivent tient alors compte de cette information : « décembre » est directement interprété comme « décembre 2010 ».

Plusieurs éléments n’interviennent pas dans le modèle temporel actuel, mais devraient probablement y être intégrés dans le futur. Au-delà d’une interprétation plus complète des temps verbaux et de la prise en compte de l’aspect grammatical, dont nous avons déjà parlé, la détection et le traitement adéquat du discours rapporté ainsi que celui des propositions relatives nous semblent les plus intéres- sants. Il reste évidemment encore divers phénomènes, dont certains sont probablement assez ardus à intégrer en pratique et dont il faudrait évaluer l’utilité réelle pour l’extraction d’informations. Citons entre autres la modalité et l’aspect lexical.

Notons que l’on se limite ici aux éléments qui ont une influence potentielle en ce qui concerne l’in- terprétation des expressions adverbiales temporelles. Comme nous l’avons signalé à la section 7.2.2, nous ne nous intéressons pas directement aux événements et à leur placement dans l’espace du temps. Les éléments qui interviennent dans ce type de processus, comme par exemple l’aspect12, ne sont pas pris en compte ici, car ils sortent du cadre de ce travail13.