• Aucun résultat trouvé

l’occasion de TERN19 (basé sur des règles) et celles fournies par le système BBN IdentiFinder20.

Le système donne des résultats assez intéressants21: une précision de 97,8% pour un rappel de 89,4%, soit une f-mesure de 93,5% pour la détection. Ces valeurs sont revues à la baisse si l’annotation complète avec parenthesage est considérée (rappel=91,9%, précision=84,0%, f-mesure=87,8%).

Ahn et al. [2007] utilisent une cascade de classifieurs. La tâche de reconnaissance des expressions temporelles est réalisée par un algorithme de type SVM (Support Vector Machine). Les performances rapportées s’échelonnent entre 85% et 90,5% pour la précision, et 73,2% et 82,9% pour le rappel. Les composants syntaxiques, restreints à certaines catégories (ADVP, ADJP, NN, NNP, JJ, CD, RB, et PP)22, sont classifiés en deux classes distinctes : timex et non-timex. Un deuxième classifieur, lui aussi de type SVM, permet ensuite de déterminer la classe sémantique23 de l’expression. Enfin, si l’interprétation de l’expression n’est pas directe (pour les expressions temporelles référentielles par exemple), les règles et le classifeur SVM (pour déterminer la direction de la référence) sont combinés pour aboutir à une valeur normalisée. Ce système, même s’il utilise massivement les techniques d’apprentissage, peut être considéré comme hybride car il continue à faire appel à un certain nombre (limité) de règles.

6.7 Langue cible et aspect multilingue

Les travaux en extraction d’informations temporelles sont sensibles à la langue des textes traités. Il est évident que l’extraction en anglais, en français, en coréen ou dans tout autre langue est influencée par les multiples différences (lexicales, grammaticales voire même conceptuelles) présentées par ces langues. Si certaines techniques semblent pouvoir s’affranchir du lien avec la langue cible, elles nécessitent toujours des données de base dans la langue en question.

Parmi tous les travaux menés en extraction d’informations temporelles, nombreux sont ceux à être ap- pliqués à l’anglais. La plupart des grandes initiatives telles que les conférences (MUC, ACE, TERN, TIME, Chronos) ou la mise au point de formats d’annotation (Chinchor [1997] avec Timex, Ferro

et al. [2005] avec Timex2, et Boguraev et al. [2005] pour TimeML et Timex3) et de ressources (Time-

Bank, Pustejovsky et al. [2003b]) proviennent également du milieu anglophone. Cette vitalité s’est traduite par un grand nombre de publications, dont entre autres Mani et Wilson [2000], Filatova et Hovy [2001], Schilder et Habel [2001], Setzer [2001], Mani et Schiffman [2005], Adafre et de Rijke [2005], ou encore Hagège et Tannier [2008].

Ces avancées bénéficient aussi aux travaux entrepris pour d’autres langues. C’est par exemple le cas du français, langue pour laquelle il existe déjà des travaux publiés il y a un certain nombre d’années (Maurel [1990], Maurel et Mohri [1994]), mais aussi plus récemment (Vazov [2001], Muller

19

http://fofoca.mitre.org/tern.html

20http://www.bbn.com/technology/speech/identifinder

21Pour l’anglais. Les résultats sur le chinois, qui exploite un ensemble différent de features, étant légèrement inférieurs. 22

Ces catégories ont été tirées de Ferro et al. [2005].

23

168 6 Extraction d’informations temporelles

et Tannier [2004], Battistelli et al. [2006], Bittar [2008, 2009], Parent et al. [2008], Martineau et al. [2009] et Weiser [2010]). Il faut également noter l’apparition progressive de ressources linguistiques, telles qu’un TimeBank pour le français (Bittar [2010]).

D’autres langues, qu’elles soient indo-européennes (par exemple l’allemand avec Schilder et Habel [2001], l’espagnol avec Vicente-Díez et al. [2008], le portugais dans Baptista et Guitart [2002] et l’italien chez Caselli et al. [2008]) ou provenant d’autres origines (notons le cas du chinois avec Li

et al. [2001] et Cheng et al. [2007] ou du coréen avec Jang et al. [2004]) ont bien entendu bénéficié

de l’attention des chercheurs en matière d’extraction d’informations temporelles.

Enfin, divers travaux tendent à mettre en œuvre, du moins pour certaines parties du traitement de la temporalité, des techniques multilingues. C’est entre autres le cas de Wilson et al. [2001] ou de Ahn et al. [2005]. Dans une optique de traduction automatique, les aspects temporels sont également abordés par Fairon et Senellart [1999] et Lecuit et al. [2009].

C

HAPITRE

7

I

MPLÉMENTATION D

UN SYSTÈME D

EXTRACTION

D

INFORMATIONS TEMPORELLES

7.1 Introduction

Dans ce chapitre, nous exposons les développements effectués pour la construction d’un système d’extraction d’informations temporelles. Comme nous l’avons montré au chapitre 4, les expressions temporelles auxquelles nous nous intéressons vont bien plus loin que la simple date « jour-mois- année ». Même si ce type d’expressions, qui désigne une zone temporelle bien identifiée dans l’espace du temps, est effectivement présent dans les textes, il est évident qu’il n’est pas nécessairement le plus fréquent1. On trouve aussi très couramment des dates incomplètes, c’est-à-dire que l’on ne peut directement, et de manière univoque, rattacher à un point précis du calendrier. D’autre part, on rencontre également à de nombreuses reprises des expressions imprécises ou approximatives2. Celles-ci sont généralement utilisées par le locuteur soit parce que son propos ne nécessite pas de localiser temporellement un fait avec précision, soit parce que cette localisation précise ne lui est pas connue. Le caractère imprécis fait donc partie de la nature même de l’expression du temps en langage naturel3. Il n’est donc pas nécessairement toujours pertinent de vouloir interpréter les expressions en une valeur précise. Une analyse temporelle se doit de tenir compte de ces différents aspects afin d’assurer la reconnaissance la plus complète possible des informations temporelles contenues dans un texte.

L’extraction et l’interprétation des éléments qui présentent une valeur temporelle dans un texte, né- cessitent un travail de développement important qui comprend :

– la définition des catégories d’expressions temporelles et leur spécification détaillée ; – la réalisation d’une ressource d’extraction capable de reconnaître ces éléments dans

un texte ;

– le rassemblement de diverses autres informations (repérage des verbes et de leurs temps morphologiques, délimitation des propositions, etc.).

1La distribution des types d’expressions temporelles varie évidemment en fonction du type de textes. La référence est

ici constituée par des textes journalistiques, des dépêches de presse, etc.

2La section 7.6.1 expose de manière plus précise les notions d’expression incomplète d’une part, et approximative ou

floue d’autre part.

3

170 7 Implémentation d’un système d’extraction d’informations temporelles

Tout ces éléments, analysés conjointement, permettent alors d’interpréter temporellement le texte.