• Aucun résultat trouvé

6.5 Formats d’annotation

6.5.2 Timex2 et ACE

Le format d’annotation des expressions temporelles dans le cadre de ACE est défini par Timex2 (Ferro et al. [2005]). Ce format est plus étendu que Timex. Il prévoit un attribut particulier qui permet d’indiquer une valeur normalisée pour l’expression annotée. Le format de ce champ valeur (VAL) se base sur la norme IS0 8601 (ISO [2004]), en l’étendant pour certains cas.

Pour être annotées, les expressions doivent être composées d’un des déclencheurs lexicaux spéci- fiques à la temporalité. Il peut s’agir :

– de noms (« minute », « afternoon », « month »), – d’unités nommées (« Monday », « January »),

– de patrons temporels spécialisés (« 8 :00 », « 1994 », « 1960s »), – d’adjectifs (« recent », « former », « ago »),

– d’adverbes (« currently », « lately », « hourly »),

– de noms ou adverbes temporels (« now », « today », « yesterday »), – de nombres (« 3 », « three », « fifth », « Sixties »).

Comme pour Timex, l’annotation des expressions est réalisée au moyen de tags SGML, dont l’éti- quette est TIMEX2.

<TIMEX2> Halloween </TIMEX2>

Plusieurs attributs peuvent être ajoutés à la balise ouvrante afin de spécifier :

– une valeur normalisée de l’expression (VAL) ; – la présence de modificateurs temporels (MOD) ;

– une valeur normalisée du moment de référence, ou ancrage (ANCHOR_VAL) ; – la direction de ce point de référence (ANCHOR_DIR) ;

– si l’expression dénote un ensemble temporel (SET) ; – les commentaires de l’annotateur (COMMENT).

Plusieurs catégories d’expressions temporelles sont distinguées. Celles-ci peuvent être précises ou

floues. Il peut également s’agir de fréquences ou d’expressions non-spécifiques.

Les expressions temporelles précises

Il s’agit des expressions dont on peut déterminer la date calendaire, l’instant de la journée ou la durée qu’elles dénotent. Les dates sont annotées quelle que soit leur granularité.

<TIMEX2 VAL="1994"> 1994 </TIMEX2> <TIMEX2 VAL="1998-11"> November </TIMEX2> <TIMEX2 VAL="1998-07-14"> yesterday </TIMEX2>

Dans le cas d’un intervalle délimité par deux expressions explicites, chaque expression est annotée séparément. Pour les expression ancrées, l’annotation peut être imbriquée.

158 6 Extraction d’informations temporelles

<TIMEX2 VAL="1999-08-03"> two weeks from <TIMEX2 VAL="1999-07-20"> next Tuesday </TIMEX2> </TIMEX2>

Les expressions qui dénotent des unités plus grandes que l’année reçoivent un attribut VAL dans un format particulier, ce qui constitue une extension par rapport à la norme ISO 8601.

<TIMEX2 VAL="196"> the 1960s </TIMEX2> <TIMEX2 VAL="10"> 11th century </TIMEX2>

Les instants de la journée incluent la date du jour concerné, s’il est explicite ou s’il peut être déter- miné, ainsi que la désignation de la portion de la journée :

<TIMEX2 VAL="1984-01-03T12:00"> twelve o’clock January 3, 1984 </TIMEX2>

Les expressions dont l’unité est la semaine sont encodées de manière spécifique :

<TIMEX2 VAL="1999-W29"> next week </TIMEX2>

Enfin, les durées sont les expressions qui indiquent combien de temps quelque chose dure. Les valeurs (VAL) sont exprimées selon le format ISO 8601. Elles peuvent être ancrées et orientées par rapport à un autre point ou période. Les valeurs de direction d’ancrage sont WITHIN, STARTING, ENDING, AS_OF, BEFORE et AFTER.

<TIMEX2 VAL="PT3H" ANCHOR_DIR="WITHIN" ANCHOR_VAL="1999-07-15"> three-hour </TIMEX2>

Les expressions temporelles floues

Ces expressions sont celles pour lesquelles les bornes sont imprécises. Dans le cas des expressions

temporellement imprécises, l’annotation ne portera que sur l’unité (ou granularité) présente dans

l’expression. Une date complète, qui spécifie un jour précis, ne peut donc pas être mentionnée en tant que valeur.

<TIMEX2 VAL="1998"> a year ago </TIMEX2>

Pour les expressions générales relatives au passé, présent ou futur (« now », « in a couple of days », « a few months ago »), une nouvelle extension à la norme ISO 8601 est introduite. Elle permet d’insérer une valeur alphabétique pour le champ VAL. Il est dès lors possible d’utiliser les valeurs PRESENT_REF, FUTURE_REF et PAST_REF pour indiquer de quelle type de référence il s’agit.

Les saisons sont également des unités floues. En effet, certains parleront de l’hiver comme de la période froide de l’année, alors que d’autres feront référence à la période telle que définie par rapport aux solstices et équinoxes. Ces cas sont gérés en ajoutant une expression alphabétique (SP, SU, FA, WI11) à la place du mois dans la valeur au format ISO. À noter que l’hiver est un cas problématique car il s’étend sur deux années différentes. Sans indication contraire, l’année par défaut sera celle contenant les mois de janvier à mars.

11

6.5 Formats d’annotation 159

<TIMEX2 VAL="1998-FA"> Fall 1998 </TIMEX2>

<TIMEX2 VAL="1999-WI"> an unusually mild winter </TIMEX2>

<TIMEX2 VAL="P1WI" ANCHOR_DIR="STARTING" ANCHOR_VAL="1999"> all winter </TIMEX2>

Les années fiscales sont également sujettes à interprétation. À nouveau, une valeur alphabétique (FY) sera utilisée, en préfixe de l’année cette fois.

<TIMEX2 VAL="FY1998"> fiscal 1998 </TIMEX2>

De même, les trimestres (Q1, Q2, Q3 et Q4) et les semestres (H1 et H2) exploitent des valeurs alphabétiques. Les week-ends sont encodés à l’aide du code WE. Les périodes de la journée sont aussi des notions variables. Les codes MO (« morning »), MI (« mid-day »), AF (« afternoon »), EV (« evening »), NI (« night »), PM (« PM ») et DT (« day time », « working hours ») sont utilisés.

Dates ou moments de la journée dont des composants sont non-spécifiés

Certaines de ces dates peuvent être prises en compte, en masquant une partie de la valeur temporelle.

<TIMEX2 VAL="FY1998"> fiscal 1998 </TIMEX2> in <TIMEX2 VAL=“XX63”>’63</TIMEX>

Les durées non-spécifiées peuvent être codées à l’aide d’une valeur de type PXY, interprétée comme « a period of X years ».

Les expressions combinant semaines et mois sont des cas complexes qui ont nécessité une exten- sion de la norme ISO 8601 au niveau du contenu du champ VAL.

<TIMEX2 VAL="1998-FA-WXX-5TNI" MOD="START"> early one Friday night in <TIMEX2 VAL="1998-FA"> fall 1998 </TIMEX2> </TIMEX2>

Les expressions temporelles modifiées sont annotées en capturant le sens du modificateur. Pour ce faire le champ MOD doit se voir attribuer une valeur parmi BEFORE, AFTER, ON_OR_BEFORE, ON_OR_AFTER uniquement pour les points, LESS_THAN, MORE_THAN, EQUAL_OR_LESS, EQUAL_OR_MORE uniquement pour les durées, ou encore START, MID, END ou APPROX.

The trend began in <TIMEX2 VAL="196" MOD="START"> the early 1960s </TIMEX2>

Les expressions dont le décalage est approximatif peuvent être codées en combinant les balises VAL et MOD.

<TIMEX2 VAL="1994" MOD="AFTER" ANCHOR_DIR=“BEFORE” ANCHOR_VAL=“1995”> Nearly five years ago </TIMEX2>, the plan [...]

Les ensembles d’expressions temporelles sont particulières, car elles permettent d’exprimer la fré- quence d’un événement. La balise SET reçoit la valeur YES et le champ VAL prend une valeur générale permettant de décrire l’ensemble.

They watched Millionaire on TV <TIMEX2 SET="YES" VAL="1999-WXX-2"> every Tuesday in <TIMEX2 VAL="1999"> 1999 </TIMEX2></TIMEX2>

<TIMEX2 VAL="XXXX-WI" SET="YES"> Some winters </TIMEX2>, he was too sick to go to school

160 6 Extraction d’informations temporelles

Les expressions temporelles non-spécifiques sont des expressions génériques (« I love December ») ou indéfinies (« The election took place on a Tuesday »). Elles ne sont pas encodées grâce à un attribut spécial mais peuvent être exprimées à l’aide d’une valeur VAL générale pour les expressions calendaires, par l’absence de l’attribut ANCHOR pour les durées ou encore en omettant purement et simplement l’attribut VAL.

Timex2 permet encore d’annoter plusieurs cas tels que les pronoms et les éléments élidés, les expres- sions temporelles ancrées à un événement, les expressions culturellement variables, les expressions dont la valeur peut changer ainsi que les expressions métonymiques.