• Aucun résultat trouvé

7.3 Modèle pour une interprétation temporelle

7.3.2 Caractéristiques importantes de la modélisation temporelle

Le chapitre 5 a abordé la représentation et la modélisation du concept de temps. Dans le cadre de l’implémentation de ce système d’extraction d’informations temporelles, des choix ont été effectués en la matière. Tout d’abord, il faut préciser que le cadre général de cette modélisation temporelle est un calendrier (voir section 5.2.1). En l’occurrence, il s’agit plus précisément du calendrier grégorien. Celui-ci constitue la base de la conceptualisation du temps et a été choisi, d’une part pour son accep- tation et son utilisation très large, et d’autre part parce qu’il est naturellement centré sur le niveau de granularité du jour (voir section 5.2.2), qui est adapté aux traitements que l’on envisage.

Plusieurs approches ont été proposées en ce qui concerne la modélisation d’une zone temporelle, principalement sous la forme d’un point, ou d’un intervalle (voir section 5.3). Cependant, ces deux notions sont fortement liées. Entre un point et un intervalle, il n’y a souvent guère plus qu’une ques- tion de granularité. Le choix opéré par rapport à ces deux représentations s’est par conséquent plutôt basé sur des critères pratiques. Ainsi, toute expression qui peut être représentée sans perte d’informa- tion, sous la forme d’un point à une certaine granularité, adopte effectivement ce format. Par contre les expressions qui font intervenir explicitement deux bornes sont pour leur part représentées à l’aide d’un couple de points. Par exemple « 2010 » est représenté sous la forme d’un point dont la granu-

11Ou plus précisément jusqu’à la fin du cadre, par exemple la fin du paragraphe. 12

L’événement qui concerne le fait que Luc boit de la bière n’est pas temporellement équivalent dans « Luc a bu une bière le 20 janvier » (à un moment précis du 20 janvier) et « Luc a bu de nombreuses bières le 20 janvier » (potentiellement durant toute la journée).

13

7.3 Modèle pour une interprétation temporelle 175

larité est l’année ( [ 2010 ] ) alors qu’il pourrait l’être de manière équivalente à l’aide de l’intervalle [ 01/01/2010 , 31/12/2010 ]. De même, l’expression « du 1er décembre 2010 au 31 décembre 2010 » correspondra l’intervalle [ 01/12/2010 , 31/12/2010 ] alors que la représentation au moyen d’un point à la granularité du mois ( [ 12/2010 ] ) est tout aussi valable. Notre mode de représentation du temps adopte donc à la fois les points et les intervalles.

Un autre choix réside dans la décision de différencier les expressions temporelles selon qu’elles sont déictiques, relatives au moment de l’énonciation, ou anaphoriques, relatives à un point de référence se situant dans le discours. Cette caractéristique n’a pas vraiment d’influence sur la représentation finale de la zone temporelle, mais bien sur le processus d’interprétation de l’expression qui désigne cette zone.

Vient ensuite la prise en compte du caractère flou, ou imprécis, de certaines expressions temporelles (voir section 5.3.4). Trois valeurs sont possibles pour cette caractéristique nommée fuzzy14 : « 0 » lorsque l’expression ou la zone temporelle est précise, « 1 » pour exprimer une imprécision limitée à la zone définie (imprécision dite interne), et enfin « 2 » pour désigner de manière imprécise une zone qui inclus et s’étend autour de la zone temporelle délimitée (imprécision dite externe). Une seconde façon de caractériser de manière floue une zone temporelle est de désigner une partie de celle-ci (le début, le milieu ou la fin). L’utilisation de cette caractéristique implique automatiquement celle de l’indicateur d’imprécision.

La notion d’imprécision est importante dans le modèle. D’une part, elle permet de coder et de repré- senter des expressions naturellement floues, qu’il ne serait pas souhaitable de préciser. Et d’autre part, en utilisant l’indicateur d’imprécision à la manière d’un indice de certitude, cela permet de contrôler les éventuelles approximations de l’analyse automatique. Lorsque le système n’est pas certain de fournir un résultat tout à fait correct, l’accompagner d’une étiquette d’imprécision permet de gérer une certaine marge d’erreur.

Les trois points abordés jusqu’ici – modélisation sous la forme de points ou d’intervalles, caractère absolu ou relatif, et précision ou imprécision – correspondent à trois des quatre caractéristiques im- portantes qui ont été isolées pour caractériser les expressions temporelles. Cette catégorisation est exposée plus en détail à la section 7.6.1.

Le modèle que nous proposons intègre également une échelle de granularités temporelles importante (Figure 7.1). Une différence doit être faite entre le concept d’unité de mesure temporelle et celui de granularité. Les premières citées servent à mesurer des quantités de temps. Elles proviennent de l’observation de phénomènes naturels (voir section 3.2), font partie de systèmes normalisés de mesures (BIPM [2006]) et présentent des possibilités de conversions, d’une unité plus grande vers une unité plus petite, ou inversement. Les granularités (voir section 5.2.2) concernent plutôt les unités calendaires et servent à exprimer l’ordre de grandeur de la zone temporelle qu’elles occupent. Le

14L’utilisation du champ fuzzy, et de ses différentes valeurs, pour décrire l’aspect approximatif d’une expression tem-

porelle peut être comparée à un opérateur de logique floue (Zadeh [1965], Hajek [2010]) en ce sens qu’il n’a pas une utilisation booléenne. En effet, ce champ peut prendre trois valeurs différentes qui représentent différents niveaux d’ap- proximation plus ou moins élevés.

176 7 Implémentation d’un système d’extraction d’informations temporelles

choix d’une nomenclature de granularités est en partie arbitraire15. Le passage d’une granularité à l’autre est naturellement possible lorsque la transformation s’opère d’un grain fin vers un grain plus important. Le mouvement inverse, s’il n’est pas impossible, est par contre plus délicat à réaliser et implique un certain degré d’imprécision à l’arrivée.

Figure 7.1 : Unités de mesure temporelles et niveaux de granularités.

Parmi la nomenclature de granularités, il en est une qui n’est pas toujours communément employée : la partie de journée (POD, pour « part of day »). Celle-ci constitue un degré supplémentaire entre le jour et l’heure. Elle constitue également une manière de rendre bien définies certaines références qui auraient été considérées comme floues autrement, tout en n’extrapolant pas des valeurs en termes d’heures précises. Cela permet donc de gérer un aspect assez fréquent de l’imprécision naturelle de la langue. L’information est conservée et peut être restituée sans perte à un utilisateur qui aura le loisir de l’interpréter dans le contexte adéquat16, comme il l’aurait fait à la lecture de l’expression originale. Cela implique cependant une désynchronisation entre les unités de mesure temporelles et les niveaux de granularités. En effet, il ne semble par exemple pas heureux de considérer « après- midi » comme une unité de mesure, dans le sens où l’expression « dans deux après-midi » n’est pas très courante et possède une interprétation particulière qui n’est pas comparable à un usage normal, tel que « dans deux jours ».

La granularité de base choisie est le jour. En plus d’être naturellement adaptée aux systèmes de calen- drier, comme nous l’avons expliqué à la section 5.2.2, cette granularité convient particulièrement bien à l’évocation des événements qui sont habituellement relatés dans des textes de la presse quotidienne. Certains de ces événements peuvent bien entendu être référencés au moyen d’autres granularités, plus ou moins fines. Le passage entre celles-ci relève alors simplement d’une question d’échelle. L’ana-

15

La définition d’une nomenclature de granularités est en relation avec les unités temporelles, mais aussi avec le type d’expressions contenues dans les textes à analyser et avec la nature de la tâche à accomplir. Cela laisse la place à certains choix lors de l’implémentation d’un système qui est amené à manipuler le temps (ajout/suppression d’éléments par rapport aux unités temporelles.).

16

7.3 Modèle pour une interprétation temporelle 177

lyse de sources qui décrivent des événements dont la durée est très faible, par exemple de l’ordre de la micro-seconde, ou dont la mesure est très précise devra par contre être envisagée à un niveau beaucoup plus fin et nécessitera dès lors un autre choix de granularité.

Le modèle d’analyse temporelle utilise de manière conjointe les notions de précision/imprécision et de granularité afin de fournir un résultat le plus pertinent possible, tout en ayant soin de minimi- ser les erreurs d’interprétation. Le mécanisme qui articule l’imprécision et la granularité intervient principalement dans deux situations précises. Premièrement, il peut être nécessaire de faire varier la granularité lorsqu’une différence de granularité est observée entre différents éléments qui entrent en ligne de compte pour l’interprétation temporelle. Cela peut par exemple être le cas entre le point à interpréter (un jour, « la veille ») et le point de référence (une semaine, « la semaine dernière »), ou encore entre un point temporel et un déplacement temporel (« il y a une semaine »). Dans ces situations, l’utilisation de l’étiquette d’imprécision permet de réaliser normalement l’interprétation et, malgré l’approximation qui en résulte, de fournir un résultat cohérent avec le sens du texte.

Le passage vers un grain plus élevé est accompagné d’une imprécision de type 1 (interne), alors que la conversion en une granularité plus fine provoque l’attribution de l’étiquette de type 2 (externe). Par exemple :

Augmentation de la granularité : avril 2010 –> 2010 + fuzzy=1. Diminution de la granularité : avril 2010 –> 15 avril 2010 + fuzzy=2.

Deuxièmement, lorsque l’interprétation temporelle ne mène pas à un résultat complètement certain, le système peut décider d’augmenter la granularité de la réponse et de l’accompagner d’une impré- cision interne. Par exemple :

Résultat incertain : 15 avril 2010 –> Réponse finale du système : avril 2010 + fuzzy=1.