• Aucun résultat trouvé

7.2.1 Positionnement

Au chapitre 4, les travaux présentés portaient sur le temps tel qu’il est abordé par les théories lin- guistiques. Sa conceptualisation et sa modélisation ont été ensuite exposées au chapitre 5. Enfin les travaux menés en extraction d’informations ont été présentés, selon divers points de vue, au cha- pitre 6. Les développements présentés dans le présent chapitre se situent clairement dans ce dernier cadre. Par conséquent, nous adoptons une démarche pratique et concrète, mais n’écartant pas pour autant les apports plus théoriques. En effet, comme nous l’avons souligné à la section 3.4, l’extrac- tion d’informations se nourrit nécessairement de nombreux éléments, provenant à la fois des théories linguistiques et des travaux visant à conceptualiser et modéliser le temps. L’apport de ces différentes théories est exposé dans la partie consacrée au modèle d’interprétation temporel qui a été mis en œuvre (Section 7.3).

D’une manière générale, l’approche adoptée en extraction d’informations a généralement pour fina- lité la mise au point d’une application concrète. Cette caractéristique a des conséquences importantes. Elle implique souvent de simplifier certains phénomènes linguistiques complexes pour lesquels il n’existe pas de traitement automatique satisfaisant, ou suffisamment rapide et robuste, pour être uti- lisé dans un but applicatif. Il est aussi fréquemment nécessaire de se contenter d’une couverture partielle du phénomène, du moins dans un premier temps. Dans de nombreux cas, un système impar- fait peut déjà apporter une aide satisfaisante4. Cette constatation est particulièrement vraie dans un contexte où la masse documentaire est importante et où une analyse manuelle se révélerait longue et ardue.

Comme nous l’avons mentionné au début de cette section, les développements qui sont présentés dans ce chapitre sont à considérer dans cette optique d’extraction d’informations. Ainsi, les différentes étapes nécessaires au traitement automatique du temps dans les textes sont à la fois incomplètes et imparfaites. Elles n’en sont pas moins utiles pour autant. Le système mis en place ne permet certainement pas d’atteindre l’exhaustivité et la finesse d’analyse que pourrait avoir un linguiste face à cette tâche. Mais grâce aux éléments empruntés aux théories issues de ce domaine, l’extraction des informations temporelles peut être effectuée automatiquement, d’une manière rapide, autorisant ainsi le traitement de grandes quantités de données textuelles. L’extraction d’informations doit composer avec diverses contraintes, entre autres la disponibilité et la performance des technologies permettant de mener à bien les analyses de base sur lesquelles repose le système. Au-delà de la réalisation de ce système, l’intérêt réside donc aussi dans la détermination de la meilleure manière d’opérationnaliser les connaissances théoriques, dans le but d’en faire une application performante.

4

Les performances d’un système d’extraction d’informations peuvent être évalués par rapport à une analyse idéale, telle que pourrait l’effectuer un expert humain. Son utilité se mesure cependant de manière moins directe.

7.2 Positionnement et objectifs 171

7.2.2 Objectifs

Dans les nombreux travaux en extraction d’informations temporelles, le traitement du temps a été abordé à plusieurs niveaux, du repérage des expressions temporelles, en passant par leur interpréta- tion et en aboutissant finalement à l’ordonnancement des événements d’un texte. Cette dernière tâche est considérée comme la plus ambitieuse, car elle nécessite la résolution des problèmes posés par les étapes précédentes.

Dans cette thèse, les deux premières tâches évoquées ci-dessus sont couvertes. La troisième n’est pas abordée, et cela pour plusieurs raisons. Tout d’abord, nous estimons qu’elle sort du champ strict de l’extraction d’informations temporelles. Il s’agit plutôt d’une tâche de plus haut niveau5, qui, à l’instar d’applications telles que l’extraction d’informations biographiques ou l’indexation à dimen- sion temporelle, exploite les résultats des étapes précédentes. D’autre part, s’il est indéniable que les événements possèdent une dimension temporelle, cette dimension est difficilement accessible sans de larges connaissances sur les caractéristiques des différents types d’événements. De plus, alors que les expressions temporelles constituent un ensemble relativement régulier qui peut être formalisé au moyen d’un nombre fini6 de patrons, les événements ne le sont pas vraiment, du moins de manière large. De fait, le concept d’événement, qui n’est pas défini de manière consensuelle, peut selon la situation, être interprété de nombreuses façons.

La position adoptée dans le cadre de ce travail est qu’il est préférable de concentrer les efforts sur la tâche précise de l’analyse temporelle du texte. L’extraction d’événements, ou de manière plus large l’extraction d’informations, quelles qu’elles soient, est un travail à part entière, qui nécessite souvent un investissement particulier au domaine ou au type de données visé. Il semble donc difficile de traiter ce point en tant que problème annexe à celui de l’extraction temporelle.

Cette limitation du système au cœur même de l’extraction d’informations temporelles permet éga- lement d’envisager celui-ci comme un module qui peut être exploité au sein d’autres applications, plus complexes. Il est donc important d’insister sur les possibilités d’interaction et d’intégration avec d’autres tâches, et de penser aux moyens à mettre en œuvre pour rendre celles-ci possibles. Dans cette optique, l’ouverture est une des caractéristiques dont un système d’extraction d’informations temporelles doit être doté. Celui que nous proposons dans ce chapitre est ainsi capable d’intégrer certains processus d’analyse tiers ou, à défaut, de s’intégrer à ceux-ci en leur fournissant des versions sémantiquement annotées (sur les aspects temporels) des textes. Un exemple du premier cas de figure est proposé au chapitre 8 avec une application d’indexation à dimension temporelle. Le second cas de figure est lui illustré à la section 7.10 (Figure 7.14) à l’aide du cas de l’extraction d’informations biographiques7, dans lequel l’information temporelle tient un rôle particulièrement important.

Avec cette séparation des tâches d’extraction, subsiste cependant un point essentiel qui concerne l’établissement de liens entre les informations temporelles et les autres informations extraites. Ces liens peuvent être établis de nombreuses façons, qui dépendent en partie de l’application visée. Il peut

5L’ordonnancement d’événements peut constituer une fin en soi, l’extraction temporelle l’est plus rarement. 6

Cela ne veut évidemment pas dire que ce nombre est faible.

7

172 7 Implémentation d’un système d’extraction d’informations temporelles

par exemple s’agir de relations de co-occurrence, ou de liens syntaxiques plus élaborés. Cet aspect est lui aussi renvoyé au niveau de l’application, qui peut ainsi l’implémenter selon ses exigences. Cependant, dans le cas de l’intégration d’une analyse tierce dans le même processus de traitement que celui consacré aux aspects temporels, la création des liens fait alors partie intégrante de ce processus (voir chapitre 8).