Préface
Le phénomène de l’anaphore, défini comme le lien entre une expression et une autre qui en général la précède (sinon on parle plutôt de cataphore), constitue l’un des thèmes principaux de la linguistique descriptive, théorique et informatique. Il est maintenant largement admis que les liens anaphoriques au sein d’une même phrase représentent un objet d’étude majeur dans l’analyse de la structure syntaxique (Chomsky, 1981 ; Reinhart, 1983 ; Büring, 2004). Depuis les développements de la théorie des représentations discursives (DRT) (Kamp, 1981 ; Kamp et Reyle, 1993) et de la File Change Semantics (Heim, 1982), les relations anaphoriques entre phrases sont devenues essentielles dans les théories sémantiques. En linguistique informatique et donc dans une perspective plus appliquée, la recherche porte plutôt sur les algorithmes de résolution d’anaphore, c’est-à-dire sur les méthodes susceptibles de déterminer l’antécédent d’une expression anaphorique donnée.
Depuis quelques années, l’accès aisé à des corpus écrits ou oraux et le développement des techniques statistiques ont eu un impact important sur les recherches informatiques sur l’anaphore. Il est maintenant clair qu’un grand nombre d’applications pratiques peuvent bénéficier des progrès de la résolution d’anaphores : la traduction automatique, les systèmes question-réponse, les systèmes de dialogue, le résumé automatique, la génération automatique de textes ou l’extraction automatique de l’information (Mitkov, 2002). Dans le même temps, il est aussi devenu clair que les recherches théoriques sur l’anaphore constituent un fondement essentiel du développement de systèmes automatiques de traitement des langues (Mitkov, 2003).
Les articles rassemblés dans ce numéro thématique témoignent à la fois des recherches appliquées qui visent au développement des systèmes automatisés et de l’étude théorique de l’anaphore, lequel reste d’actualité :
1. Dans leur contribution, Amsili, Denis et Roussarie, « Anaphores abstraites en français : représentation formelle », analysent les contraintes sur la référence à des entités abstraites : événements, situations, propositions et faits. Ils examinent d’abord la représentation du discours qui leur correspond, les mécanismes de résolution, et finalement ils observent l’ensemble des contraintes sémantico- pragmatiques à l’œuvre lors de la résolution de différents liens anaphoriques.
2. L’article de Boudreau et Kittredge, « Résolution des anaphores et détermination des chaînes de coréférence. Différences entre variétés de textes », se concentre principalement sur l’identification automatique des chaînes de référence dont la tête est un nom propre ou un pronom personnel de la 3e personne. Les auteurs s’intéressent au problème de la partition des expressions référentielles d’un
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
8 TAL. Volume 46 – no 1/2005
texte au moyen d’un algorithme simple, sans faire appel à une analyse syntaxique complète. Le travail a été réalisé à partir de 60 textes, avec environ 500 mots pour chacun des trois domaines de connaissance considérés.
3. Dans « Identifying non-referential it », Boyd, Gegg-Harrison et Byron montrent comment une approche basée sur l’apprentissage peut identifier les occurrences non référentielles du pronom it en anglais. Ce type d’approche s’avère important au regard des développements d’algorithmes pour la résolution d’anaphores pronominales : cela évite que le mécanisme de résolution d’anaphores cherche à leur associer un antécédent ou qu’ils soient eux-mêmes considérés comme antécédents potentiels.
4. Byron, Gegg-Harrison et Lee, dans leur article « Resolving zero anaphors and pronouns in Korean », étudient le problème des anaphores zéro où une expression vide est traitée en parallèle avec un pronom explicite. L’approche proposée apporte une contribution à la Théorie du Centrage et porte sur des données appartenant à un corpus arboré du coréen.
5. Le travail présenté dans Gardent et Manuélian, « Création d’un corpus annoté pour le traitement des descriptions définies », propose une nouvelle méthodologie pour le développement des corpus annotés afin d’améliorer les processus de résolution d’anaphores impliquant des descriptions définies. Le corpus utilisé contient 48 360 mots et 4 910 descriptions définies. Les différents emplois des descriptions définies sont distingués au moyen d’un schéma d’annotation catégoriel (autonome, coréférentiel, contextuel et non référentiel).
6. Gutiérrez-Rexach dans son article intitulé « Setting up perspectives for demonstratives in discourse », analyse les démonstratifs en espagnol et en anglais dans le cadre de la DRT. Les démonstratifs s’avèrent être des quantificateurs, soumis à différentes contraintes. Même si le travail de Gutiérrez-Rexach prend la forme d’une perspective théorique, son étude reste basée sur une analyse de corpus.
7. Dans « Semantics-based resolution of fragments and underspecified Structures », McShane, Nirenburg et Beale, proposent une vision plus large de l’anaphore en remarquant que l’ellipse et les constituants fragmentés peuvent être considérés comme des phénomènes anaphoriques. L’approche proposée a été implémentée comme partie intégrante d’un système ambitieux, OntoSem. Ce système est prévu pour réaliser des analyses morphologiques, syntaxiques et sémantiques, dont les représentations sémantiques fournissent la base de la résolution des fragments et d’autres structures anaphoriques. Les auteurs envisagent d’intégrer leur approche dans un système effectif, et, en même temps, ils s’intéressent aux implications de leurs propositions dans les débats théoriques sur les différentes formes d’anaphore.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Préface 9
Bibliographie
Büring D., Binding Theory, Cambridge Textbooks in Linguistics, Cambridge University Press, 2005.
Chomsky N., Lectures on Government and Binding, Dordrecht, Foris, 1981.
Heim I., The Semantics of Definite and Indefinite Noun Phrases, Ph.D. Dissertation, Amherst, University of Massachusetts, 1982.
Kamp H., « A theory of truth and semantic representation », In Groenendijk, J. et al. (eds.), Formal Methods in the Study of Language, Mathematisch Centrum, Amsterdam, 1981.
Kamp H., Reyle U., From Discourse to Logic, Kluwer, Dordrecht, 1993.
Mitkov R., (Ed). Oxford Handbook of Computational Linguistics, Oxford University Press, 2003.
Mitkov R., Anaphora Resolution, Longman, 2002.
Reinhart T., « Co-reference and bound anaphora: a restatement of the anaphora questions », Linguistics and Philosophy, vol. 6.1, 1983, pp. 47-88.
Joan Busquets ERSS/CNRS UMR 510 Projet Signes (INRIA-Futurs), Université Bordeaux-3 [email protected]
Daniel Hardt Center for Computational Modelling of Language Department of Computational linguistics Copenhagen Business School, Denmark [email protected]
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com