• Aucun résultat trouvé

Article pp.7-20 du Vol.43 n°3 (2002)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.7-20 du Vol.43 n°3 (2002)"

Copied!
14
0
0

Texte intégral

(1)

Pour un travail épistémologique sur le TAL

Marcel Cori* — Sophie David* — Jacqueline Léon**

* Laboratoire Modèles, Dynamiques, Corpus CNRS/Université Paris X

Bâtiment L

200, avenue de la République F-92001 Nanterre cedex (mcori,sodavid)@u-paris10.fr

** Laboratoire d’Histoire des Théories Linguistiques UMR 7597 CNRS

Université Paris VII

ENS Lettres et Sciences Humaines Case 7034

2, place Jussieu F-75251 Paris cedex 05

jacqueline.leon@linguist.jussieu.fr

RÉSUMÉ. Dans l’introduction du numéro, les auteurs proposent un état des lieux des travaux réflexifs ou épistémologiques sur le TAL, présentent les articles du thème en soulignant leurs convergences et indiquent plusieurs questions non encore traitées mais essentielles pour la poursuite d'une réflexion épistémologique.

ABSTRACT. In the introduction to the issue, the authors report on various developments concerning the reflexive or epistemological works on Natural Language Processing. They present the papers dealing with the topic and insist on their convergences. They indicate the questions which have not been dealt with yet, but which are crucial for the continuation of an epistemological reflexion.

MOTS-CLÉS : TAL, TA, histoire, épistémologie, évaluation, linguistique de corpus, linguistique formelle.

KEYWORDS: Natural Language Processing, Machine Translation, History, Epistemology, Evaluation, Corpus Linguistics, Formal Linguistics.

(2)

1. Pourquoi un travail sur l’épistémologie du TAL ?

Il nous a paru important de lancer un travail de réflexion sur l’épistémologie du TAL, et ce pour des raisons de deux ordres différents.

Tout d’abord parce que le domaine, relativement jeune, peine à se définir et à se donner des délimitations. Les désaccords sur ce qu’il couvre sont nombreux. Les positionnements par rapport aux théories linguistiques apparaissent divers, voire contradictoires. Parce que les méthodes qui y ont cours sont sujettes à controverse.

Ensuite parce que la réflexion épistémologique déjà engagée sur le domaine (cf. section 2) montre peu de systématicité. Peu de systématicité du côté des champs couverts, que l’on peut relier aux désaccords sur l’extension du TAL, aux objets et aux méthodes qu’il a privilégiés, différents selon les périodes ; mais aussi du côté des acteurs qui l’ont menée, en étant partie prenante ou non du domaine. Dans le même temps, le contenu de cette réflexion n’a pas fait émerger de lignes directrices, elle a plutôt mis en avant des positionnements divergents et des tensions. Les lieux de visibilité (communications et publications) sont restés, quant à eux, faiblement organisés (excepté dans le domaine de l’évaluation de logiciels, mais c’est tout récent). Si finalement, sur la cinquantaine d’années passées, l’existence même de ces travaux montre que la réflexion ne s’est jamais interrompue, elle est d’abord à mettre au compte du domaine de la traduction automatique (TA), où des rétrospectives critiques ont été régulièrement produites. On pense notamment à la rétrospective de Josselson (1971) qui se voulait une suite du rapport Bar-Hillel (1960), à l’introduction des numéros spéciaux de Computational Linguistics consacrés à la TA (Slocum, 1985), aux travaux historiques d’Hutchins (1986, 2000), enfin à la rétrospective historique contenue dans le chapitre 2 de Newton (1992).

En dehors de la TA, on peut mentionner l’introduction du numéro spécial de Computational Linguistics consacré aux grands corpus (Church et Mercer, 1993), et celle du numéro spécial consacré à la désambiguïsation lexicale dirigé par N. Ide et J. Véronis (1998). On rappellera également la démarche initiée par le numéro spécial de la revue (TAL, 1992, vol. 33, n° 1-2), consacré au trentenaire de l’ATALA et de la revue.

La réflexion apparaît ainsi lacunaire. Par contraste, d’autres domaines connexes se sont attachés à s’interroger plus ou moins périodiquement sur leurs fondements, à faire des bilans. Ainsi, la revue Brain and Language a publié un numéro spécial (vol. 69, 1, août 1999) consacré à des essais sur l’histoire de la neurolinguistique. La revue Artificial Intelligence a publié des numéros spéciaux consacrés aux fondements du domaine (vol. 47, 1-3, 1991), à son histoire (vol. 103, 1-2, 1998) et à son épistémologie (cf. l’article de Simon, 1995). Enfin, dans les revues spécialisées dans la cognition, on trouve de très nombreux articles centrés sur les problèmes théoriques et épistémologiques, insufflés par les nombreux philosophes engagés dans le domaine.

(3)

Dans cette présentation du numéro, nous effectuons tout d’abord un recensement, par thèmes, des différents travaux antérieurs que l’on peut rattacher à l’épistémologie du TAL (section 2). Nous introduisons ensuite chaque article relevant du thème du numéro (section 3). En guise de conclusion (section 4), nous indiquons différents aspects qui ne sont pas abordés dans les contributions et qui permettraient de poursuivre cette première réflexion.

2. Les réflexions antérieures

Parmi les travaux antérieurs, on peut distinguer plusieurs catégories de recherches.

2.1. Sur l’épistémologie du TAL

Un certain nombre de travaux traitent explicitement de l’épistémologie du TAL.

On pourrait leur adjoindre les nombreux ouvrages et articles concernant l’épistémologie de l’Intelligence artificielle qui, mettant plus directement en jeu la question de la simulation par ordinateur des activités intelligentes humaines, a suscité davantage de réflexions épistémologiques que le TAL (en témoignent, ne serait-ce que pour la France, les articles publiés dans la revue Intellectica).

Pour le TAL proprement dit, on peut citer les travaux suivants :

– T. Winograd (1983) propose, dans une perspective kuhnienne, une définition d’un « paradigme computationnel ».

– R. Penrose (1989), dans les chapitres 2 et 3 de son ouvrage, montre que l’apparition des premiers calculateurs a rendu sinon vérifiable du moins expérimentable l’hypothèse de la calculabilité du langage.

– Pour S. Auroux (1994 et 1996), la mécanisation du langage constitue la troisième révolution technologique du langage, après la révolution de l’écriture et la révolution de la grammatisation des vernaculaires. La révolution techno-linguistique de l’automatisation pose un certain nombre de questions. Contrairement aux outils linguistiques, tels que les dictionnaires et les grammaires issus de la grammatisation des vernaculaires, qui restent des outils externes, la mécanisation du langage constitue une véritable extension artificielle de l’intelligence humaine, dont les conséquences sont à l’heure actuelle difficiles à mesurer. On peut aussi se demander si elle implique ou non une révolution théorique de nos conceptions du langage humain. Par ailleurs, S. Auroux (1998) examine l’hypothèse consistant à considérer les langues naturelles comme des langages formels, et ses conséquences sur leur traitement automatique.

2.2. Réflexions épistémologiques sur la traduction automatique

Dès les débuts de la traduction automatique, des réflexions épistémologiques ont été menées.

(4)

Le Memorandum de W. Weaver, paru en 1949, aborde un certain nombre de points qui demeureront cruciaux pour le traitement automatique des langues et la formalisation du langage : la signification multiple et les ambiguïtés qui restent, pour le TAL, un problème posé de façon indépendante ; les bases logiques du langage et la possibilité de langues universelles ou de grammaires universelles ; l’application des méthodes probabilistes au langage.

Le rapport de Y. Bar-Hillel (1960) et l’ouvrage de M. Taube (1961) sont plus orientés sur les grands problèmes de la traduction automatisée. Travaux auxquels on peut associer les textes philosophiques sur l’indétermination de la traduction : W.V. O. Quine (1959) et le commentaire de T. Marchaisse (1991).

2.3. Réflexions sur le rapport entre théories linguistiques et TAL

La réflexion sur le rapport entre formalisation, théorie linguistique et TAL débute dès 1951 avec Bar-Hillel qui se prononce pour la nécessité de développer une syntaxe opérationnelle pour la TA, et avec les auteurs des premiers modèles sémantiques en URSS et en Grande-Bretagne.

Sur la formalisation en TA, on peut citer les articles pionniers de Y. Bar-Hillel (1953a et 1953b), M. Kay (1959), M. Gross (1964) et le rapport de l’ALPAC (1966).

Par la suite, les réflexions se sont dégagées du cadre de la TA. Sur les rapports entre informatisation et formalisation, signalons les travaux de Bestougeff et Desclés (1976), Culioli et Desclés (1979). Le numéro de la revue TAL, 34-1, 1993, comporte une réflexion sur les interférences entre analyse syntaxique automatique et théories linguistiques, en particulier les articles de J.-M. Marandin et de E. Ejerhed.

Pour une réflexion théorique sur les rapports entre sémantique, théorie lexicale et extraction de connaissances de dictionnaires, on peut consulter l’ouvrage de Y. Wilks et al. (1996) qui comprend une importante rétrospective historique.

Des travaux en histoire des théories linguistiques ont porté sur les modèles sémantiques de langues intermédiaires mis au point en URSS et en Grande-Bretagne par les chercheurs en TA dans les années 1950 (Archaimbault et Léon, 1997 ; Léon 2000). D’autres ont porté sur la conception linguistique des premiers outils pour la TA (Léon, 1999).

Enfin, un numéro récent de la revue Histoire Epistémologie Langages, (n° 23-1, 2001) est consacré à certains problèmes épistémologiques posés par le TAL, en particulier l’impact de l’automatisation sur la conception de certaines catégories linguistiques, et le rapport entre informatique théorique et linguistique théorique.

(5)

2.4. Rapports entre TAL et Intelligence artificielle

Bien que la traduction automatique fût très tôt considérée comme une « machine à penser », apparentée à un modèle d’IA faible par les cybernéticiens (Shannon, 1950 ; Shannon et Weaver, 1948), la conception de Weaver (1949) est loin de reposer sur une hypothèse de simulation du processus humain de traduction. De même, le terme de « machine à traduire », utilisé dans les premiers temps par l’ensemble des expérimentateurs de TA, n’a jamais fait référence à une machine intelligente capable de traduction (cf. Léon, 1997). Ce n’est que dans les années 1970 qu’est apparu le domaine spécifique de l’IA appelé Natural Language Understanding. Au début des années 1980, l’Intelligence artificielle est associée aux cursus de TAL, et on a cherché à intégrer des modules de compréhension dans les systèmes de TA ou de TAL en général.

A tel point que dans les années 1990 les spécialistes d’IA ont pu se poser la question de l’autonomie du TAL, qu’ils ont eu tendance à considérer comme une série de problèmes spécifiques de leur domaine. Ainsi, selon l’introduction de F.C.N. Pereira et B.J. Grosz au numéro spécial d’Artificial Intelligence consacré au

« Natural Language Processing » (1993), l’usage des langues par les êtres humains, et par conséquent leur traitement par des machines, fait appel à trois types de processus, la perception, la délibération et l’action, qui sont des processus que l’Intelligence artificielle aborde en toute généralité. Par ailleurs, la notion de représentation des connaissances, qui est au cœur de la problématique de l’Intelligence artificielle, renvoie directement à la représentation du sens porté par les énoncés, et donc à l’analyse des énoncés. Plusieurs auteurs se sont interrogés sur les rapports entre représentation des connaissances, TAL et linguistique. On notera tout particulièrement le livre de J.F. Sowa, Conceptual Structures (1984), dont le premier chapitre s’intitule « Philosophical Basis ». On peut également signaler en France M. Cori (1990 et 1995), D. Kayser (1994) et G. Sabah (1988 et 1989).

2.5. Grands corpus et probabilités

Depuis une quinzaine d’années, on observe un regain d’intérêt pour l’étude des grands corpus. Et chacun s’accorde pour souligner l’importance de la mise à disposition de corpus de plusieurs millions de mots dans la constitution de nouvelles pratiques. Si les travaux produits commencent à être nombreux, surtout ceux qui s’inscrivent dans le cadre qui se désigne par « linguistique(s) de corpus » et qui revendiquent l’usage de méthodes statistiques, la réflexion en est à ses commencements et reste par là même parcellaire. Différents thèmes ont retenu plus particulièrement l’attention (tels que la remise en question du programme génératif, la forme de la grammaire avec notamment l’usage de modèles probabilistes, voire connexionnistes, les notions de corpus et de « genre », le recours à des approches mixtes) ; des thèmes à partir desquels les enjeux théoriques sont parfois plus posés

(6)

que discutés (cf. par exemple Aarts et Meijs (éds) 1990, Oostdjik 1991, Church et Mercer 1993, Habert et al. 1997, Kennedy 1998).

2.6. Evaluation

La problématique de l’évaluation s’est posée dès les débuts de la traduction automatique, avec le rapport de Bar-Hillel (1960) et celui de l’Alpac (1966). Elle s’est cependant constituée comme un champ à part entière depuis un peu plus d’une dizaine d’années, à travers notamment l’organisation de conférences et de compétitions internationales (cf. par exemple TREC (Text Retrieval Conference), MUC (Message Understanding Conference)), les travaux de l’ISKO (International Society of Knowledge Organization). C’est l’une des thématiques de l’agence ELDA (Agence pour l’évaluation et la distribution de ressources linguistiques). Ces développements ne vont pas bien entendu sans enjeux intellectuels, scientifiques et financiers importants.

La littérature est abondante, hétérogène et ne montre pas de véritables consensus, même si certaines approches sont dominantes (les approches de type TREC notamment). Les évaluations qui sont menées consistent essentiellement en des

« mises à l’épreuve » effectives des propositions logicielles.

Des travaux récents ont cherché à clarifier les différentes options : évaluation quantitative/qualitative, évaluation orientée concepteur/utilisateur, évaluation boîte noire/boîte transparente, utilisation de phrases de tests/corpus, utilisation de procédures automatiques/recours à des évaluateurs (experts/non-experts). La réflexion a aussi porté sur la liste des critères pertinents, sur le type de mesures à utiliser (par exemple, les taux de rappel et de précision, mis au point dans le cadre de la recherche d’information), sur la constitution de référentiels de comparaison (par le projet TSNLP (Test Suites for Natural Language Processing)), sur la constitution de standards (par exemple, les travaux de M. King dans le cadre de EAGLES), etc. (voir notamment King et Falkedal 1990 ; Sparck-Jones et Galliers 1996 ; les articles de Falkedal, Wagner et King rassemblés par Nübel et Seewald (éds) 1998 ; Chaudiron 2001 ; Sparck-Jones 2001).

3. Présentation du numéro

Plusieurs thèmes de réflexion sont abordés dans ce numéro, qui permettent d’explorer certaines des lignes de tension qui opèrent dans le domaine. Les questions qui se posent ont trait à la définition de la discipline (à travers ses dénominations, son contenu et ses rattachements) et à ses méthodes.

(7)

3.1. Quel(s) terme(s) pour quel(s) domaine(s) ?

Il semblerait que le terme anglais correspondant à TAL soit Computational Linguistics, mais les deux termes définissent-ils le même domaine, dans la mesure où, historiquement, ils ont des inscriptions institutionnelle, géographique, et scientifique distinctes, et où en anglais existe le terme Natural Language Processing ? On sait par ailleurs que, dans la tradition française, différents termes ont jalonné l’histoire du domaine : Linguistique algébrique, Linguistique quantitative, Linguistique informatique, Linguistique computationnelle et, plus tard, Industries de la langue et Ingénierie linguistique. De quoi cette diversité de termes est-elle le signe ? Quelles sont les propositions fondatrices de chacun ? Quels sont les liens qui les unissent ? Quels sont leurs apports ?

A ces questions, Marcel Cori et Jacqueline Léon apportent une première réponse fondée sur une étude historique de la constitution du domaine, en retraçant l’histoire des termes utilisés ces cinquante dernières années aux Etats-Unis et en France pour dénommer le champ, et ce qu’ils recouvrent. La dénomination joue ici un rôle crucial, où (se) dénommer, c’est d’abord (faire) exister. Dans le même temps, la multiplicité des dénominations est symptomatique des changements de perspective, des tensions, des lignes de fracture, qui émaillent chaque histoire.

Aux Etats-Unis, la Computational Linguistics apparaît dans les années 1960 au sein de la traduction automatique, et est développée comme seul héritage positif après la mise à l’index de la TA par le rapport de l’ALPAC (1966). Son objectif affiché est de rassembler les recherches théoriques, notamment celles qui privilégient l’analyse syntaxique. Avec l’émergence de l’IA dans les années 1970 et la volonté réaffirmée de séparer les dimensions théoriques et applicatives, apparaît le Natural Language Processing, qui finit par endosser le versant applicatif.

Parallèlement, en France, mais avec quelque 10 ans de retard, on observe un foisonnement de termes, aux fortunes diverses.

Les auteurs montrent un champ aux prises avec des contradictions internes, jamais résolues : (i) rassembler et fédérer des approches, des méthodes, des acteurs, etc., et, dans le même temps, exhiber les différences en soulignant les tensions entre recherches théoriques et dimensions applicatives : se rassembler au risque d’une impossible définition ; (ii) définir des objectifs, des problématiques, des méthodes spécifiques alors que ceux-là mêmes s’inscrivent aussi dans les disciplines connexes au TAL : se définir au risque de la dilution.

La situation actuelle de part et d’autre de l’Atlantique est signée par la différence (momentanée ?) : un terme en France, Traitement automatique des langues, qui fait consensus ; deux termes aux Etats-Unis, Computational Linguistics et Natural Language Processing. Mais des termes apparus plus récemment, Industries de la langue, Ingénierie linguistique ou encore Natural Language Engineering montrent qu’il y a fort à parier sur de nouveaux éclatements et/ou de nouvelles recompositions, à la recherche de nouvelles légitimités.

(8)

3.2. Sur les différentes méthodes en cours dans le TAL

Les deux autres articles s’interrogent sur les méthodes en cours dans le domaine.

L’un comme l’autre opposent deux types de travaux, mais le clivage n’y est pas caractérisé de la même façon. Gabriel G. Bès oppose l’« approche symbolique » à l’« approche texto-algorithmique ». Benoît Habert et Pierre Zweigenbaum opposent les méthodes reposant sur des règles postulées à celles reposant sur des régularités observées. Les auteurs, cependant, se rejoignent pour souhaiter, en conclusion, une sorte de réconciliation entre les différentes approches.

G.G. Bès met en place une grille d’analyse pour les travaux qui relèvent de « la formalisation des langues ou de leur traitement informatique ». Il se place dans le cadre du « réalisme épistémologique », visant à analyser les méthodes effectives en cours dans le domaine.

Sa grille implique trois niveaux différents : le niveau de l’observation, le niveau du système d’hypothèses et le niveau du test de corroboration. L’observation suppose l’existence d’expressions sur un support magnétique et d’un observateur (humain) doté d’une certaine compétence. Les hypothèses forment un système qui doit être informatisé ou informatisable. Plus exactement, les hypothèses sont écrites selon un formalisme, sur lequel il est possible d’effectuer des calculs. On peut distinguer des systèmes d’hypothèses formels, dans lesquels les spécifications sont indépendantes de l’outil informatique, et des systèmes d’hypothèses algorithmiques.

Parmi les critères permettant de caractériser les systèmes d’hypothèses, G. G. Bès mentionne l’extension et la portabilité linguistique, et oppose la visée descriptive à la visée explicative. Le test de corroboration mesure la distance entre les résultats obtenus par le calcul automatique et ceux obtenus par l’observateur humain.

L’auteur soumet à cette grille les deux types d’approches qu’il distingue dans le domaine : l’approche texto-algorithmique (de laquelle il écarte volontairement les méthodes statistiques) et l’approche symbolique. L’approche texto-algorithmique s’oppose aux positions de Chomsky (1957) selon lesquelles il était impossible de réaliser des inductions à partir de corpus. Elle construit des analyseurs, souvent parcellaires, dans lesquels la description linguistique est mélangée avec le traitement informatique. Se fondant sur l’analyse de deux réalisations, l’auteur note que les systèmes d’hypothèses sont impossibles à connaître dans l’approche texto- algorithmique, qu’il n’y a pas de principe explicatif. En revanche, les tests de corroboration sont systématiques. Pour rendre compte de l’approche symbolique, l’auteur s’appuie sur la grammaire de Montague. Il note des faiblesses dans cette approche. Mais on peut se demander si ces faiblesses sont celles de l’approche symbolique en général, ou celles de cette approche en particulier.

En conclusion, G.G. Bès observe que, dans l’approche symbolique, les formalismes sont les véhicules d’expression de théories. Mais ces théories sont illustrées par des exemples ciblés, dont on ne vérifie pas la représentativité, ni même qu’ils peuvent être traités à l’aide du formalisme. Ainsi, certains problèmes que l’on

(9)

n’avait pas prévus surgissent dans les traitements, et tout spécialement l’explosion des ambiguïtés. L’approche texto-algorithmique traite quant à elle du texte « tout venant ». Cette approche a permis de mesurer les difficultés provoquées par les ambiguïtés et d’envisager des solutions. Elle est à la base d’un processus inductif de construction des connaissances. Les avantages et les inconvénients des deux approches étant complémentaires, G. G. Bès envisage une collaboration entre elles.

C’est aussi à une collaboration entre deux approches qu’invite l’article de B. Habert et P. Zweigenbaum. Cet article apporte un éclairage théorique sur certains développements récents du TAL, que l’on peut étiqueter sous le nom de linguistique(s) de corpus.

Le regain d’intérêt pour l’utilisation des corpus et des statistiques en linguistique a lieu dans un contexte où l’on observe de nouvelles formes d’interaction entre différentes disciplines et différents champs impliqués dans le TAL (par exemple, l’Intelligence artificielle, le traitement de la parole, le traitement de l’information) ; mais aussi grâce à deux avancées techniques : la mise à disposition de très gros corpus et leur exploration à l’aide de nouveaux outils statistiques, qui offrent des techniques de lissage et d’ajustements.

Les auteurs s’intéressent particulièrement à l’utilisation, depuis une dizaine d’années, de méthodes distributionnelles en acquisition sémantique automatique, qui s’est accompagnée d’un « retour à Harris » et à son programme de grammaires sémantiques de sous-langages fondées sur les propensions de dépendances des mots.

Ils soutiennent que Harris, en élaborant ces grammaires à partir de sélections calculées par des méthodes statistiques, et non à partir de règles d’acceptabilité, a ouvert la voie à de nouvelles articulations entre règles postulées et régularités observées. Différents questionnements issus de travaux plus récents, à propos du statut des connaissances sémantiques acquises et de la distinction langue générale/sous-langages, demandent d’amender ses propositions. Les auteurs proposent ainsi d’inclure le paramètre du genre/style dans le traitement des corpus, de même que de constituer des corpus annotés à partir de savoirs issus de la langue générale.

Ce type de traitement présenterait alors les avantages suivants : associer deux types de méthodes habituellement disjoints en linguistique, jugement d’acceptabilité et attestation ; pouvoir faire face au ténu, voire à l’imprévu ; et, à la condition de munir les données attestées d’annotations fines, atteindre des régularités sous- jacentes inédites.

4. Ce qui reste à faire

Nous ne cacherons pas que nous avons rencontré des difficultés dans la préparation de ce numéro. Nous voulions que dans la revue de référence du TAL en France s’expriment des acteurs du domaine, ayant une réflexion sur leur propre

(10)

pratique, ou une vue globale et/ou historique du domaine. Or ce type de réflexion demande un travail spécifique, non directement lié à un projet en cours, et qui exige donc un temps d’élaboration particulier. Il en est résulté que nous avons reçu un nombre relativement faible de contributions.

Nous souhaitons néanmoins que ce numéro soit le point de départ d’une réflexion. Car le domaine a bel et bien besoin d’un débat sur ses pratiques et ses finalités, plutôt que de continuer à avancer dans un certain flou conceptuel et avec des conflits souterrains qui restent inexprimés au grand jour. Dans ce qui suit, nous détaillons deux ensembles de problèmes à explorer, qui touchent aux évolutions du domaine, aux déplacements de son centre de gravité.

Le premier concerne les rapports entre le TAL et la linguistique formelle, notamment la question de l’appartenance des formalismes de représentation syntaxique au domaine du TAL. Les analyseurs syntaxiques fondés sur les CFG ont été pendant longtemps au cœur de la discipline. Devant l’insuffisance de la couverture grammaticale des CFG, et devant les difficultés techniques posées par le traitement automatique des grammaires transformationnelles, il y a eu tout d’abord la création des ATN, puis la définition de nouveaux formalismes de représentation syntaxique, DCG, LFG, FUG, GPSG, TAG, HPSG, ou le perfectionnement de formalismes plus anciens tels que les grammaires catégorielles ou les grammaires de dépendance. Les ATN étaient un outil hybride, à la fois formalisme et dispositif d’analyse, dont le rattachement au TAL ne faisait aucun doute.

Ces différents formalismes ont ainsi été créés soit clairement dans des perspectives de traitement automatique, soit dans des perspectives plus strictement linguistiques. Leur regroupement dans les années 1980 sous le terme de

« grammaires d’unification » était une façon de les inclure globalement dans le domaine du TAL. On a eu là une prise de position délimitant des objets spécifiques pour le TAL. Or il y a lieu de s’interroger sur ce regroupement qui n’allait pas entièrement de soi, étant donné, au moins, la double origine de ces objets. Quelque vingt années plus tard, sont-ils à considérer comme des objets relevant uniquement de la linguistique formelle ? Leur double origine, dont on n’aurait pas pris suffisamment la mesure, permet-elle d’expliquer que la question se pose à nouveau ? Ou bien est-ce l’apparition de nouvelles méthodes, dites de TAL robuste, qui a rejeté les formalismes linguistiques à la périphérie du TAL ?

On rejoint là un second ensemble de problèmes. Il porte tout d’abord sur les méthodes de TAL robuste : méthodes de désambiguïsation fondées sur des techniques probabilistes, méthodes d’analyse partielle qui ne cherchent pas à obtenir des analyses des phrases mais simplement à délimiter certains constituants, méthodes d’acquisition sémantique qui ignorent la syntaxe, etc. On est en droit de s’interroger sur le statut et l’apport de ces méthodes. Mettent-elles en œuvre un modèle du texte, du langage, des langues ou bien ne font-elles qu’utiliser un outil ? Et, en ce cas, quel outil et pour quel usage ?

(11)

La question se pose également d’identifier les recouvrements et délimitations entre TAL robuste et linguistique(s) de corpus, le TAL robuste s’appuyant sur l’existence de grandes masses de données écrites ou orales, la (les) linguistique(s) de corpus empruntant certains outils du TAL robuste, notamment les méthodes probabilistes.

Quant aux propositions des linguistiques de corpus, fondent-elles une nouvelle linguistique, ou n’opèrent-elles qu’un retour à des conceptions anciennes ? Dans les réflexions déjà élaborées (cf. ci-dessus, paragraphe 2.5), les problèmes évoqués, qui dessinent un champ d’études se posant comme une alternative aux travaux menés depuis quarante ans, mériteraient des discussions et des analyses plus approfondies. Les positionnements s’articulent, souvent en filigrane, sur une critique des positions de Chomsky (1957), considérées en bloc, sans que l’on discute précisément des arguments qu’il a avancés, ni d’ailleurs que l’on distingue programme de recherche et théorie particulière, ni enfin qu’on remette en perspective ses positions dans le contexte de l’époque. La mise à disposition de très grands corpus suscite certes de nouvelles questions, mais on n’a pas circonscrit précisément celles qui ne seraient pas purement artefactuelles, celles dont on peut faire l’hypothèse qu’elles sont liées à un état de la technique, etc.

Il est clair que le débat ne doit pas se limiter à ces deux thèmes de réflexion. On peut mentionner les perspectives et directions de recherche suivantes : expliciter les rapports entre TAL et IA, entre TAL et sciences cognitives, établir un état des lieux des problèmes linguistiques traités par le TAL, mesurer les évolutions de l’importance respective de la recherche fondamentale et des applications industrielles, caractériser le domaine de l’évaluation des systèmes, la liste n’étant évidemment pas close.

Ce n’est qu’un début, continuons le débat.

Remerciements

Nous remercions le comité de rédaction de TAL, et tout spécialement Bernard Victorri, ainsi que les membres du comité de lecture spécifique, qui ont effectué un travail remarquable de relecture des articles : Bernard Fradin, Benoît Habert, Martin Kay, Daniel Kayser, Margaret King, Bernard Laks, André Lentin, Jean-Marie Marandin, Uta Seewald-Heeg, Annie Zaenen.

5. Bibliographie

Actes de conférences, revues et rapports

Actes des conférences TREC (Text Retrieval Conference), MUC (Message Understanding Conference), ISKO (International Society of Knowledge Organization)

Rapport de l’ALPAC Language and Machines. Computers in Translation and Linguistics. A Report by the Automatic Language Processing Advisory Committee (ALPAC), National Academy of Sciences, National Research Council. 1966.

(12)

Histoire Epistémologie Langages, « Le traitement automatique des langues ». J. Léon (éd.), 2001, 23 (1).

TAL, « Analyse syntaxique », J.-M. Marandin (éd.), 1993, 34 (1).

TAL, « Spécial trentenaire », 1992, 33 (1-2).

Ouvrages et articles

Aarts J. et Meijs W. (éds), 1990, Theory and Practice in Corpus Linguistics, Amsterdam, Rodopi.

Archaimbault S. et Léon J., 1997, « La langue intermédiaire dans la Traduction Automatique en URSS (1954-1960). Filiations et modèles », Histoire Epistémologie Langage, 19 (2), 105-132.

Auroux S., 1994, La révolution technologique de la grammatisation, Liège, Mardaga.

Auroux S. (en collaboration avec J. Deschamps et D. Kouloughli), 1996, La philosophie du langage, Paris, PUF.

Auroux S., 1998, La raison, le langage et les normes, Paris, PUF.

Bar-Hillel Y., 1953a, « A Quasi-Arithmetic Notation for Syntactic Description », Language, 29, 47-58, repris dans Langages, 1968, 4.

Bar-Hillel Y., 1953b, « Some Linguistic Problems Connected with Machine Translation », Philosophy of Science, 20, 217-225.

Bar-Hillel Y., 1960, « The Present Status of Automatic Translation of Languages », Advances in Computers, New York et Londres, F.C. Alt ed. Academic Press, vol. 1, 91-141.

Bestougeff H. et Desclés J.-P., 1976, « L’informatique comme moyen d’expérimentation en linguistique », Actes du colloque Validation des méthodes d’analyse des données textuelles, Aix-en-Provence (1974), Paris, Editions du CNRS.

Chaudiron S., 2001, L’évaluation des systèmes de traitement de l'information textuelle : vers un changement de paradigme, Mémoire pour HDR, Université Paris X Nanterre, 300 p.

Chomsky N., 1957, Structures syntaxiques, Paris, Le Seuil [traduction française par M. Braudeau, 1969].

Church K.W. et Mercer R.L., 1993, « Introduction to the Special Issue on Computational Linguistics Using Large Corpora », Computational Linguistics, 19 (1), 1-25.

Cori M., 1990, « Les incidences linguistiques d’une représentation informatique des connaissances », 4e colloque de l’ARC, Progrès de la recherche cognitive, Paris, 365-376.

Cori M., 1995, « Enonciation et représentation informatique des connaissances », in J. Bouscaren, J.-J. Frankel et S. Robert (éds), Langues et langage. Problèmes de raisonnement en linguistique, Mélanges offerts à Antoine Culioli, Paris, PUF, 203-219.

Culioli A. et Desclés J.-P., 1979, « Considérations sur un programme de traitement automatique des langues et du langage », Colloque CNRS-DGRST Informatique et sciences humaines, Marseille (1975), Linguisticae Investigationes.

Cunningham H., 1999, « A Definition and Short History of Language Engineering », Natural Language Engineering, 5 (1), 1-16.

Ejerhed E., 1993, « Nouveaux courants en analyse syntaxique », TAL, 34 (1), 61-82.

(13)

Falkedal K., 1998, « Evaluation Problems from a Developer’s Point of View », in R. Nübel et U. Seewald-Heeg (éds), Evaluation of the Linguistic Performance of Machine Translation Systems, St-Augustin, Gardez! Verlag, 137-150.

Gross M., 1964, « The Equivalences of Models of Language Used in the Fields of Mechanical Translation and Information Retrieval », Information Storage and Retrieval, 2, 43-57.

Habert B., Nazarenko A. et Salem A., 1997, Les linguistiques de corpus, Paris, Armand Colin.

Hutchins W.J., 1986, Machine Translation, Past, Present, Future, Chichester, Ellis Horwood Ltd.

Hutchins W.J., 2000, Early Years in Machine Translation, Amsterdam, John Benjamins.

Ide N. et Veronis J., 1998, « Introduction to the Special Issue on Word Sense Disambiguation:

the State of the Art », Computational Linguistics, 24 (1).

Josselson H.H., 1971, « Automatic translation of Languages since 1960: a Linguist’s View », Advances in Computers, 11, 1-58.

Kay M., 1959, « The Relevance of Linguistics to MT », Essays on and in Machine Translation by the Cambridge Language Research Unit, Rapport non publié.

Kayser D., 1994, « What Kind of Models Do we Need for the Simulation of Understanding ? », in C. Fuchs et B. Victorri (éds), Continuity in Linguistic Semantics, Amsterdam, John Benjamins, 111-126.

Kennedy G., 1998, An Introduction to Corpus Linguistics, Londres, Addison-Wesley.

King M., 1998, « Evaluation Design: the EAGLES Framework », in R. Nübel et U. Seewald- Heeg (éds), Evaluation of the Linguistic Performance of Machine Translation Systems, St-Augustin, Gardez! Verlag, 151-169.

King M. et Falkedal K. 1990, « Using Test Suites in Evaluation of Machine Translation Systems », Coling, 2, 211-216.

Léon J., 1997, « Les premières Machines à Traduire (1948-1960) et la filiation cybernétique », BULAG, 22, 9-34.

Léon J., 1999, « La mécanisation du dictionnaire dans les premières expériences de traduction automatique (1948-1960) », in D. Cram, A. Linn et E. Nowak (éds), History of Linguistics, 1996, Amsterdam, John Benjamins, vol. II, 331-340.

Léon J., 2000, « Traduction automatique et formalisation du langage. Les tentatives du Cambridge Language Research Unit (1955-1960) », in P. Desmet, L. Jooken, P. Schmitter et P. Swiggers (éds), The History of Linguistics and Grammatical Praxis, Louvain et Paris, Peeters, 369-394.

Marandin J.-M., 1993, « Analyseurs syntaxiques. Equivoques et problèmes », TAL, 34 (1), 5-34.

Newton J. (éd.), 1992, Computers in Translation. A Practical Appraisal, Londres, Routledge.

Nübel R. et Seewald-Heeg U. (éds), 1998, Evaluation of the Linguistic Performance of Machine Translation Systems, St-Augustin, Gardez! Verlag.

Marchaisse Th., 1991, « L’acte du traducteur et le principe d’indétermination », Le Gré des Langues, 2, 144-157.

Oostdijk N., 1991, Corpus Linguistics and the Automatic Analysis of English, Amsterdam, Rodopi.

Penrose R., 1989, The Emperor’s New Mind, Oxford, Oxford University Press.

(14)

Pereira F.C.N. et Grosz B.J., 1993, « Introduction to the Special Issue on Natural Language Processing », Artificial Intelligence, 63 (1-2), 1-15.

Quine W.V.O., 1959, « Meaning and Translation », On Translation, Harvard Studies in Comparative Literature founded by William Henry Schofield, 23.

Sabah G., 1988, L’intelligence artificielle et le langage, I, Représentation des connaissances, Paris, Hermès.

Sabah G., 1989, L’intelligence artificielle et le langage, II, Processus de compréhension, Paris, Hermès.

Shannon Cl.E., 1950, « A chess-playing machine », Scientific American, vol. CLXXXII, 48-51.

Shannon Cl.E. et Weaver W., 1948, The Mathematical Theory of Communication, Urbana, University of Illinois Press.

Simon H.A., 1995, « Artificial Intelligence : an Empirical Science », Artificial Intelligence, 77 (1), 95-127.

Slocum J. (éd.), 1985, Two Special Issues on MT, Computational Linguistics, 11 (1-2-3).

Sowa J.F., 1984, Conceptual Structures : Information Processing in Mind and Machine, Reading Massachusetts, Addison-Wesley.

Sparck-Jones K., 2001, « Automatic Language and Information Processing: Rethinking Evaluation », Natural Language Engineering, 7, 29-46.

Sparck-Jones K. et Galliers J.R., 1996, Evaluating Natural Language Processing Systems: an Analysis and Review, Berlin, Springer-Verlag.

Taube M., 1961, Computers and Common Sense, The Myth of Thinking Machines, New York, Columbia University Press.

Wagner S., 1998, « Small Scale Evaluation Methods », in R. Nübel et U. Seewald-Heeg (éds), Evaluation of the Linguistic Performance of Machine Translation Systems, St-Augustin, Gardez! Verlag, 93-105.

Weaver W., [1949] 1955, « Translation », in W.N. Locke et A.D. Booth (éds), Machine Translation of Languages, 14 Essays, Cambridge, MIT et John Wiley, 15-23.

Winograd T., 1983, Language as a Cognitive Process, Reading Massachusetts, Addison- Wesley, vol. 1, Syntax.

Références

Documents relatifs

Nous montrons que la plupart des systèmes d’acquisition de ressources existants sont inadaptés à nos besoins, dans la mesure où ils reposent soit sur de grands corpus, soit sur

Bien souvent, les données des uns sont les programmes des autres (comme le défendent les spécialistes de la programmation réflexive). Bien que fer de lance de ce nouveau

– analyser à un niveau plus élevé le fonctionnement d’un système de santé : un papier développe une étude système de paiement dans le marché de l’assurance de santé en

Mais l’effort remarquable entrepris par les hommes du XVIII e siècle pour concevoir une civilisation euro- péenne admettant la tension entre cosmopolitisme et enracinement n’a

Parcours est ici employé dans un sens métaphorique, puisqu’il désigne tout aussi bien l’évolution des usages des internautes dans la durée, les transformations des pratiques

Pratiques et techniques (dont la séparation dans un but propédeutique est quelque peu problématique) peuvent être théorisées à partir d’une variété de disciplines selon

Dans la création de leur site, les concepteurs sont soumis à une tension entre l’envie de produire des documents inédits et originaux et la nécessité de créer de

Les réseaux de ces correspondants (souvent sélectionnés dans les cercles les plus proches de chaque catégorie de relation 4 ) se transforment au fil du temps d’une manière qui,