I. Le problème linguistique Introduction

(1)

Il aurait fallu que je sois aussi celui-là caché derrière la haie le regardant s'avancer tranquillement au-devant de lui, au-devant de sa mort sur cette route, se pavanant comme avait dit Blum, insolent imbécile orgueilleux et vide dédaignant ou peut-être n'ayant pas même l'idée de mettre son cheval au trot n'entendant même pas ceux qui lui criaient de ne pas continuer ne pensant peut-être même pas à la femme de son frère chevauchée ou plutôt à la femme chevauchée par son frère d'armes ou plutôt son frère en chevalerie puisqu'il le considérait en cela comme son égal, ou si l'on préfère le contraire puisque c'était elle qui écartait les cuisses chevauchait, tout deux chevauchant (ou plutôt qui avaient été chevauchés par) la même houri la même haletante hoquetante haquenée, avançant donc dans le paisible et éblouissant après-midi me demandant quelle heure pouvait-il être ?

C. Simon, La route des Flandres, 1960, p. 279

I. Le problème linguistique

Ce travail a pour objectif de déterminer les règles ou les tendances qui président à l’ordre des caractérisants maillés

¹

. Les termes sont de Wilmet (2003). Les caractérisants sont les « accompagnateurs » du nom qui en restreignent l’extension : adjectif, participe, nom, nom propre, complément du nom, proposition relative, etc. Le grammairien les appelle à présent « qualifiants », mais nous garderons la terminologie de sa Grammaire critique du français, qui expose la théorie du syntagme nominal sur laquelle nous nous fondons. Nous reviendrons ultérieurement sur le terme de « maillage » : disons que nous étudierons ici les séquences de caractérisants (une charmante petite noce champêtre, le nouveau chef d’état du Vatican Benoît XVI ), dont chacun porte sur le nom ou sur un groupe nom+caractérisant, sans être ni coordonnés (une charmante et champêtre petite noce), ni juxtaposés ( une petite noce, champêtre, charmante ), ni imbriqués ( la civilisation judéo-chrétienne).

Ces séquences appellent un certain nombre de questions.

1

Les termes techniques sont marqués en gras lors de leur première occurrence et

sont repris dans le glossaire.

(2)

T o u t e s l e s s é q u e n c e s s o n t-elles possibles ?

Si plusieurs sont possibles, qu’est-ce qui les distingue ? Quels sont les critères pertinents ?

Dans certains cas plusieurs séquences sont correctes, sans être nécessairement équivalentes : une agréable odeur de chocolat / une odeur agréable de chocolat / une odeur de chocolat agréable.

Dans d’autres cas, une des séquences est incorrecte : un bateau de pêche échoué /

un bateau échoué de pêche ; le clocher pointu* de l’église / le clocher de l’église pointu ; la croyance messianique selon laquelle relier tout le monde à Internet est une* révolution sociale / la croyance selon laquelle relier tout le monde à Internet est une révolution sociale messianique* ou difficile : un bateau de pêche français / ??un bateau français de pêche.

L’adjectif agréable dans l’exemple ci-dessus se plaçait n’importe où, dans d’autres cas, il sera soit antéposé soit le dernier des caractérisants postposés : un remarquable roman policier / un roman policier remarquable / ??un roman remarquable policier. Nous parlerons d’ordre « en miroir » pour désigner ce phénomène. Les auteurs qui travaillent dans le cadre de la linguistique générale et de la typologie des langues avancent que l’ordre des mots dans les langues qui antéposent les modifieurs du nom est symétrique à l’ordre des mots dans les langues qui postposent les modifieurs du nom.

Et qu’en est-il lorsque les caractérisants sont de même nature ?

- Adjectifs antéposés ( chère vieille petite bonne femme / ?vieille chère petite bonne femme) ; adjectifs postposés ( les romans policiers anglais / les romans anglais policiers ; un soldat allemand aimable /* un soldat aimable allemand ; l’art médiéval français / l’art français médiéval* ) ;

- Compléments du nom ( les cris de joie de Paula / les cris de Paula de joie ; le rapport à l’argent des philosophes / le rapport des philosophes à l’argent ; l’emploi* abusif d’armes par la police / ??l’emploi abusif par la police d’armes ).

- N’oublions pas les noms propres (la chaîne italienne Canale 5 / *la chaîne Canale 5

italienne ; l’administrateur civil américain à Bagdad Paul Bremer / ??l’administrateur

civil américain Paul Bremer à Bagdad ; le célèbre cabaret Jama Michalikowa à

Cracovie / *le célèbre cabaret à Cracovie Jama Michalikowa ) ni les propositions

relatives (un petit gémissement sourd qui annonce la défaite / *un petit

gémissement qui annonce la défaite sourd ; l’allure qui se veut confiante du papa

/ ??l’allure du papa qui se veut confiante ).

(3)

Est-il vrai que la multiplication des caractérisants favorise l’antéposition de l’adjectif ?

un match décisif ? un décisif match de Coupe d’Europe des clubs ; le gouvernement actuel ? l’actuel gouvernement Verhofstadt ; sa face ronde ? sa ronde face joufflue ; une matière irréelle ? une irréelle matière moelleuse

²

Q u ’ e n e s t-il de la quantification ?

La présence d’un caractérisant peut influencer la quantification ( le courage ? un grand courage ; de l’eau ? une eau pure) et les linguistes ont observé depuis longtemps l’alternance une intelligence d’enfant / l’intelligence de l’enfant.

Certains exemples illustrent clairement le lien qui se noue entre la caractérisation, la quantification et la signification : le (un) style de Corneille / le (un) style cornélien. Quel* est alors l’impact de plusieurs caractérisants ?

À l’inverse, la quantification a-t-elle une influence sur la place des caractérisants quand il y en a plusieurs ?

un match décisif / le match décisif d’Anderlecht contre le Bayern ;

l’ardent soleil de juillet / un ardent soleil de juillet / un soleil de juillet ardent / ??le soleil de juillet ardent ;

une intelligence naïve d’enfant / une intelligence d’enfant naïve / l’intelligence naïve de l’enfant / *l’intelligence de l’enfant naïve

Quelle est la structure du syntagme pluricaractérisé ?

En d’autres termes, quel est le premier caractérisant incident au nom dans un décisif match de coupe d’Europe ou un match décisif de coupe d’Europe ou encore un match de coupe d’Europe décisif ? On aura une structure hiérarchisée, mais si cette structure paraît claire quand tous les caractérisants se trouvent d’un seul côté du nom, en va-t-il de même quand ils se répartissent de part et d’autre ? Comparez une petite fille blonde et un redoutable berger allemand.

Place de l’adjectif et ordre des caractérisants

Si la faculté qu’ont les adjectifs des langues romanes de s’antéposer ou de se postposer a fait couler beaucoup d’encre, c’est plutôt la séquence des « modifieurs » antéposés de l’anglais qui a attiré l’attention des linguistes.

La plupart des études sur les séquences de caractérisants souffrent de deux limites : elles n’envisagent bien souvent qu’un ou deux critères (la classe sémantique, bien souvent) ; elles ne portent que sur une catégorie limitée de modifieurs (l’adjectif, en l’occurrence). Certains grammairiens de l’anglais se sont attachés à tous les modifieurs antéposés, donc directs : l’adjectif, le nom et les participes. Dans le domaine français, Tesnière (1965) élargissait le débat grâce à la « translation », qui transforme le

2

Ces deux derniers exemples sont tirés de Blinkenberg (1950 : 128).

(4)

complément du nom de Paris en adjectif dans le train de Paris, ou le nom propre Mirabeau dans le pont Mirabeau. Mais en général, pour le français et les langues romanes, les études sont plus rares, et plus rares encore celles qui s’intéressent non seulement à l’adjectif mais aux autres catégories morpho-syntaxiques pouvant jouer le même rôle dans le syntagme nominal. On notera la remarquable exception de Carlsson (1965), qui s’intéresse à la place relative de l’adjectif et du complément du nom. Malgré tout ce que nous devons à Tesnière, c’est plutôt la théorie du syntagme nominal de Wilmet (2003) qui nous donne le cadre théorique nécessaire à nos analyses. D’une part, parce qu’on ne peut balayer ainsi la nature première du caractérisant (ou alors il y aurait équivalence entre de Paris et parisien), d’autre part, parce que les exemples et l’expérimentation sur ces exemples montrent qu’il existe des liens entre la quantification et la caractérisation. Il paraît improbable de dire un chapitre précédent ; et une voiture présidentielle n’aura pas le même sens que la voiture présidentielle. Il nous fallait donc une théorie de la détermination nominale qui embrasse quantification et caractérisation.

Notre thèse est que la séquence des caractérisants répond à certaines règles, ou tout au moins à certaines tendances. Mais les phénomènes d’ordre, d’acceptabilité et de quantification relevés ci-dessus ne peuvent se comprendre qu’à la lumière d’une théorie globale de la détermination nominale et d’une description approfondie des caractérisants. Les critères d’ordre sont d’ailleurs bien plus évidents si l’on envisage les séquences, non seulement d’adjectifs, mais de tous les caractérisants possibles. On ne pourra se contenter de faire intervenir un seul critère, on devra plutôt penser en termes de hiérarchie de critères. Ces pages s’ouvrirons aussi à des adjectifs peu abordés. Que l’on ouvre n’importe quel roman ou journal : on y trouve bien autre chose que français, petit , rond ou vert. Que fait-on des correspondant, innombrables, mouillé, occidental et autre précédent ? Nous n’avons, dans le corpus général, qu’un bon millier d’adjectifs représentés. Mais au moins, sont-ils de tous les types.

Enfin, il apparaîtra également que si la valeur d’un caractérisant favorise a priori sa place

dans une séquence, inversement, sa place influe sur sa valeur. Certains caractérisants

n’offrent pas une grande latitude sémantique et leur mobilité sera réduite, d’autres au

contraire changent de sens au gré de leur emploi et de leur position dans le syntagme

nominal.

(5)

II. Le cadre : la traduction assistée par ordinateur

Nous avons voulu situer cette étude dans un cadre formel où les règles dégagées de l’analyse linguistique puissent servir par exemple à l’enseignement du français langue étrangère ou à un système de traitement du langage naturel : génération ou traduction.

Notre intérêt pour la notion de caractérisant (ou de quantifiant) tient aussi au contexte traductif ou comparatiste de nos recherches. Quand on traduit, on ne traduit pas un adjectif par un adjectif ou une proposition relative par une proposition relative. La fonction reste, la catégorie morpho-syntaxique varie.

Mais qui dit traitement du langage naturel (TLN) dit formalisation. Nous avons voulu mettre en pratique les règles dégagées, ce qui nécessitait une explicitation et une formalisation informatique ainsi que des procédures. Pour échapper à une théorie linguistique particulière et à un formalisme particulier, nous avons décidé d’expérimenter les possibilités d’un langage de balisage fort répandu aujourd’hui, XML et celles de langage associés.

Certes, XML n’offre pas un environnement aussi riche que certains environnements d’unification, mais les langages de la famille XML tournent sur n’importe quel ordinateur, sur n’importe quel système d’exploitation, Linux, MacOs ou Windows. Ce sont des langages que l’on peut mettre entre toutes les mains, et en particulier celles des étudiants.

Une notion particulièrement intéressante dans ces langages de balisage est celle d’hyperlien ou de lien hypertexte. HTML nous a habitués à une vision très réduite du lien hypertexte. Nous tâcherons de montrer sa complexité et comment elle peut être exploitée pour décrire des lexiques, des règles et des corpus.

Il aurait été très ambitieux d’automatiser l’ensemble des règles et tendances auxquelles nos recherches ont abouti. Nous les avons dégagées de l’étude d’un corpus général, reprenant des exemples littéraires, journalistiques et scientifiques. Pour l’implémentation, nous nous sommes limitée à l’analyse de quatre corpus spécialisés : des dénominations officielles, des intitulés de recettes de cuisine, des expressions dans le domaine de la localisation et des termes de biochimie. Cela nous a permis aussi d’aborder différentes langues, dans l’ordre d’apparition : le néerlandais, l’italien et l’anglais.

La traduction, la comparaison linguistique et l’expérimentation constituent une remarquable école d’affinement de la théorie et de rigueur. Nos analyses ne rendent peut-être pas justice à cette expérience, et pourtant nos conclusions sont nées d’un va- et-vient entre la théorie et la pratique. Il va sans dire que l’on traduit vers sa langue, le français était dans notre cadre la langue de génération et lorsque l’on traduit ou que l’on automatise la traduction, on se pose des question à chaque instant.

La traduction automatique (TA) est un sujet fascinant pour l’historien des sciences. Les

ouvrages de Mounin (1964) et de Hutchins (1986 et 2000) témoignent de ce que la

vision de cette discipline est ancrée dans son époque. Aujourd’hui, elle fait souvent

sourire le non-spécialiste. Et pourtant, en 1954, un certain Léon Dostert était le

(6)

directeur scientifique du premier essai pratique de traduction automatique – russe- anglais. Léon Dostert est autrement connu pour avoir été l’interprète d’Eisenhower durant la deuxième guerre mondiale et l’organisateur de l’interprétation simultanée au procès de Nuremberg. On peut se demander combien d’interprètes, aujourd’hui s’intéressent à la traduction automatique. Il n’y avait apparemment pas contradiction il y a cinquante ans. Il est d’ailleurs tout à fait remarquable que Dostert est cité soit par les interprètes comme un des pionniers de l’interprétation simultanée, soit par les chercheurs en TLN comme un des pionniers de la TA, mais que l’on ne fasse presque jamais le lien entre les deux personnages

³

.

La traduction automatique (TA), après des débuts « alinguistiques » s’est fortement inspirée de théories grammaticales formalisées, dans le cadre des grammaires à structure de phrase ou de la grammaire de dépendance. On essaie donc de décrire la langue pour pouvoir la traiter et cette description prend la forme d’un ensemble de règles formalisées. Le paradoxe de la TA, c’est qu’elle ne donne pas de très bons résultats, mais qu’elle est pourtant très utilisée dans certains organismes ou entreprises.

L’erreur – ou le mensonge commercial – serait de considérer les logiciels de TA comme des logiciels « grand public », utilisables par tout le monde comme un traitement de texte. Si des logiciels de TA sont effectivement utiles et utilisés, c’est quand tout le processus de traduction a été repensé avec l’objectif d’automatiser au maximum les tâches répétitives. Ce sont souvent des entreprises qui produisent les documents à traduire, qui donc peuvent agir sur ce document source. L’intervention humaine se fera

?? en amont (pré-édition : correction typographique, orthographique, grammaticale et stylistique) et peut prendre la forme d’un « langage contrôlé » : le rédacteur doit utiliser un maximum de déterminants, de prépositions, de pronoms relatifs pour rendre la structure de la phrase la plus explicite, éviter les phrases trop complexes, les suites de noms sans liens logiques…

?? dans la description et l’harmonisation terminologique : tous les termes spécialisés, les noms propres, les noms de produits et de marques doivent être encodés dans les dictionnaires ;

?? en aval : c’est ce qu’on appelle la post-édition qui peut être plus ou moins profonde selon la destination du document : vérifier la correction grammaticale du document peut aller très vite, en vérifier la correction et la cohérence stylistique prendra nettement plus de temps.

Certains systèmes permettent d’agir sur les règles mêmes utilisées par le système ou tout au moins de coder des traductions conditionnelles. La version de Systran utilisée par le Service de traduction de la Commission européenne traduit les temps du passé

3

On attribue parfois à Dostert la paternité de l’interprétation simultanée.

Vasconcellos, qui a travaillé avec lui à la Georgetown University sur ce fameux

projet de TA, commet cette erreur (Vasconcellos, in Hutchins 2000 : 90). En

réalité, la simultanée remonte aux années 1920 ; elle était même utilisée depuis

1936 au Parlement belge (Spadin 1982 : 40-46). La technique la plus utilisée était

alors la consécutive, technique que préféraient les interprètes car elle les mettait

en évidence. Mais cela aurait été bien trop long à Nuremberg et Dostert eut

l’intelligence d’utiliser l’interprétation simultanée, technique encore imparfaite,

pour laquelle peu d’interprètes étaient formés, mais qui permettrait au procès de

se dérouler à un rythme normal (Spadin 1982 : 47-66).

(7)

des comptes rendus de réunion en anglais par un présent en français ( Le président ouvre la réunion à 15h). La version commerciale de Systran permet de coder des traductions différentes selon le contexte ( to save money = économiser / to save a document, a file = enregistrer/sauvegarder).

Cette vision professionnelle de la traduction automatique peut ne pas faire plaisir aux amoureux de la langue, mais elle ne se conçoit que pour des documents techniques.

C’est sans doute faire un mauvais procès à la TA de lui reprocher son incapacité à traduire de la littérature. L’informatisation ne se conçoit que pour des tâches répétitives, et la traduction littéraire est tout sauf une tâche répétitive.

Un tout autre usage est l’emploi de la TA pour prendre connaissance d’un document dans une langue totalement inconnue. On peut alors accepter une traduction douteuse, du moment que l’on comprenne quel est l’objet du document. Les militaires américains ont pu se contenter d’une traduction brute de documents russes !

Cette option de la TA, fondée sur des règles pose malgré tout des questions de fond. Si cette technique a fasciné des générations de chercheurs, y compris des interprètes et des linguistes comme Dostert et Mounin, c’est sans doute qu’elle est l’occasion d’expérimenter un questionnement sur la langue et sur la pratique traductive. Mais les limites graves de la TA amènent bien sûr à se demander ce qui ne fonctionne pas : est- ce que cette approche ne serait pas la bonne ? Après tout, l’homme n’est parvenu à voler que lorsqu’il a cessé d’imiter les oiseaux : peut-être a-t-on tort de vouloir reproduire le fonctionnement humain pour faire traduire un ordinateur ? Certains systèmes expérimentaux se font fondés sur la notion d’interlangue : une représentation abstraite et indépendante des langues du sens de la phrase. Ceci se rapproche davantage d’une vision « déverbalisante

⁴

» de la traduction ou de l’interprétation, qui se méfie de règles linguistiques source de mot à mot. Il y a des problèmes de fond, et l’optimisme de certains informaticiens n’y changera rien : traduire est une opération sémantique, affective et culturelle. L’ordinateur ne traduit bien que lorsque cette dimension humaine est réduite à sa plus petite expression.

Cette critique de fond n’invalide ni l’emploi qui en est fait ni notre démarche : automatisons la traduction de manuels et de dépêches météorologiques, de contrats, et laissons à l’homme la traduction des romans, des éditoriaux et des messages publicitaires.

Toujours est-il qu’une autre technique s’est développée depuis le début des années 1990 : les mémoires de traduction (MT). Il s’agit de mémoriser les paires constituées du segment en langue source et du segment correspondant en langue-cible. Le segment est une unité qui correspond à une phrase, un titre, une cellule de tableau, un item dans une liste… Ce qui est automatisé ici, c’est l’aspect « mémoire » de la traduction. Pour l’essentiel, ces systèmes se fondent sur la parenté des formes rencontrées. Si la mémoire de traduction a enregistré la phrase

4

Lederer (1994 : 22) emploie le nom « déverbalisation ». Truffaut (1997) est également très représentatif de cette méfiance des traducteurs à l’égard de la linguistique, particulièrement dans son premier commandement intitulé

« Linguistique et traduction tu distingueras ».

(8)

L'Union veille à la cohérence entre les différentes politiques et actions visées à la présente partie, en tenant compte de l'ensemble de ses objectifs et en se conformant au principe d'attribution des compétences.

et qu’il rencontre à présent la phrase :

L'Union veille à la cohérence entre les différentes politiques et actions visées à la présente partie,

il y aura une telle différence de longueur que la première phrase ne sera pas retrouvée alors même qu’elle englobe le nouveau segment.

Toute différence morphologique ou syntaxique réduit la probabilité de retrouver un segment semblable.

Les exigences de la protection de l'environnement doivent être intégrées dans la définition et la mise en œuvre des politiques et actions visées à la présente partie afin, en particulier, de promouvoir le développement durable.

sera semblable à 74 %

⁵

à :

La définition et la mise en œuvre des politiques et actions visées à la présente partie doivent intégrer les exigences de la protection de l'environnement afin, en particulier, de promouvoir le développement durable.

La tendance qui se dessine aujourd’hui est l’intégration des deux techniques, soit en ajoutant une certaine intelligence linguistique à la mémoire de traduction, qui lui permette d’identifier des syntagmes identiques dans des segments différents

⁶

, soit en ajoutant une mémoire de traduction à un système de TA.

Mais la constitution de corpus bilingues offre également d’autres voies de recherche à la T A : la traduction basée sur l’exemple. Par exemple, pour traduire le mot field, on comparera son contexte d’emploi à d’autres : field dans oats field se traduira par champ par analogie avec corn field et par domaine dans the following fields par analogie avec the main fields

⁷

.

La constitution d’immenses corpus a également donné lieu à des tentatives de traduction exclusivement fondées sur des méthodes statistiques. Les premiers essais donnaient un taux de réussite de 48 % (Hutchins and Somers 1992 : 321), résultat lamentable dans les chiffres, mais remarquable si l’on considère qu’il n’y avait là aucune connaissance linguistique.

L’ordre des caractérisants semble bel et bien répondre à certaines règles, même si plusieurs se superposent. Il était au moins pensable de les implémenter dans des univers restreints, où la TA a son rôle à jouer. Il aurait été illusoire d’automatiser le traitement d’exemples littéraires, spécialement ceux où les adjectifs antéposés s’accumulent au gré de la fantaisie et de l’ironie de l’écrivain. Mais, il serait également

5

Test effectué sous Trados Translator’s Workbench 5.5.

6

Comme dans le système Similis : http://www.lingua-et-machina.com.

7

D’après Hutchins and Somers (1992 : 126).

(9)

envisageable de concevoir un système fondé sur l’exemple pour saisir les variations de sens liées aux variations de place.

Un système de TA classique, fondé sur des règles se divise en deux ou trois modules : l’analyse, le transfert et la génération.

L’analyse porte sur la seule langue source, elle a pour données d’entrée une phrase ou un segment en langue source et pour résultat un arbre de structure enrichi de toutes les informations grammaticales que l’analyse aura extraites.

Le transfert opère une traduction des termes et les transformations de structure : l’entrée est l’arbre résultant de l’analyse et le résultat sera l’arbre correspondant dans la langue d’arrivée.

La génération opère sur la seule langue d’arrivée : sur la base d’un arbre syntagmatique abstrait, elle produit la phrase ou le segment correspondant.

Les systèmes à interlangue éludent le transfert puisque l’analyse y est poussée jusqu’à son point extrême, universel et alinguistique.

On représente souvent cette organisation sous la forme d’un triangle qui illustre le mouvement de balancier entre les trois phases : plus l’analyse est poussée, moins le transfert aura de travail et plus la génération sera importante :

Notre point de vue est celui de la génération, puisque nous voulions mettre en lumière des règles d’ordre des mots. Mais, lorsqu’on se situe dans la perspective de la traduction, c’est aussi le transfert qui doit être pris en compte puisqu’il faut déterminer quelles informations devront être transférées pour pouvoir produire le syntagme en français. On doit en outre traiter ce qu’on appelle les composés de transfert et distinguer ce qui sera traité comme un composé de transfert et ce qui serait traité par application de règles. Un composé de transfert est une séquence qui ne peut être traduite littéralement, pour laquelle on doit prendre en compte tout le sous-arbre.

Nous avons ainsi traité errore del disco comme un composé de transfert car la traduction française erreur disque ne peut être prédite par des règles générales. Par contre, calcio-mercato (« marché des footballeurs ») serait sans doute traité comme un composé dès l’analyse en italien.

En résumé, quand on parle de traduction, ce sont ces deux phases, du transfert et de la génération qui sont concernées et que nous avons expérimentées.

analyse génération

transfert

traduction directe (mot à mot)

(10)

III. Organisation du travail

Ce travail s’ouvre sur des considérations théoriques, il se poursuit par la description d’un ensemble de structures en français où apparaissent plusieurs caractérisants. Ces règles sont ensuite appliquées à quatre corpus particuliers, tant français que bilingues.

Les règles ont été implémentées pour expérimenter la traduction d’une dizaine d’exemples représentatifs.

Nous avons commencé par interroger la notion d’ordre des mots et de règle d’ordre des mots. Nous exposons ensuite le cadre théorique de cette étude : une théorie du syntagme nominal qui distingue au sein de la détermination les deux fonctions quantifiante et caractérisante. Nous développons ensuite la notion de caractérisant en la distinguant de celle d’adjectif. Il importait en effet de bien préciser l’objet de notre travail. Les deux fonctions sont interdépendantes et nous essayons de mettre en lumière ce mouvement de balancier. L’adjectif peut être épithète ou attribut (dans la terminologie traditionnelle) : il faudra aussi opposer les fonctions de détermination et de prédication.

Pour fonder nos critères, règles et échelles de linéarisation, nous nous sommes inspirée de la littérature sur le sujet. La classification des caractérisants est très complexe tant par la variété de ce qu’on y met que par les critères invoqués. Nous avons aussi recensé les règles utilisées par différents auteurs pour différentes langues. Nous avons interrogé des grammairiens et linguistes de différentes langues, non seulement parce que nous voulions donner une dimension comparatiste à cette étude, mais parce que différentes traditions grammaticales apportent un éclairage différent à notre sujet. Si, pour l’ordre des modifieurs, les anglo-saxons ont été les plus riches d’enseignements, pour les critères de classement sémantiques, ce sont les grammairiens du néerlandais qui ont été les plus productifs.

Les structures étudiées découpent le problème de la caractérisation multiple sur la base de la disposition et de la nature des caractérisants. Nous avons commencé par la configuration qui nous paraissait a priori la plus complexe : le mélange de compléments du nom et d’adjectifs, nous avons continué par celles qui nous paraissaient à peine moins complexes : les séquences d’adjectifs antéposés puis postposés. Ensuite, nous avons passé en revue les cas de répartition des adjectifs, les séquences de compléments du nom, de compléments des noms de procès et de noms à valence, la place des noms et noms propres, des propositions relatives et conjonctives, les séquences de caractérisants « accumulés ». Cette partie se termine sur une analyse de la structure u syntagme nominal pluricaractérisé.

L’étude des corpus spécialisés et leur automatisation s’ouvre sur un chapitre qui introduit aux formalismes grammaticaux et aux langages de balisage. Il explique ce qui a été mis au format XML, comment et pourquoi. L’accent a été mis sur la notion d’hyperlien qui a été abondamment utilisée, de faço n explicite ou implicite dans la mise en forme des corpus bilingues et dans leurs traitements.

Chaque corpus a été étudié d’abord sur le seul plan du français, ensuite en

comparaison avec une autre langue (le français étant alors considéré comme la langue

cible). Le corpus bilingue peut varier du corpus français, lorsque nous n’avions pas au

départ de corpus bilingue.

(11)

Le premier corpus est assez restreint : il reprend les dénominations officielles, extraites du corpus général, et qui comprennent un adjectif « géographique », au sens large (national, régional…) ou restreint (belge, français…)

Le deuxième corpus porte sur des intitulés de recettes de cuisine et de menus de restaurants. Le corpus français nous a été fourni par M

^me

Englebert. Nous l’avons occasionnellement enrichi d’exemples illustrant des structures peu représentées. Le corpus néerlandais-français correspondant est le fruit de recherches et de traductions du néerlandais vers le français.

Le troisième reprend des syntagmes en italien d’une part tirés de l’édition italienne du Monde diplomatique, d’autres parts d’interfaces de logiciels Microsoft. Malgré l’importance de notre corpus de textes en localisation, nous n’avions pas pu en tirer de nombreux exemples. C’est peut-être aussi la proximité des langues qui demande un corpus plus important pour illustrer des différences structurales significatives.

L’automatisation n’a porté que sur les exemples en localisation : la traduction automatique a plus de chances d’être utilisée en localisation que pour la traduction du mensuel français.

Enfin, un corpus d’exemples en biochimie vient illustrer la traduction anglais-français. Il se base sur la traduction de l’anglais vers le français par des chimistes.

Chaque corpus nous a permis d’illustrer sur un sous-ensemble bien délimité les tendances qui avaient été mises en lumière. Ils présentent chacun aussi leurs particularités : les dénominations étudient les adjectifs géographiques ; les intitulés culinaires peuvent être considérés comme un sous-langage et on peut élaborer un système de classes sémantiques qui lui soit propre ; la localisation utilise beaucoup de noms propres, de noms et d’acronymes en caractérisation directe et les nuances d’emplois se conjuguent à des différences de quantification. Accessoirement, on y observe des stratégies traductives différentes entre l’italien et le français : celui-là recourt régulièrement à la prédication (ha bloccato Word) quand celui-ci préfère la détermination (arrêt accidentel de Word ).

On pouvait s’attendre à voir de nombreux adjectifs dits « relationnels » en chimie organique : ce sont plutôt les adjectifs que nous appellerons « de jugement » : complémentaire, correspondant qui nous ont intéressée.

Nous terminons bien sûr par des conclusions où nous synthétisons no s résultats et les enseignements que l’on peut tirer de ce travail.

Le lecteur trouvera également une liste des abréviations et un glossaire minimal des

principaux termes techniques utilisés. Les corpus et les procédures implémentées sont

repris en annexe et sur cédérom.

I. Le problème linguistique Introduction

C. Simon, La route des Flandres, 1960, p. 279

I. Le problème linguistique

Ce travail a pour objectif de déterminer les règles ou les tendances qui président à l’ordre des caractérisants maillés

Ces séquences appellent un certain nombre de questions.

Les termes techniques sont marqués en gras lors de leur première occurrence et

sont repris dans le glossaire.

T o u t e s l e s s é q u e n c e s s o n t-elles possibles ?

Si plusieurs sont possibles, qu’est-ce qui les distingue ? Quels sont les critères pertinents ?

Dans certains cas plusieurs séquences sont correctes, sans être nécessairement équivalentes : une agréable odeur de chocolat / une odeur agréable de chocolat / une odeur de chocolat agréable.

Dans d’autres cas, une des séquences est incorrecte : un bateau de pêche échoué /

Et qu’en est-il lorsque les caractérisants sont de même nature ?

- Compléments du nom ( les cris de joie de Paula / *les cris de Paula de joie ; le rapport à l’argent des philosophes / le rapport des philosophes à l’argent ; l’emploi abusif d’armes par la police / ??l’emploi abusif par la police d’armes ).

- N’oublions pas les noms propres (la chaîne italienne Canale 5 / *la chaîne Canale 5

italienne ; l’administrateur civil américain à Bagdad Paul Bremer / ??l’administrateur

civil américain Paul Bremer à Bagdad ; le célèbre cabaret Jama Michalikowa à

Cracovie / *le célèbre cabaret à Cracovie Jama Michalikowa ) ni les propositions

relatives (un petit gémissement sourd qui annonce la défaite / *un petit

gémissement qui annonce la défaite sourd ; l’allure qui se veut confiante du papa

/ ??l’allure du papa qui se veut confiante ).

Est-il vrai que la multiplication des caractérisants favorise l’antéposition de l’adjectif ?

un match décisif ? un décisif match de Coupe d’Europe des clubs ; le gouvernement actuel ? l’actuel gouvernement Verhofstadt ; sa face ronde ? sa ronde face joufflue ; une matière irréelle ? une irréelle matière moelleuse

Q u ’ e n e s t-il de la quantification ?

La présence d’un caractérisant peut influencer la quantification ( le courage ? un grand courage ; de l’eau ? une eau pure) et les linguistes ont observé depuis longtemps l’alternance une intelligence d’enfant / l’intelligence de l’enfant.

Certains exemples illustrent clairement le lien qui se noue entre la caractérisation, la quantification et la signification : le (*un) style de Corneille / le (un) style cornélien. Quel est alors l’impact de plusieurs caractérisants ?

À l’inverse, la quantification a-t-elle une influence sur la place des caractérisants quand il y en a plusieurs ?

un match décisif / le match décisif d’Anderlecht contre le Bayern ;

l’ardent soleil de juillet / un ardent soleil de juillet / un soleil de juillet ardent / ??le soleil de juillet ardent ;

une intelligence naïve d’enfant / une intelligence d’enfant naïve / l’intelligence naïve de l’enfant / *l’intelligence de l’enfant naïve

Quelle est la structure du syntagme pluricaractérisé ?

Place de l’adjectif et ordre des caractérisants

Si la faculté qu’ont les adjectifs des langues romanes de s’antéposer ou de se postposer a fait couler beaucoup d’encre, c’est plutôt la séquence des « modifieurs » antéposés de l’anglais qui a attiré l’attention des linguistes.

Ces deux derniers exemples sont tirés de Blinkenberg (1950 : 128).

Enfin, il apparaîtra également que si la valeur d’un caractérisant favorise a priori sa place

dans une séquence, inversement, sa place influe sur sa valeur. Certains caractérisants

n’offrent pas une grande latitude sémantique et leur mobilité sera réduite, d’autres au

contraire changent de sens au gré de leur emploi et de leur position dans le syntagme

nominal.

II. Le cadre : la traduction assistée par ordinateur

Nous avons voulu situer cette étude dans un cadre formel où les règles dégagées de l’analyse linguistique puissent servir par exemple à l’enseignement du français langue étrangère ou à un système de traitement du langage naturel : génération ou traduction.

La traduction automatique (TA) est un sujet fascinant pour l’historien des sciences. Les

ouvrages de Mounin (1964) et de Hutchins (1986 et 2000) témoignent de ce que la

vision de cette discipline est ancrée dans son époque. Aujourd’hui, elle fait souvent

sourire le non-spécialiste. Et pourtant, en 1954, un certain Léon Dostert était le

.

?? dans la description et l’harmonisation terminologique : tous les termes spécialisés, les noms propres, les noms de produits et de marques doivent être encodés dans les dictionnaires ;

?? en aval : c’est ce qu’on appelle la post-édition qui peut être plus ou moins profonde selon la destination du document : vérifier la correction grammaticale du document peut aller très vite, en vérifier la correction et la cohérence stylistique prendra nettement plus de temps.

Certains systèmes permettent d’agir sur les règles mêmes utilisées par le système ou tout au moins de coder des traductions conditionnelles. La version de Systran utilisée par le Service de traduction de la Commission européenne traduit les temps du passé

On attribue parfois à Dostert la paternité de l’interprétation simultanée.

Vasconcellos, qui a travaillé avec lui à la Georgetown University sur ce fameux

projet de TA, commet cette erreur (Vasconcellos, in Hutchins 2000 : 90). En

réalité, la simultanée remonte aux années 1920 ; elle était même utilisée depuis

1936 au Parlement belge (Spadin 1982 : 40-46). La technique la plus utilisée était

alors la consécutive, technique que préféraient les interprètes car elle les mettait

en évidence. Mais cela aurait été bien trop long à Nuremberg et Dostert eut

l’intelligence d’utiliser l’interprétation simultanée, technique encore imparfaite,

pour laquelle peu d’interprètes étaient formés, mais qui permettrait au procès de

se dérouler à un rythme normal (Spadin 1982 : 47-66).

des comptes rendus de réunion en anglais par un présent en français ( Le président ouvre la réunion à 15h). La version commerciale de Systran permet de coder des traductions différentes selon le contexte ( to save money = économiser / to save a document, a file = enregistrer/sauvegarder).

Cette vision professionnelle de la traduction automatique peut ne pas faire plaisir aux amoureux de la langue, mais elle ne se conçoit que pour des documents techniques.

C’est sans doute faire un mauvais procès à la TA de lui reprocher son incapacité à traduire de la littérature. L’informatisation ne se conçoit que pour des tâches répétitives, et la traduction littéraire est tout sauf une tâche répétitive.

Cette critique de fond n’invalide ni l’emploi qui en est fait ni notre démarche : automatisons la traduction de manuels et de dépêches météorologiques, de contrats, et laissons à l’homme la traduction des romans, des éditoriaux et des messages publicitaires.

Lederer (1994 : 22) emploie le nom « déverbalisation ». Truffaut (1997) est également très représentatif de cette méfiance des traducteurs à l’égard de la linguistique, particulièrement dans son premier commandement intitulé

« Linguistique et traduction tu distingueras ».

L'Union veille à la cohérence entre les différentes politiques et actions visées à la présente partie, en tenant compte de l'ensemble de ses objectifs et en se conformant au principe d'attribution des compétences.

et qu’il rencontre à présent la phrase :

L'Union veille à la cohérence entre les différentes politiques et actions visées à la présente partie,

il y aura une telle différence de longueur que la première phrase ne sera pas retrouvée alors même qu’elle englobe le nouveau segment.

Toute différence morphologique ou syntaxique réduit la probabilité de retrouver un segment semblable.

Les exigences de la protection de l'environnement doivent être intégrées dans la définition et la mise en œuvre des politiques et actions visées à la présente partie afin, en particulier, de promouvoir le développement durable.

sera semblable à 74 %

à :

La définition et la mise en œuvre des politiques et actions visées à la présente partie doivent intégrer les exigences de la protection de l'environnement afin, en particulier, de promouvoir le développement durable.

La tendance qui se dessine aujourd’hui est l’intégration des deux techniques, soit en ajoutant une certaine intelligence linguistique à la mémoire de traduction, qui lui permette d’identifier des syntagmes identiques dans des segments différents

, soit en ajoutant une mémoire de traduction à un système de TA.

.

Test effectué sous Trados Translator’s Workbench 5.5.

Comme dans le système Similis : http://www.lingua-et-machina.com.

D’après Hutchins and Somers (1992 : 126).

envisageable de concevoir un système fondé sur l’exemple pour saisir les variations de sens liées aux variations de place.

- Compléments du nom ( les cris de joie de Paula / les cris de Paula de joie ; le rapport à l’argent des philosophes / le rapport des philosophes à l’argent ; l’emploi* abusif d’armes par la police / ??l’emploi abusif par la police d’armes ).

Certains exemples illustrent clairement le lien qui se noue entre la caractérisation, la quantification et la signification : le (un) style de Corneille / le (un) style cornélien. Quel* est alors l’impact de plusieurs caractérisants ?