Problématiques générales - : Le transfert et la génération

Chapitre 11 : Le transfert et la génération

11.2 Problématiques générales

Dans cette section, nous abordons deux types de problématiques, en commençant par celles liées au transfert, puis en abordant les différentes implications de la génération.

11.2.1 Problématiques de transfert

En traduction automatique, on distingue généralement deux types de transferts, le transfert lexical et le transfert structurel. Ce dernier s’occupe principalement de transposer les informations d’ordre syntaxique dans la langue cible, permettant d’organiser les éléments de la phrase. Le transfert lexical s’occupe, comme son nom l’indique, des unités lexicales. Il consiste dans le remplacement de l’unité lexicale en langue source par une unité lexicale en langue cible.

Dans notre système, le transfert lexical est effectué sur deux plans ; d’une part le transfert de la base du mot construit à traduire, d’autre part le transfert du procédé de construction (c’est-à-dire du préfixe) dans la langue source. Le transfert de la base est confronté à des problématiques assez générales en traduction automatique, notamment quand il n’y a pas de rapport 1 :1 entre les unités lexicales des deux langues, ce qui est généralement le cas. Nous présentons différents exemples liés à cette problématique dans la section 11.2.1.2 ci-dessous. Mais avant cela, nous abordons la problématique du transfert des procédés de construction.

11.2.1.1 Transfert des procédés de construction

Le transfert du procédé de construction concerne dans notre approche le choix du préfixe. Nous n’abordons pas ici les problématiques d’alternance entre des préfixes interchangeables, car cette problématique est largement présentée à la section 11.3 ci-dessous.

Dans les RCL où l’exposant est unique dans la partie française, le transfert ne pose pas de problème particulier. Par exemple, dans la RCL de soutien partisan, dont nous reproduisons ci-dessous l’implémentation informatique, tout mot analysé comme construit en italien avec le préfixe pro est traduit en français par une construction en pro.

Rappelons que l’implémentation informatique d’une telle règle est composée de cinq colonnes, la première contenant le préfixe italien, les deux suivantes les catégories d’input et d’output de la règle. La quatrième colonne permet de déclarer une instruction sémantique (ici, le numéro de la classe sémantique issue du tertium) et la cinquième présente le ou les préfixe(s) équivalent(s) de traduction. Une fois effectué le transfert du procédé de construction et de la base lexicale, le mot est généré moyennant quelques adaptations morpho-phonologiques ou morphographémiques (cf. section 11.2.2 plus loin).

pro a_rel a 1.1.10 pro

pro n a 1.1.10 pro

Dans certains cas, le choix du préfixe pour la traduction dépend avant tout du fait que l’analyse ne soit pas ambiguë. Normalement, en morphologie, chaque lexème construit est le résultat de l’application d’une seule règle. Mais dans une implémentation informatique, il arrive que des lacunes dans les informations linguistiques disponibles ne permettent pas de distinguer précisément quelle règle a construit le néologisme. Ces situations sont avant tout dues aux ambiguïtés formelles d’un préfixe. Par exemple, le préfixe sotto est à la fois l’exposant d’une règle de position locative et d’une règle d’évaluation négative. L’analyse automatique des mots construits en sotto ne permet pas de distinguer les deux règles.

Cette ambiguïté ne porte pas à conséquence dans le processus de traduction si la même ambiguïté se retrouve dans la langue cible (c’est le cas pour le préfixe sous en français). En revanche, quand l’ambiguïté formelle dans la langue source n’est pas la même dans la langue cible, l’analyse doit être à même de fournir une représentation désambiguïsée pour que le transfert s’effectue de manière adéquate. C’est notamment l’exemple de la règle de position arrière, que nous décrivons abondamment dans l’annexe I. En effet, le préfixe retro, en italien, entre dans la formation de noms déverbaux et dans la formation de noms de lieux, pour exprimer une position ou un mouvement arrière. Ces deux types de formation ont pour équivalent français un préfixe différent. Comme nous l’avons décrit dans le chapitre 9, la RCL implémentée informatiquement (reproduite ci-dessous) contient donc des contraintes d’analyse en italien qui permettent de sélectionner le bon préfixe en français.

Comme souvent dans les étapes de transfert, c’est avant tout une étape d’analyse très complète qui permet la sélection de la règle à appliquer. Ici, grâce à la contrainte sur l’aspect déverbal du nom-base, le transfert sélectionne la bonne règle de génération, comme le montre les exemples ci-dessous :

retrobottega arrière-boutique retrovisione retrovision retrocabina arrière-cabine retrodiffusione rétrodiffusion retropalcoscenico arrière-scène

Ainsi, la règle semble avoir été correctement sélectionnée en fonction du type de base (déverbale ou non), évitant ainsi la construction de lexèmes incorrects (comme

*rétroboutique, *arrière-vision, *arrière-diffusion, ou encore *rétro-scène).

Une autre problématique liée au transfert et au choix du préfixe se trouve dans les RCL très « peuplées », qui concernent avant tout les préfixations évaluatives. En effet, à l’issue de la projection des préfixes sur le tertium comparationis, nous avions affiné certaines classes et donc certaines règles, mais nous avions également maintenu la possibilité d’avoir des RCL à exposants multiples. Dans certains cas, les préfixes de ces RCL semblent être interchangeables (nous abordons cette problématique dans la section 11.3.1 ci-dessous). Mais dans d’autres cas, la question de la sélection est plus délicate,

retro n_deverb n 1.2 "rétro"

retro n n 1.2 "arrière-"

et d’un point de vue purement pragmatique, nous ne saurions maintenir la possibilité de générer toutes les traductions possibles.

Par exemple, pour la classe d’évaluation qualitative, la projection sur le tertium nous a permis d’individualiser les préfixes arci, extra, iper, sopra/sovra, stra, super, ultra en italien, et archi, extra, hyper, super, sur, ultra, en français. Même si théoriquement nous avons envisagé une seule RCL bilingue contenant tous ces exposants, l’implémentation informatique nous pousse à restreindre les choix de génération.

Bien souvent, les descriptions morphologiques consultées ne suffisent pas à décider quels préfixes sélectionner pour construire l’équivalent de traduction. Nous avons alors opéré un choix beaucoup plus drastique, en sélectionnant comme traduction le préfixe cognat. Même si nous avions dénoncé cette option théorique dans un premier temps, elle nous paraît, dans un second temps, être tout à fait valable puisqu’elle peut être considérée comme le reflet de l’internationalisation du vocabulaire, que nous avons décrite au chapitre 5. C’est par exemple selon ce principe que nous avons formalisé une RCL de qualité importante avec les exposants arci et archi, qui permet de traduire les exemples suivants :

arciministro archiministre arcicattolico archicatholique arciscontento archimécontent arcizeppo archibourré

arcispecializzato archispécialisé arciappassionato archipassionné

Mais pour chaque règle où nous avons suivi une telle option, nous avons testé en corpus la validité du choix (cf. les méthodes décrites au chapitre suivant). Ainsi, l’étape d’évaluation permet également de confirmer ou d’infirmer des options traductionnelles qui avaient parfois été appliquées de manière drastique.

11.2.1.2 Transfert de la base

Le transfert de la partie « base » du mot construit analysé en langue cible est confronté à certaines problématiques très proches des problèmes de transfert lexical en général. En effet, étant donné qu'il est bien rare qu’un item lexical ait un seul équivalent de traduction, la traduction de la base isolée dans le mot construit pose la question du choix.

Evidemment, si pour une base le dictionnaire bilingue ne fournit qu'une seule traduction possible, il n'y a aucun problème. Mais dans le dictionnaire bilingue, un grand nombre d'entrées présentent plusieurs équivalents de traduction⁸¹. La difficulté est alors de choisir l'équivalent pour une bonne traduction. Comme le rappellent (Hutchins et Somers 1992), en cas de traductions multiples, le système a deux options : soit il choisit la traduction la plus fréquente, soit il s’inspire du contexte pour décider. Dans

81 Il s’agit là d’un des biais méthodologiques liés à l’emploi d’un lexique bilingue construit à partir d’un dictionnaire bilingue. Il n’en reste pas moins qu’un lexique bilingue d’un système de TA contiendrait tout de même des cas de traductions multiples, mais dans une moindre mesure.

notre cas, le contexte stricto sensu ne nous permet pas de choisir entre plusieurs bases, même si la règle de préfixation peut apporter des informations de type contextuel. Ainsi, nous avons le choix entre plusieurs options.

La première possibilité serait de prendre le premier élément proposé par le bilingue (en considérant qu’il s’agit sûrement de la traduction la plus probable/fréquente). La seconde serait de sélectionner, quand c’est possible, la traduction qui « ressemble » le plus à la base italienne. Cette possibilité consiste en fait à se fonder sur la cognaticité des mots construits et tient compte des phénomènes d’internationalisation du vocabulaire, que nous avons mentionnés au chapitre 5.

Evidemment, cet argument mériterait d’être évalué.

Dans le même ordre d’idée, nous pouvons également privilégier les bases

« construites », en nous fondant sur le principe évoqué par ((Krott, Schreuder et al.

1999), et plus tard par (Namer 2003)), sur la constructivité de la base. En outre, la constructivité de la base correspond souvent à une construction sémantique bien précise, qui obéit elle-même à une contrainte de la RCL. Ces contraintes sémantiques peuvent se fonder sur ce que nous avons désigné par « indice de constructivité », facilement repérable automatiquement.

Enfin, la dernière possibilité consiste à générer toutes les formes possibles et à les proposer l’utilisateur du système qui devra, dans une étape de post-édition, choisir la forme qui lui paraît la plus correcte.

Même si la première option est sans doute celle qui paraît la plus facile à mettre en œuvre, la possibilité de se fonder sur la constructivité de la base est également intéressante et permet bien souvent d’exclure certaines possibilités de traduction. En effet, nous avons notamment montré dans l’analyseur que la règle de réitérativité, préférait les bases nominales issues d’une déverbalisation, étant donné que c’est sur un aspect « processuel » que s’applique la règle. Cette contrainte sur l’analyse peut également être appliquée sur la sélection de la base en génération, en favorisant les bases se terminant par des suffixes typiques de la déverbalisation en français.

Par exemple, les formes suivantes ont été traduites par trois formes en français : ridescrizione redescription, redessin, rerécit

riinvestigazione réinvestigation, rerecherche, réenquête riassortimento réassortiment, rechoix

En ne choisissant que les cas où la base est construite sur un verbe par une règle

« transparente » de déverbalisation (c’est-à-dire où l’on peut encore repérer le procédé de construction), nous obtenons ainsi une seule forme, qui nous semble d’ailleurs la plus correcte (redescription, réinvestigation, réassortiment). Notons cependant que, dans de nombreux cas, le choix n’est pas possible car les deux formes traduites sont toutes deux déverbales (comme dans ripiazzamento replacement, reclassement, riabolizione réabolition, resuppression ).

Enfin, ajoutons que le même genre d’indices de constructivité peut être appliqué sur les adjectifs, également déverbaux, dans les préfixations en re (comme dans les possibilités de traduction de riaccentuato réaccentué, remarqué, refort ).

D’un point de vue pratique, cette contrainte de génération peut être facilement implémentée dans les règles, en suivant les mêmes principes que pour la contrainte d’analyse (cf. chapitre 9).

11.2.2 Problématiques de génération

Quand le transfert a abouti, c'est-à-dire que pour un mot construit analysé le système dispose des éléments équivalents de traduction, il reste à « reconstruire » l’équivalent de traduction en langue cible. Cette ultime étape soulève différentes problématiques de génération (problèmes phonologiques et morphosyntaxiques, que nous présentons dans les sections 11.2.2.1 et 11.2.2.2). Ces problématiques touchent quasiment la totalité des RCL, à l’inverse de celles que nous présentons dans la section suivante (11.3), qui sont spécifiques à certaines préfixations. Nous présentons également brièvement les raisons pour lesquelles nous avons renoncé à générer une traduction sous forme de glose (section 11.2.2.3)

11.2.2.1 Particularités phonologiques

La construction d’un néologisme en langue cible nécessite la prise en compte d’un certain nombre de paramètres inhérents à l'apposition d'un affixe et de sa base. Ces problèmes sont avant tout guidés par des considérations phonologiques.

11.2.2.1.1 Modification du préfixe

En français, les principales modifications morphophonologiques concernent le préfixe de réitérativité (re) et le préfixe de négation (in). Ces préfixes varient en effet formellement en fonction de la séquence initiale de la base. Pratiquement, c’est donc dans cette partie de génération que l’algorithme modifie, en fonction de la base choisie, la séquence finale du préfixe. Ainsi, re devient ré devant une voyelle, et in devient il devant un l, im devant un m, un b, ou un p, et ir devant un r.

11.2.2.1.2 Génération d'un mot avec trait d’union

Nous l’avons déjà dit pour l’analyse, l'usage du trait d’union est très flottant, en italien comme en français. Pour la génération, le système a alors le choix de générer ou non une forme avec ce signe de ponctuation. Nous avons donc, dans un premier temps, opté pour une approche pratique, consistant à générer le trait d’union uniquement quand des questions morphophonologiques l’exigeaient. Ainsi, nous mettons un trait d’union si le préfixe se termine par une voyelle et si la base commence également par une voyelle (maxi-organisation). Enfin, certains préfixes (comme arrière, avant, etc.) s’emploient toujours avec un trait d’union. Dans ces derniers cas, les préfixes sont d’ailleurs déclarés avec trait d’union dans les RCL.

Mais dans un deuxième temps, et comme nous l’expliciterons de manière plus approfondie dans le chapitre suivant, nous avons remarqué qu’un grand nombre de néologismes français générés par nos règles n’existaient en corpus qu’avec un trait d’union. Ce constat nous a poussé, dans un deuxième temps, à toujours générer certaines formes avec un trait d’union.

11.2.2.2 Particularités morphosyntaxiques

Nous avons travaillé jusqu’à présent dans une optique de traduction du mot inconnu pris isolément. Mais ces mots inconnus, une fois traduits, devront s'insérer correctement dans la phrase de la langue cible, ou, autrement dit, être inclus dans le processus de génération de la phrase.

Pour ce faire, le mot inconnu reconstruit doit être accompagné de toutes les informations permettant une insertion correcte dans la phrase cible, comme le genre et le nombre (pour les noms et les adjectifs) et le temps et la forme, pour les verbes. Il doit également prévoir les informations de sous-catégorisation, afin de gérer de manière adéquate les arguments de verbes néologiques.

En plus, il nous faut aussi gérer des problèmes d’accords, certains mots construits étant invariables en français. C’est le cas notamment des préfixations de noms qui produisent des adjectifs. Ainsi, les grammaires nous enseignent que certains adjectifs, qui sont le résultat de préfixation de bases nominales, sont invariables (des freins antiblocage). Mais quand cet adjectif est utilisé comme un nom, il est alors variable (des antibrouillards (nom), mais des phares antibrouillard (adjectif)).

La norme semble dépendre évidemment de la sémantique de la base. On comprend évidemment l’invariabilité des adjectifs comme antifumée, antigivre. A l’inverse, dans d’autres cas, le pluriel doit être maintenu, même dans une forme lemmatisée (comme pour antirides).

Cette problématique dépasse largement le cadre de ce travail et pose le problème de l’insertion de notre approche dans un système de traduction « complet », impliquant également un transfert structurel pour traduire des phrases dans leur ensemble.

La génération d’un mot construit pour traduire un néologisme n’est pas la seule solution. Nous pourrions également envisager la génération d’une forme syntaxique, d’une glose. Mais nous montrons dans la suite que cette solution est plus complexe qu’il n’y paraît.

11.2.2.3 Génération d’une glose

Jusqu’à présent, nous avons toujours choisi l’option de traduire un mot construit par un autre mot construit. Mais nous pouvons également envisager de générer comme équivalent de traduction une forme « glosée », c'est-à-dire une sorte de définition métalinguistique du mot construit qui reflète le sens de l’opération constructionnelle.

Notons toutefois que, comme l’ont montré (Dal et Namer 2001), il n’y a jamais de rapport de synonymie entre une construction syntaxique et un lexème construit, et que la construction syntaxique constitue tout au plus une approximation du sens du lexème construit. Cette alternative doit toutefois être prise en compte, notamment quand elle permet d’éviter certaines difficultés liées à la construction des lexèmes. Mais comme nous le montrons dans la suite, elle présente de nombreuses difficultés de mise en œuvre.

Au-delà d’une forme « définitoire » du mot construit (et dans notre cas, il s’agirait d’une définition en français d’un mot construit en italien), la glose est une forme syntaxiquement construite et doit donc répondre à plusieurs critères pour être insérée dans la phrase en « remplacement » du mot construit. De plus, d’un point de vue pratique, la formalisation de la glose dans le processus de génération doit être également

guidée par un souci d’unicité. En effet, cette utilisation implique l’implémentation d’une glose unique pour tous les lexèmes préfixés par la même règle.

L’application de la glose nécessite également une analyse complètement désambiguïsée (que la génération du lexème construit ne rend pas forcément aussi nécessaire quand la même ambiguïté formelle existe dans les deux langues – cf.

l’exemple de sotto, toujours traduit par sous, quelle que soit sa valeur sémantique).

Dans certains cas, la glose semble relativement facile à mettre en œuvre, particulièrement quand il s’agit d’une préfixation d’une base verbale ou d’un nom déverbal. Ainsi, nous pouvons envisager les gloses suivantes :

ri+V V à nouveau

retro+Vn Vn vers l’arrière

qui permettent donc de traduire rimangiare par manger à nouveau et retrovisione par vision vers l’arrière.

Les préfixes de nouveauté et d’ancienneté sont également facilement traduisibles par un adjectif, généralement antéposé à la base.

neorealismo nouveau réalisme exministro ancien ministre

De plus, la génération d’une forme de glose peut être envisagée lorsqu’il s’agit de traduire des formes construites dont la règle de construction n’existe pas dans la langue cible. Par exemple, pour les préfixes de pluralité indéterminée, il existe en italien la possibilité de former des adjectifs sur des bases adjectifs déverbaux (pluripremiato). En français, cette possibilité ne semble pas exister. Il faudrait alors envisager la génération d’un syntagme (comme qui a été primé plusieurs fois, pour l’exemple précédemment cité).

Pour les préfixes d’évaluation, le remplacement du préfixe par un adjectif permet de qualifier les bases nominales, comme dans un megastadio un grand stade, ou, bien plus simplement, en utilisant la possibilité que possèdent ces préfixes d’être également utilisés de manière autonome. Ainsi, nous pourrions tout à fait envisager de ne pas construire un équivalent de traduction, mais simplement un syntagme nominal : un superprezzo un super prix. Mais cette apparente simplicité n’est qu’un leurre, et la génération de la glose soulève de nombreuses difficultés que nous synthétisons dans la suite.

Le plus souvent, la règle de préfixation s’applique à la base sémantique de la base formelle. C’est notamment valable pour des adjectifs relationnels. Dans ce cas, la forme syntaxique doit pouvoir utiliser cette base nominale, à laquelle s’ajoute une préposition ou une locution prépositionnelle, permettant de rendre compte de la valeur sémantique du préfixe, comme le montrent les exemples ci-dessous :

intracellulare à l’intérieur des cellules prefrontale devant le front

postorbitale derrière l’orbite

parascientifico en marge de la science

sopraregionale au-dessus des régions multiparitico à plusieurs partis pluriatomico à plusieurs atomes polisettoriale à plusieurs secteurs monocellulare à une cellule bidimensionale à deux dimensions

L’accès à la base sémantique doit également avoir lieu pour les bases déverbales, comme dans la préfixation des adjectifs déverbaux.

indiscutibile qui ne peut pas être discuté

Ainsi, seule une analyse réussie de la base du lexème préfixé en italien permet la génération d’une glose correcte en français. Or, comme nous l’avons vu dans les

Dans le document De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue (Page 185-193)