• Aucun résultat trouvé

Etiquetage des composants simples

électronique des mots composés anglais

3) Les dictionnaires usuels ne sont pas exhaustifs, ce qui est dû entre autres à des contraintes de prix Quand aux mots composés, nous sommes convaincus que leur présence dans

5.4 Etiquetage des composants simples

Une phase importante de construction du DELAC est de reconnaître les constituants simples de tous les composés. Ceci se fait en deux étapes. Premièrement, nous effectuons l’étiquetage des entrées du DELAC par le DELAF anglais entier. Alors, un composant non reconnu peut être soit une faute de frappe qu’il faut corriger, soit un mot correct manquant dans le DELAF. Dans ce dernier cas, le DELAS doit être complété et un nouveau DELAF reconstruit afin d’assurer la cohérence du système de dictionnaires.

La deuxième étape est celle où l’on fournit les codes flexionnels pour les constituants caractéristiques et, dans le cas d’une flexion irrégulière, pour d’autres constituants qui subissent la flexion. Ceci est nécessaire, comme nous l’avons vu dans le chapitre 4, pour la génération automatique du DELACF. Ici, nous effectuons l’étiquetage à l’aide d’un DELAF qui ne contient que les noms et les mots à catégorie hypothétique X (voir ci-dessus), car dans les structures nominales seuls les noms et les mots convertis en noms sont des éléments qui peuvent se fléchir. Ainsi, nous évitons de nombreuses ambiguïtés pour les constituants caractéristiques, surtout ceux qui peuvent être à la fois des verbes et des noms (an answer, to answer, etc.). Si un constituant est un nom ambigu, i.e. s’il reçoit plusieurs étiquettes avec la catégorie N mais avec des codes flexionnels différents (e.g. brother - brothers, brethren), la désambiguïsation se fait à la main.

Examinons quelques exemples de constituants que nous avons trouvés dans le DELAC et qui n’existaient pas dans notre DELAF d’origine.

5.4.1 Nouveaux mots simples communs

Lors de l’étiquetage du DELAC par le DELAF nous avons repéré près de 500 nouveaux mots simples communs, inexistants dans le DELAF. Pour la plupart, ceux-ci étaient des noms (structurist, occupier, rhesus, lych, mistle, lamper, élan, goofer, cribble, diadem, zoot, viscosity, etc.) ou des adjectifs (nitty, arterial, salicylic, reeky, assertory, bally, coequate, cosmical, greaseproof, hypercomplex, structurist, underactive etc.). Un certain nombre de nouveaux noms simples sont obtenus par l’effacement de séparateurs à l’intérieur d’un mot

composé (par exemple blackwood, ironbark, wallbanger, waveband, aftermarket, servicewoman, leftwing).37

Les nouveaux mots qui n’ont pas le statut de mots simples, i.e. qui ne fonctionnent qu’en tant que constituants de mots composés, ont été ajoutés au DELAS avec le code XI s’ils ne subissent pas la flexion, ou avec X suivi du nombre identique à celui pour les noms simples se fléchissant de la même façon. Par exemple, à partir des nouveaux mots (soulignés) dans les composés suivants :

[294] walkie-talkie, hurdy-gurdy (orgue de Barbarie), ne’er-do-well (bon à rien)

nous avons ajouté les entrées suivantes au DELAS : [295] walkie.XI ne.XI er.XI talkie.X1 gurdy.X5 5.4.2 Noms propres

Le DELAS/F anglais ne contient pas de noms propres. Ainsi, l’orthographe des nombreux composés qui contiennent des noms propres ne peut être vérifié qu’à la main, e.g.

[296] Saint Andrew’s Cross, cedar of Lebanon (cèdre du Liban)

De plus, le repérage de ces séquences selon le critère de la majuscule initiale dans le mot inconnu passe sous silence des cas où un nom propre s’écrit en minuscule quand il est dans des composés, par exemple (selon NSOED 1996) :

[297] charley horse (courbature), pitot tube (=Pitot tube ; un tub utilisé pour mesurer la pression), trudgen stroke (un style en natation)

D’autre part, certains composés ont un nom propre en position de tête qu’il faut donc fléchir, comme pour :

[298] doubting Thomas(es) (Saint Thomas), black-eyed Susan(s)

Pour ceci nous avons été obligés d’introduire un petit dictionnaire constitué de tous les noms propres apparaissant dans les entrées du DELAC :

[299] Thomas.N3 Susan.N1 etc. 5.4.3 Emprunts

Un nombre important d’entrées de notre DELAC sont des composés étrangers qui ont été adoptés tels quels dans l’anglais. Comme le montrent les exemples [167]-[170](section 3.4.6), la mise au pluriel dans ces cas se fait soit comme dans la langue d’origine de l’emprunt (nouveaux riches), soit « à l’anglaise » (beau ideals, beaus ideal) soit plusieurs variantes sont admises (operas buffa, opera buffas, opere buffe), soit le pluriel reste égal au singulier (petit bourgeois).

37 B. Courtois, lors du projet de recherche quotidienne de néologismes par Internet dans les journaux « Washington Post » et « New York Times », a aussi constaté cette tendance générale à souder des mots composés anglais pour en créer des mots simples.

Ainsi, les nouveaux mots simples à introduire dans le DELAS obtiennent des codes permettant la génération des pluriels respectifs :

[300] nouveau.X6 riche.X1 beau.X1 ideal.X1

opera.X25 (le même mot avec le code N1 existe déjà dans le DELAS) buffa.X5

buffa.X25 petit.XI bourgois.X2

Nous leur avons attribué la catégorie X car ils ne fonctionnent pas en anglais en dehors des composés (voir section 5.4.1).

5.4.4 Conversions et dérivations

Nous avons aussi trouvé des exemples (sections 3.4 et 3.5) de composés anglais contenant des mots simples qui, en principe, ne sont pas des noms mais qui sont modifiés lors de la mise au pluriel (battle royals, johny-come-latelies, take-aways, has-beens etc.) - voir les exemples [140]-[142], [159], [162], [191]. La première étape de l’étiquetage par le DELAF ne saura pas repérer ces cas car les mots simples en question sont des adjectifs (royal), adverbes (lately), prépositions (away), verbes (been) ou autres parties de discours existant dans le DELAF anglais. Ils seront par contre trouvés lors de la deuxième étape (qui n’utilise qu’un DELAF des noms et des X) et ensuite codés manuellement en tant qu’appartenant à la catégorie X comme ceci a été le cas dans les sections précédentes :

[301] royal.X1 lately.X5 away.X1 been.X1

La première étape de l’étiquetage du DELAC par le DELAF repère les cas de dérivations (voir exemples [190]) où certains constituants simples n’ont pas le statut de mots simples indépendants : up-to-dateness, square-toedness, forty-niner, captain-generalcy etc. Ils entrent dans le DELAS aussi avec le code X suivi d’un nombre indiquant la flexion :

[302] dateness.X3 toedness.X3 niner.X1 generalcy.X5

Finalement, les participes obtenus par conversion des noms en verbes, et non reconnus par le DELAF dans les exemples [192] : better-humored, bowler-hatted, ill-omened, etc. sont codés comme des XI car ils ne subissent pas la flexion :

[303] humored.XI hatted.XI omened.XI