• Aucun résultat trouvé

Très peu d’auteurs de dictionnaires indiquent les catégories grammaticales de leurs termes Nous ne pouvons compléter ces données que semi-automatiquement Par rapport

électronique terminologique

5) Très peu d’auteurs de dictionnaires indiquent les catégories grammaticales de leurs termes Nous ne pouvons compléter ces données que semi-automatiquement Par rapport

aux dictionnaires généraux, les dictionnaires de traduction présentent ici un nouvel aspect, car ils contiennent un nombre important d’unités phraséologiques. Analysons quelques exemples du dictionnaire informatique de De Solliers (1998) contenu dans la table Tab.11. Les trois premières entrées ci-dessous sont des sigles nominaux qui peuvent, en particulier, apparaître au pluriel ( two FIFOs = two data structures of FIFO type, two CALLCs = two CALLC instructions). Mais leurs termes complets correspondants sont difficiles à accepter en positions nominales au pluriel ( ?two rotates left through carry, ?two rotate left through carries). Les deux derniers exemples sont des messages provenant des logiciels informatiques. Leur degré de figement est problématique selon les critères présentés dans la section 2.2.2, mais du point de vue de notre application ce sont des éléments figés car ils sont traités par les traducteurs comme unités standardisées. On leur attribue la catégorie Mess qui ne possède pas de flexion. Rappelons que la catégorie d’un composé n’est pas

automatiquement déductible à partir de sa structure. Le dernier exemple de Tab.11 qui est une unité phraséologique, a la même structure que building block system (système à blocks fonctionnels) qui est un nom composé.

Entrée =

FIFO first in, first out

RLC rotate left through carry

CALLC Call if Carry

digit expected ceci devrait être un chiffre building file list création de liste en cours

Tab.11 Exemples d’unités phraséologiques de traduction en anglais.

7.5 Construction d’un dictionnaire électronique anglais de

l’informatique pour le TALN.

Afin de pouvoir utiliser les dictionnaires techniques du LexPro pour la reconnaissance automatique des termes par les algorithmes du système INTEX, tous ces dictionnaires doivent être convertis en des DELAS et DELAC spécialisés, et ensuite fléchis pour obtenir leurs DELAF et DELACF correspondants. Une équipe de lexicographes et informaticiens doit donc être amenée à confronter les problèmes présentés plus haut pour une très grande quantité de termes. Nous avons effectué la conversion en DELAS/DELAC des termes anglais contenus dans deux grands dictionnaires informatiques anglais-français : De Solliers (1998) et Hildebert (1998). Les résultats obtenus sont présentés dans le tableau ci-dessous.

De Solliers (1998)

Hildebert (1998)

Union Termes communs

Termes anglais (noms, adjectifs, adverbes, unités phraséologiques figées) 50 554 54 207 91 483 13 278 (14,5 %) simples 19 946 14 685 27 568 7 063 (25,5 %) composés 30 608 39 522 63 915 6 215 (9,7 %)

Tab.12 Données numériques sur les termes informatiques anglais

La dernière colonne montre à quel point les couvertures de ces deux dictionnaires de référence sont différentes – seulement 14,5% de termes communs - et donne une idée du nombre de

termes existants et pas encore recensés. Ces résultats se rapprochent de ceux pour les deux dictionnaires de la langue générale, NSOED 1996 et HO 1994, dont nous avons obtenu l’intersection des mots composés de 11% (voir section 5.2).

Ci-dessous nous donnons un aperçu des problèmes rencontrés lors de la conversion de l’ensemble des termes faisant l’objet de la table 12 en un système DELA (4 dictionnaires électroniques) de termes informatiques.

7.5.1 Construction d’un DELAS spécialisé de termes informatiques Le DELAS spécialisé de termes informatiques a été construit en 2 étapes.

Lors de la première étape nous avons extrait des deux dictionnaires techniques mentionnés tous les termes simples (séquences sans séparateurs). Ensuite, nous avons recopié les catégories et les codes pour ceux qui se trouvaient déjà dans le DELAS, en leur attachant en plus le trait +Spec pour marquer leur appartenance au langage spécialisé. Ainsi, nous avons obtenu 12 875 entrées du futur DELAS spécialisé sous le format suivant :

[320] disk,N1+Spec

Ce travail a été fait automatiquement mais il a eu des effets de bord indésirables : chaque terme a obtenu toutes les étiquettes possibles indépendamment du sens qu’il avait dans son dictionnaire technique. Ceci n’est pas correct dans le cas général car, comme le remarque Lehrberger (1986), un mot du langage « standard » peut être concerné dans un langage spécialisé par des restrictions au niveau de catégories qui lui sont attribuées. Par exemple, le mot ace apparaissait dans les dictionnaires de De Solliers (1998) et Hildebert (1998) seulement comme substantif (access control entry, a color expert, advanced computing environment, advanced CMOS ECL etc.), mais il a obtenu trois étiquettes du DELAS général : A0, N1 et V4, la première et la troisième ont été donc non pertinentes. D’autre part, parmi les homographes dans le DELAS général il n’y avait pas toujours celui qui correspondait au terme en question. Par exemple, le terme so avait dans les deux dictionnaires quatre significations nominales (sort ; nom d’un virus PC ; synchroton orbital radiation ; Shift Out control character in ASCII ; Send-Only ; Serial Output ; Small Outline), mais dans le DELAS général ce mot ne figure qu’en tant qu’adverbe et conjonction. Ainsi, ce terme reçoit deux étiquettes non pertinentes, so.ADV+Spec et so.CONJ+Spec, mais il ne reçoit pas d’étiquette correcte qui devrait être so.N1+Spec.

Les termes simples qui n’ont pas été reconnus par le DELAS – soit 12 156 mots (6 906 sigles et 5 250 autres mots simples communs et propres) – ont dû être codés manuellement. Ils se divisaient en les catégories suivantes :

1) noms propres

[321] Aberdeen, UniModem, Zenographics, etc. 2) sigles

[322] CAD (computer aider design), CEP (compose edit processor), NCPSI (network control packed-switching interface)

3) séquences soudées de mots simples connus

[323] bitmap, dataflow, filename, groupware, kilobit, etc. 4) mots simples connus avec des préfixes (1369 cas)

5) nouveaux mots obtenus par dérivation des cas 3) et 4) : [325] microprogrammed, monospaced, bitmapped, etc.

6) conversions des participes connus vers des noms (la plupart des participes présents ont obtenu le code N1)

[326] addressing, answering, buffering, etc.

7) conversions des participes connus vers des adjectifs (la plupart des participes présents et des participes passés ont obtenu le code A0)

[327] assembling, answering, calling, magazined, drived, committed, decyphered, etc. 8) « vrais » nouveaux mots simples

[328] a pixel, a profiler, a flagger, a diff, an iterator, a keyer, a lite, a tuple

Remarquons que dans les catégories 6) et 7) ci-dessus se trouvent des mots simples fléchis de la langue générale (i.e. présents dans le DELAF général), mais ils ne sont pas des lemmes donc ils n’ont pas été trouvés dans le DELAS.

Après les traitements décrits ci-dessus, nous avons construit un premier DELAS informatique de 25 031 entrées qui a été fléchi automatiquement vers un DELAF informatique.

Lors de la deuxième étape de la création du DELAS, nous avons utilisé les noms du DELAF général et les noms du nouveau DELAF informatique pour étiqueter les constituants caractéristiques des termes composés. Les constituants qui n’ont pas été reconnus ont été codés manuellement. Pour la plupart ceux-ci étaient des :

9) noms obtenus par conversion des verbes connus

[329] an acknowledge (= an acknowledge message), an add (= an add instruction), a decode, etc.

10) noms obtenus par conversion des adjectifs connus

[330] a cellular (dans analog cellular), a compatible (dans sun-compatibles), a literal, a floppy, etc.

Cette deuxième étape a permis de rajouter 1 871 nouveaux noms simples dans le DELAS de termes informatiques qui comptait ainsi 26 902 entrées, et son DELAF correspondant 73 163 entrées (voir la table Tab.13 pour les données numériques sur ce dictionnaire). Un extrait de ce DELAS se trouve dans l’annexe E.

Quant à l’existence du pluriel des noms simples informatiques inexistants dans le DELAS général, nous n’avons pas fait d’analyse précise et nous avons admis la flexion en nombre pour presque tous les noms, sauf certains cas isolés comme Centronics,N2S et FFFFh,N2S.

Nombre d’entrées Catégorie