• Aucun résultat trouvé

LE DICTIONNAIRE ÉLECTRONIQUE DES NOMS DE PROFESSION

LANGUES NATIONALES ET DÉVELOPPEMENT

DICTIONNAIRE ÉLECTRONIQUE FRANÇAIS-ESPAGNOL-CATALAN- FRANÇAIS-ESPAGNOL-CATALAN-ARABE DES NOMS DES PROFESSIONS ET DES MÉTIERS 84

2. LE DICTIONNAIRE ÉLECTRONIQUE DES NOMS DE PROFESSION

2.1. Les sources documentaires

Il existe différents langages documentaires présentant un inventaire des noms de professions en français et/ou en espagnol, comme la Classification Internationale Type des Professions (gérée par l’Organisation internationale du travail) qui comporte environ 550 libellés de groupes de professionnels, distribués en quatre niveaux de classement : la Clasificación Nacional de Ocupaciones de l’Instituto Nacional de Empleo (INEM, Espagne) avec presque 4 000 noms de professions ; le Répertoire Opérationnel des Métiers et des Emplois de l’Agence Nationale pour l’Emploi (ANPE, France), avec 10 000 appellations de métiers et emplois, ou la Classification Nationale des Professions du Gouvernement du Canada avec l’important chiffre de 30 000 appellations d’emploi. Des ressources semblables existent pour l’arabe (e.g. Agence tunisienne pour l’emploi) et le catalan (Classificació catalan d’ocupacions, CCO).

Il va de soi que ces ressources doivent être considérées lors de l’élaboration de dictionnaires électroniques, car elles constituent un fonds important de matériaux lexicaux. Elles ont d’ailleurs un intérêt intrinsèque pour de possibles applications dans la mesure où elles représentent un point de référence officiel sur la terminologie de l’emploi. Il importe cependant de souligner qu’un langage documentaire n’est pas un dictionnaire électronique, car les descripteurs ne correspondent pas à des entrées lexicographiques, même si dans certains cas ils peuvent coïncider avec des entrées, et qu’ils ne comportent pas de microstructure.

Dans le cas de langages comportant des relations hiérarchiques, ces relations ne sont pas fondées sur le comportement syntactico-sémantique des unités lexicales et ne sont donc pas directement exploitables en traitement automatique des langues, bien qu’elles puissent constituer une orientation pour la mise en relief de groupements syntactico-sémantiques pertinents en langue de spécialité. Dans nombre de cas, les relations hiérarchiques de type documentaire constituent un raccourci pratique pour le

classement par domaines et sous-domaines ainsi que pour l’établissement de réseaux de variantes et/ou synonymes.

Par ailleurs, il va sans dire que l’Internet est une source de première magnitude quant aux offres et demandes d’emploi et de très nombreux sites spécialisés dans la recherche d’emploi sont à considérer pour le dépouillement lexical (cf. Buvet et Foucou 2000).

2.2. Macrostructure et microstructure du dictionnaire électronique

Nous estimons qu’un inventaire assez complet des noms de profession devrait contenir non moins de 500 lemmes correspondant à des noms simples de haute plausibilité (niveau 1)85 pour chacune des langues considérées. L’ajout des noms simples de moindre plausibilité conduit facilement à un inventaire de plus de 2 000 termes et peut, probablement, être incrémenté de façon très sensible en prenant en considération des variantes diastratiques et diatopiques.

Quant aux noms composés (avocat de l’État, directeur commercial), leur nombre oscille beaucoup en fontion des capacités du système à représenter des schémas productifs en intension (moyennant, par exemple, des moules lexicaux comme marchand de N<produits>, éléveur de N<anl de boucherie>) (cf. Le Pesant, 2003 et Mejri, 1997). Ainsi, par exemple, le dictionnaire dont nous disposons à l’heure actuelle contemple environ une centaine de composés de type profesor de N, et trois schémas productifs, sous forme d’automates à états finis, qui rendent compte de combinaisons possibles mais moins lexicalisées comme :

- profesor de <domaines> : profesor de demografía, profesor de epidemiología - profesor de <langues> : profesor de guaraní, profesor de finlandés

- profesor de <instruments de musique> : profesor de clavicordio, profesor de arpa Cette organisation des dictionnaires, bien que présentant des frontières floues entre les unités lexicales décrites en extension (comme des lemmes) et les composés disponibles mais non réalisés, nous semble correspondre à la réalité dans la mesure où la perception d’une suite comme professseur d’anglais est tout à fait différente de celle d’une suite comme professeur d’ourdou par exemple. Même d’un point de vue strictement applicatif, la typologie de contrat d’un professeur de langues en Espagne présente 18 dénominations correspondantes à 16 langues, les langues classiques (latin et grec ancien) et le libellé générique (non correspondant à une unité lexicale) : profesor de idiomas no recogidos en otro epígrafe. Signalons aussi que nous ne considérons pas d’autres schémas moins productifs (profesor de <établissement d’enseignement>, profesor de <modalité d’enseignement>), dans la mesure où ils peuvent être décrits de façon satisfaisante en extension.

85 Nous distinguons trois couches de plausibilité à l’intérieur du dictionnaire afin de pouvoir, en tout moment, sélectionner uniquement les termes les plus usités (Garrigues, 1992).

Toutefois, les descriptions par intension étant informatiquement coûteuses en termes de temps de traitement, et compte tenu du fait qu’il existe bon nombre de composés non susceptibles d’être engendrés par des schémas, il faut compter sur une liste en extension de non moins de 10 000 lemmes composés pour les noms de profession.

Le modèle de microstructure dont nous nous servons est, pour l’essentiel, celui qui est à la base des travaux du LLI (Laboratoire de Linguistique Informatique, Paris 13), décrit dans des publications comme (Gross, 1999; Gross et Guenthner, 2002). Tout d’abord, les lemmes doivent recevoir une description minimale correspondant à leur catégorie grammaticale et permettant leur flexion automatique. Le trait syntactico-sémantique correspondant aux noms de profession est toujours humain et la classe syntactico-sémantique correspond, par définition, aux <professions> (Nhum<prof>).

Cependant, il existe une grande variété de domaines de spécialité. Le croisement de la classe des noms de profession avec les différents domaines, décrits d’après (Buvet et Mathieu-Colas, 1999), est cruciale pour l’interprétation sémantique des lemmes. En fait, il s’agit d’une classe très particulière par rapport aux domaines, à cause de paraphrases (cf. en français de la branche de l’enseignement, de l’hôtellerie) comme :

Jean travaille comme (avocat, médecin...).

Jean exerce (le barreau, la médecine...).

Jean travaille dans le domaine (du droit, de la médecine...).

D’autre part, les noms de profession présentent, en plus de leur syntaxe commune, des syntaxes tout à fait différentes selon leurs domaines respectifs. Ainsi, par exemple, un nom comme cuisinier et ses (quasi) synonymes sont des sujets appropriés à environ 150 verbes spécifiques du domaine culinaire : aciduler, ailler, assaisoner, braiser, condimenter... Il est cependant important de souligner que, dans beaucoup de ces cas, la sélection d’un nom de profession n’est qu’optionnelle par rapport à celle d’un humain d’un autre type.

Il faut également établir des réseaux de variantes et des synonymes, qui permettent de regrouper au besoin les entrées présentant à peu près le même signifié. Il est important aussi qu’un champ du dictionnaire renseigne sur le niveau diastratique des entrées. Ainsi les formes espagnoles marmitón, fregador, fregaplatos, friegaplatos, limpiador, limpiaplatos, platero (Fr : marmiton) seront marquées comme des appellations familières de la profession auxiliar de cocina, tout comme les formes paleta ou canguro seront étiquetées comme des dénomination informelles de albañil (Fr : maçon) et cuidador (de niños) (Fr : baby-sitter) respectivement86. Les variations diatopiques sont aussi à considérer. Ainsi lustrabotas (Fr : cireur de chaussures) est employé en Amérique latine tandis qu’en Espagne la forme habituelle est limpiabotas.

Finalement, on sélectionne des équivalences de traduction vers les langues cibles considérées. Il est important de souligner que ces traductions n’ont un sens que dans la mesure où elles pointent vers des entrées d’un dictionnaire électronique monolingue de la langue considérée (Blanco, 2001).

86 Bien entendu, certaines différences de sens peuvent exister. Il n’en reste pas moins que le regroupement par séries synonymiques est fort utile pour des applications (e.g. assistance à la recherche d’emploi).