• Aucun résultat trouvé

Terminologie multilingue de référence (Ressources Humaines)

6.2 Annotation des corpus

6.2.1 Terminologie multilingue de référence (Ressources Humaines)

Nous disposions d’une terminologie multilingue structurée relative au traitement d’en- quête dans le domaine de Ressources Humaines, dont le squelette est représenté sur la figure 6.3. Cette terminologie, développée manuellement par un expert du domaine au sein de l’en- trepriseVerbatim Analys – VERA, est hiérarchiquement organisée en trois niveaux : 17 thèm , une soixantaine de super-class et plus de 800 class . La partie gauche de cette hiérar-

chie semble bien équilibrée, alors que dans la partie droite, 646class sont regroupées sous

110 CHAPITRE 6. EXTRACTION DE TERMES

le domaine, mais dont l’expert du domaine ne souhaite pas détailler la structure. Ce déséqui- libre n’aura aucune influence sur la suite de nos traitements.

Figure 6.3 – Visualisation sous forme de graphe du squelette 13de la terminologie multi- lingue structurée utilisée comme référence dans les expériences. Le nœud central (violet), cor- respond à la racine, les nœuds verts aux thèmes, les nœuds rouges aux super-classes, les nœuds bleus aux classes.

En principe, pour une langue donnée, les niveaux supérieurs de la hiérarchie (thèm et super- class ) ne sont pas instanciés par des termes ; ils sont identifiés par un identifiant unique et

possèdent des instances de « titre » dans différentes langues. Seul le niveau desclass , le plus

spécifique, peut comporter des instances de termes dans n’importe quelle langue. Les titres d’un niveau hiérarchique supérieur (au plus un par langue) ont été choisis par l’expert du domaine pour leur représentativité parmi les termes instanciés dans au moins une des classes subsumées. La figure 6.4 présente un fragment de la terminologie multilingue de référence, en français (a) et en chinois simplifié (b). Il est à noter qu’une classe existant pour une langue peut ne pas être instanciée dans d’autres langues. C’est le cas ici avec la classe « style managerial », qui ne dispose d’aucune traduction en chinois dans la terminologie de référence.

11. Ce graphe ne comporte aucune instance de terme. Il représente uniquement les classes thématiques et leurs liens hiérarchiques. Plus une classe est générique, plus elle est proche de la racine de l’arborescence.

6.2. ANNOTATION DES CORPUS 111 Figure 6.4 – Représentation partielle d’une portion de la terminologie multilingue présen- tant les titres de troisthèm , deux super-class , trois class et deux instances. Les titres des

classes correspondent à des traductions, ce qui n’est pas nécessairement le cas pour les ins- tances de termes. La notation « L : » représentant des lemmes, sera expliquée plus bas.

(a) En français (b) En chinois simplifié

Cette terminologie multilingue compte actuellement dans sa hiérarchie des termes 36 langues et variétés de langues. Le tableau 6.3 présente le nombre de termes 14 par langues pour l’en- semble de la ressource de référence dans la dernière version sur laquelle nous avons travaillé (version de 2014). En postulant que la version française de cette terminologie soit complète, la troisième colonne du tableau 6.3 (« Avancement (%) ») propose une estimation du pour- centage d’avancement pour toutes les langues.

Elle a été construite par validation et complétion manuelles à partir, entre autres, des résultats d’un système simple d’extraction de candidats qui repose sur des métriques classiques (t-test

sur la fréquence de n-grammes par rapport à un corpus de référence et mesures d’association). Les termes d’une langue ont été autant que possible traduits à l’aide d’outils de traduction automatique dans les autres langues, par des experts en Ressources Humaines ne parlant pas nécessairement les langues pour lesquelles ils ont développé ces terminologies. Cette ressource est donc incomplète dans certaines langues, et peut également comporter des entrées incor- rectes. La figure 6.3 indique, en ce qui concerne nos langues de travail, que la ressource termi- 14. Ce nombre fait référence aux instances « non développées », c’est à dire qu’un lemme ou une expression régulière compte pour un seul terme.

112 CHAPITRE 6. EXTRACTION DE TERMES

nologique possède une excellente couverture pour l’anglais et le français. L’allemand est éga- lement très bien représenté. Sur ces trois langues en particulier, les experts ayant développé la ressource ont contrôlé la qualité des termes avec précision. Les termes dans les autres langues résultent en majorité de ce premier développement. La couverture de cette terminologie est également satisfaisante en ce qui concerne le polonais et le turc, mais beaucoup moins pour le chinois simplifié ou l’arabe. Pour ces derniers, le taux de couverture descend en dessous de 50% par rapport à la ressource en français. Plus particulièrement, les auteurs de la terminologie en arabe indiquent qu’il existe une marge d’amélioration considérable. Toutefois, son utilisation régulière durant plusieurs années pour une application industrielle à grande échelle indique que sa couverture est de qualité suffisante pour des applications réelles.

Cette terminologie ayant pour but d’automatiser et de systématiser autant que possible les tâches liées au traitement des verbatim, les termes recensés sont en réalité des mots, des lemmes (pour certaines langues européennes 16), des expressions régulières, et des séquences de mots, lemmes et expressions régulières pertinents pour l’identification de concepts liés aux ressources humaines les plus abordés par les répondants aux enquêtes. Par exemple, dans la figure 6.4 (a), les mots précédés d’un « L : » sont des lemmes, dont les formes fléchies peuvent être générées en aval des traitements. Ains le terme « L :équipe de management » désigne indifféremment « équipe de management » ou « équipes de management ». Un exemple d’expression régulière, en allemand, est le terme « *wachstum* » (« *croissance* »). Ce der- nier permet d’inclure de façon compacte des termes comme «Vermögenswachstum » (« la

croissance des actifs ») ou «Wachstumsraten » (« taux de croissance ») à la terminologie.

Dès lors qu’un item présent dans la terminologie multilingue pour une langue donnée corres- pond à un ou plusieurs token(s) informé(s) dans le corpus de spécialité de cette même langue, ces tokens se voient assigner des étiquettes permettant de les repérer dans le corpus. La section suivante présente le jeu d’étiquettes choisi.