• Aucun résultat trouvé

Chapitre 2 : Méthodologie

2.4 Traitement des candidats-termes

2.4.2 Validation du statut terminologique des CT

Après le premier nettoyage des listes d’Exp1, nous avons fait un deuxième nettoyage pour ne retenir que les CT qui sont bel et bien des termes de l’informatique. Bien qu’il soit possible d’observer l’évolution à partir de l’ensemble des unités lexicales extraites, nous avons préféré nous concentrer sur les termes de l’informatique parce que c’est l’évolution du domaine de l’informatique (et donc des termes de ce domaine) qui nous intéresse dans le cadre de cette recherche. Pour valider le statut terminologique des CT, nous avons vérifié les

contextes des CT et nous avons validé leur statut terminologique à l’aide de bases de données terminologiques et des critères de sélection des termes de L'Homme (2004, p. 64-66).

Nous avons consulté les bases terminologiques DiCoInfo4, Le grand dictionnaire terminologique (GDT)5 et Termium Plus6. Le DiCoInfo ne répertorie que des termes de

l’informatique et de l’Internet, tandis que le GDT et Termium Plus sont des bases terminologiques générales. Donc, pour les CT répertoriés dans le GDT et dans Termium Plus, nous avons vérifié s’il y avait au moins une acception qui relevait de l’informatique ou d’un de ses sous-domaines et que cette acception était utilisée au moins une fois dans le corpus.

Cependant, plusieurs termes de l’informatique, notamment des termes verbaux et des termes adjectivaux, mais aussi certains termes nominaux, ne sont pas répertoriés dans les bases de données que nous avons consultées (par exemple, Microsoft, customizability,

searchable et position V). Pour valider le statut terminologique des termes non répertoriés,

nous avons appliqué les critères de sélection de L'Homme (2004, p. 64-66) :

a) L’unité lexicale a un sens qui est lié au domaine de spécialité (ici, l’informatique); ce dernier est délimité au préalable pour un projet terminographique donné.

b) La nature des actants sémantiques peut servir d’indice pour confirmer le sens spécialisé d’une unité lexicale à sens prédicatif. Si ses actants sont déjà admis comme termes en fonction du critère a), l’unité de sens prédicatif risque fort d’être spécialisée elle-même. Cependant, si l’unité de sens prédicatif véhicule le même sens avec des actants non spécialisés, alors l’unité n’est pas spécialisée elle-même. c) La parenté morphologique – nécessairement accompagnée d’une parenté

sémantique – est un indice permettant de confirmer un sens spécialisé. Si des termes ont été retenus en vertu des critères a) et b), leurs dérivés sont forcément spécialisés.

4http://olst.ling.umontreal.ca/cgi-bin/dicoinfo/search.cgi 5http://www.granddictionnaire.com/

d) Toute autre relation paradigmatique, c’est-à-dire autre que morphologique, partagée par une unité lexicale avec un terme déjà admis en fonction des trois premiers critères révèle un sens spécialisé.

Lorsqu’un terme de la liste n’était pas répertorié comme terme de l’informatique dans le DiCoInfo, ni dans le GDT, ni dans Termium Plus, mais que nous avons jugé, d’après les contextes, qu’il relevait du domaine de l’informatique (critère a)), nous l’avons accepté. Par exemple, dans le contexte suivant : « In terms of features and customizability, Firefox, IE, Opera, and Safari all outshine the stripped-down Chrome », on comprend que Chrome est le nom d’un navigateur et qu’il n’a pas le même sens que chrome en métallurgie (nom d’un métal) ou en chimie (nom d’un élément chimique). Nous pouvons donc lier Chrome au domaine de l’informatique.

Lorsqu’un terme de la liste n’était répertorié dans aucune des bases terminologiques que nous avons consultées, mais que ses actants étaient répertoriés comme des termes de l’informatique dans au moins une de ces bases de données, ou qu’ils ont été retenus comme termes de l’informatique en vertu du critère a), nous avons accepté le terme (critère b)). Par exemple, nous avons accepté customizability parce qu’il s’associe avec program (customizability of a program), et program est répertorié comme terme de l’informatique dans le DiCoInfo, le GDT et Termium Plus. De plus, lorsqu’un syntagme comportant un terme de la liste avec ses actants était répertorié, nous avons accepté le terme. Par exemple, l’adjectif

extended a été accepté parce qu’il est souvent utilisé dans le syntagme extended battery dans le

corpus, et ce syntagme est répertorié dans le GDT.

Lorsqu’un terme de la liste n’était répertorié dans aucune des bases de données que nous avons consultées, mais qu’un de ses dérivés y était répertorié comme terme de l’informatique ou qu’il a été retenu comme terme en vertu des critères a) et b), nous avons accepté le terme (critère c)). Par exemple, nous avons accepté unprotected (file) parce qu’il est dérivé de protected, qui était répertorié dans le GDT et dans Termium Plus comme un terme de l’informatique.

Enfin, lorsqu’un terme de la liste n’était pas répertorié comme un terme de l’informatique, mais qu’un terme partageant une relation paradigmatique avec lui était

répertorié ou qu’il a été retenu en fonction des critères a), b) et c), le terme a été retenu. Par exemple, même si phone line est un terme de téléphonie et non d’informatique selon le GDT, nous avons accepté phone line comme terme de l’Internet parce que des contextes indiquent que phone line permet le Web access, comme dans le contexte suivant : « [The Kerbango Internet Radio] was ahead of its time — before the widespread adoption of broadband Internet access, before wireless Ethernet — and giving up your phone line for dial-up Web access (Kerbango's fallback option) just wasn't realistic. ».

Parmi les CT éliminés au deuxième nettoyage (le filtrage des termesqui ne sont pas répertoriés dans les bases de données que nous avons consultées et qui ne correspondent pas aux critères de L'Homme (2004, p. 64-66)), on trouve notamment :

• des expressions et des termes liés aux garanties (ex. : warranty, three-year

warranty, labor warranty, parts warranty, extended warranty, top-performing

(Adj);

• des expressions et des termes liés aux évaluations de produits (ex. : overall

rating, star rating, overall performance, ease of use);

• des termes de photographie (ex. : D-SLR, photo quality, camera, lens,

underexpose (V), overexpose (V));

• des termes de téléphonie (ex. : phone number, cell phone). Cependant, nous avons gardé les termes reliés aux téléphones intelligents, car ces téléphones peuvent être considérés comme de petits ordinateurs;

• des mots de langue générale, particulièrement parmi les verbes et les adjectifs (ex. : depend, appreciate, do, typical, big, great).

Nous avons également éliminé les CT que nous avions omis d’éliminer à la première étape du nettoyage de l’Exp1 : noms de produits précis et CT mal classés. Nous avons également trouvé quelques CT qui semblaient être des erreurs de reconnaissance optique de caractères (les textes ayant probablement été numérisés) et nous les avons éliminés : *dick (probablement click d’après les contextes), *HDML (probablement HDMI), *wilt (probablement will) et *stilt (probablement (still), que nous avons aussi éliminés.

Pour les Exp2 et Exp3, nous avons combiné les deux étapes de nettoyage en une seule étape, que nous avons effectuée avant de regrouper les listes. Nous avons en effet jugé que cette façon de procéder serait plus efficace que de faire deux étapes de nettoyage puisque les CT étaient relativement peu nombreux pour les Exp2 et Exp3.

Pour les Exp2 et Exp3, nous avons retenu les CT qui avaient déjà été retenus dans les expérimentations précédentes, et nous avons éliminé ceux qui avaient déjà été éliminés dans les expérimentations précédentes. Pour les CT extraits dans les Exp2 et Exp3 et qui n’ont pas été extraits dans les expérimentations précédentes, nous avons procédé comme pour l’Exp1 : nous avons vérifié les termes en contexte et nous avons vérifié si le terme est répertorié comme terme de l’informatique dans le DiCoInfo, le GDT ou Termium Plus, et si ce n’était pas le cas, nous avons appliqué les critères de L'Homme (2004, p. 64-66) pour déterminer si le terme appartient ou non au domaine de l’informatique.

L’Exp2 a donné très peu de CT : 31 CT nominaux extraits du sous-corpus 2001-2005, 33 CT nominaux extraits du sous-corpus 2006-2010, un CT adjectival extrait du sous-corpus 2001-2005, deux CT adjectivaux extraits du sous-corpus 2006-2010, aucun CT verbal extrait du sous-corpus 2001-2005 et deux CT verbaux extraits du sous-corpus 2006-2010. Un seul CT n’était pas lemmatisé, apps (app n’était pas dans la liste), et nous l’avons lemmatisé. Nous pensons que ce petit nombre de CT extraits est dû au fait qu’il n’y a pas beaucoup de différence entre les sous-corpus et le corpus de référence (chaque sous-corpus correspond à environ la moitié du corpus 2001-2010).

Dans l’Exp2, nous avons seulement retenu les listes de CT nominaux, car un seul adjectif et aucun verbe a été retenu après le nettoyage des listes de ce groupe d’expérimentations. Les deux seuls CT verbaux extraits (tous dans le sous-corpus 2006-2010) étaient des verbes très généraux, be et go. Parmi les trois CT adjectivaux extraits, seul

extended (capacity), extrait seulement du sous-corpus 2006-2010, est un terme de

l’informatique. Parmi les deux autres CT adjectivaux, il y en avait un qui était mal classé (Android, extrait seulement dans le sous-corpus 2006-2010, qui est en fait un nom propre), et un autre ne relevait pas du domaine de l’informatique (oustanding, extrait seulement du sous- corpus 2001-2005). L’Exp3, quant à elle, a donné un peu plus de résultats que l’Exp2, mais les résultats de l’Exp3 étaient tout de même beaucoup moins nombreux que ceux de l’Exp1.