• Aucun résultat trouvé

Chapitre 2 : Méthodologie

2.4 Traitement des candidats-termes

2.4.1 Élimination des noms de produits et des erreurs

Les listes de candidats-termes comportaient plusieurs noms propres. Nous avons conservé les noms propres faisant référence à une marque regroupant plusieurs produits, comme Google, Windows et Yahoo, car nous voulions comparer la variation de la fréquence de ces noms dans le temps. Cependant, nous avons éliminé ceux qui faisaient référence à un produit en particulier, comme NT (Windows NT) ou AGP (ASUS AGP).

Les listes de candidats-termes comportaient plusieurs termes non lemmatisés ou mal étiquetés (mauvaise partie du discours). C’est dû au fait que l’étiqueteur TreeTagger, utilisé par TermoStat, ne connaît pas certains candidats-termes extraits. De plus, certaines terminaisons caractéristiques des verbes (-s, -ed et ing) peuvent également se trouver dans des noms et des adjectifs.

Nous avons éliminé de chaque liste les candidats-termes mal étiquetés. Dans certains cas, ces candidats-termes se trouvaient également dans la liste correspondant à leur partie du discours, mais dans d’autres cas, ils étaient absents de la liste qui correspond à leur partie du discours. Quant aux candidats-termes nominaux et verbaux non lemmatisés qui étaient extraits séparément lors d’une même expérimentation, nous avons additionné leur fréquence, mais le rang et la spécificité sont ceux de la forme occupant le plus haut rang. Lorsque cette forme n’était pas lemmatisée ou que la forme lemmatisée était absente de la liste des candidats- termes, nous avons lemmatisé le CT pour faciliter la comparaison des fréquences entre les listes. Les tableaux IV et V montrent les candidats-termes nominaux non lemmatisés

download et downloads extraits du sous-corpus 2001-2006, avant et après nettoyage. Comme

le montre le tableau V, la fréquence de download a été additionnée à celle de downloads, mais le rang et la spécificité sont ceux de download.

Rang Candidat de

regroupement Fréquence Spécificité Variantes orthographiques

68 download 152 41.77 download

163 downloads 64 26.97 downloads

Tableau IV : Les candidats-termes download et downloads dans la liste de candidats-termes nominaux issus du sous-corpus 2001-2005 dans l’Exp1 avant nettoyage

Rang Candidat de

regroupement Fréquence Spécificité Variantes orthographiques

68 download 216 41.77 download___downloads

Tableau V : Les candidats-termes download et downloads dans la liste de candidats-termes nominaux issus du sous-corpus 2001-2005 dans l’Exp1 après nettoyage

Nous avons procédé de la même façon pour les CT extraits deux fois dans une même expérimentation. Par exemple, dans la liste des CT nominaux extraits du sous-corpus 2001- 2005 dans l’Exp1, CD-RW drive a été extrait deux fois. Nous avons additionné les fréquences des deux CD-RW drive, mais le rang et la spécificité sont ceux du CD-RW drive qui occupait le rang le plus élevé dans la liste.

Les adjectifs anglais étant invariables, il n’est pas nécessaire de les lemmatiser. Cependant, TreeTagger, l’outil d’étiquetage morphosyntaxique et de lemmatisation derrière

TermoStat, a lemmatisé plusieurs adjectifs participiaux comme si c’étaient des verbes, alors

que dans d’autres cas, les adjectifs participiaux étaient laissés tels quels, comme l’illustre le tableau VI ci-dessous. Pour le nettoyage des listes de CT adjectivaux, nous avons tenu compte du candidat de regroupement et non des variantes orthographiques. Par exemple, parmi les CT du tableau VI, nous avons conservé free et overclocked, puisqu’il s’agit bien d’adjectifs (free peut être à la fois un adjectif et le lemme de freed), alors que nous avons éliminé outperform, puisqu’il s’agit d’un verbe.

Candidat de regroupement Variantes orthographiques

free free__freed

overclocked overclocked

outperform outperformed Tableau VI : Quelques adjectifs participiaux extraits du sous-corpus 2006-2010 dans l’Exp1

Plusieurs noms ont également été classés à tort parmi les adjectifs, probablement parce que ces noms modifient souvent d’autres noms, comme Android (phone) ou setup (menu). Nous avons éliminé ces termes des listes de CT adjectivaux.

Dans l’Exp1, la liste de candidats-termes nominaux extraits du sous-corpus 2001-2005 comptait 3729 candidats-termes avant le nettoyage; la liste de candidats-termes nominaux extraits du sous-corpus 2006-2010, 4548 candidats-termes. Après nettoyage, nous avons choisi de conserver seulement les 500 premiers candidats-termes de chacune des listes de candidats- termes nominaux. Dans la liste de CT nominaux extraits du sous-corpus 2001-2005, le 500e

CT après nettoyage était 524e avant le nettoyage, et dans la liste de CT nominaux extraits du

sous-corpus 2006-2010, le 500e CT après nettoyage était 527e avant le nettoyage.

Les listes de candidats-termes verbaux extraits des deux sous-corpus comptaient respectivement 344 et 367 candidats-termes. Après le nettoyage, ces listes comptaient respectivement 317 et 220 candidats-termes. Quant aux listes de candidats-termes adjectivaux, ils comptaient respectivement 649 et 686 candidats-termes avant nettoyage. Après nettoyage, il restait respectivement 611 et 667 candidats-termes. Comme les candidats-termes verbaux et adjectivaux sont beaucoup moins nombreux que les candidats-termes nominaux, nous avons décidé de conserver l’ensemble des candidats-termes verbaux et adjectivaux après nettoyage.

Il était parfois difficile de décider si un CT était bien classé, notamment pour ceux qui finissent en -s, -ing ou en -ed, qui ne sont pas nécessairement des verbes. L’analyse des parties du discours par TreeTagger n’est pas toujours fiable, et le double classement (par exemple, un nom classé parmi les verbes parce qu’il finit par -ing) en est un symptôme. Lorsque nous avons déterminé qu’un CT était mal classé dans une partie du discours, nous l’avons éliminé dans les deux listes (2001-2005 et 2006-2010) correspondant à cette partie du discours pour assurer la cohérence. Par exemple, nous avons déterminé qu’instant-messaging, qui se trouvait dans les deux listes de candidats-termes verbaux de l’Exp1, est en fait un nom (il n’y a pas de verbe *instant-message), donc nous l’avons retiré des deux listes de CT verbaux (2001-2005 et 2006-2010). Dans certains cas, les termes mal classés dans une liste étaient tout de même présents dans les listes correspondant à la bonne partie du discours; dans d’autres cas, ils ne se trouvaient pas dans la bonne liste. Par exemple, instant-messaging ne faisait pas partie des CT nominaux 2001-2005, mais il se trouvait parmi des CT nominaux extraits du sous-corpus 2006-2010 (cependant, il n’a pas été retenu pour l’analyse parce qu’il ne faisait pas partie des 500 premiers CT). Nous sommes consciente que certains CT éliminés auraient été intéressants à analyser, mais nous avons préféré nous limiter à ceux qui étaient bien classés.

À cette étape, nous avons également éliminé des CT qui semblaient être des erreurs de reconnaissance optique de caractères (ROC). Les textes de notre corpus ont donc sans doute été numérisés. Par exemple, nous avons éliminé *stilt, qui semblait être le mot still mal reconnu par le logiciel de ROC.