• Aucun résultat trouvé

3. M ÉTHODOLOGIE

3.2. Corpus des communiqués de presse de l’ESA – premier corpus de

3.2.5. Extraction des termes

3.2.5.1. TermoStat

TermoStat est un système hybride d’extraction semi-automatique des termes, mis au point par Patrick Drouin (2003). TermoStat extrait les termes candidats d’un corpus, c’est-à-dire qu’il établit une liste de toutes les unités qui pourraient probablement être des termes. Un terminologue examine ensuite cette liste de termes candidats, afin de ne retenir que les termes qu’il estime pertinents. C’est pourquoi il s’agit d’extraction semi-automatique et non d’extraction automatique. Le rôle du terminologue est en effet absolument nécessaire, car il doit évaluer le

25

potentiel terminologique d’un terme candidat pour pouvoir le valider en tant que terme. La dimension sémantique est cruciale pour la validation des termes candidats et c’est justement ce que l’ordinateur ne peut pas prendre en charge.

Il existe plusieurs systèmes d’extraction de termes : les systèmes linguistiques, les systèmes statistiques et les systèmes hybrides, qui exploitent les avantages des deux premiers systèmes.

TermoStat est un système hybride, car il applique un traitement linguistique puis un traitement statistique au corpus d’analyse, c’est-à-dire le corpus duquel seront extraits les termes candidats.

D’ailleurs, selon Cabré, Estopà et Vivaldi (2001 : 29), un système hybride donne de meilleurs résultats qu’un système uniquement linguistique ou uniquement statistique.

Le traitement linguistique appliqué par TermoStat consiste à lemmatiser et à étiqueter le corpus d’analyse, puis à repérer les termes candidats sur la base de leur construction (patron). Un patron représente les catégories grammaticales de chaque mot composant un terme complexe. Les patrons peuvent être très variés, présentant des combinaisons de catégories grammaticales plus ou moins complexes. Considérons, par exemple, parabolic flight, solar wind, geostationary orbit et deep space. Nous pouvons remarquer que ces quatre exemples sont construits selon le même patron, un adjectif suivi d’un nom. Puisque ce sont tous les quatre des termes, nous pouvons en déduire qu’une unité lexicale construite selon le même patron (adjectif + nom) peut être un terme.

TermoStat recense donc toutes les unités lexicales correspondant à un patron défini à l’avance.

TermoStat filtre ensuite ces résultats en appliquant un calcul statistique basé sur la fréquence des termes candidats dans le corpus d’analyse et sur leur fréquence dans le corpus de référence, c’est-à-dire le corpus de langue générale utilisé comme référence (Drouin, 2003). Ce calcul compare la fréquence relative d’un terme candidat dans les deux corpus et lui attribue un score. Plus le score est élevé, plus la probabilité qu’il soit un terme appartenant au domaine du corpus d’analyse est élevée (Ibid.). Pour l’anglais, le corpus de référence contient environ huit millions d’occurrences provenant pour la moitié d’articles du journal montréalais The Gazette publiés entre mars 1989 et mai 1989 et, pour l’autre moitié, du British National Corpus1.

TermoStat comporte de nombreux avantages, parmi lesquels le fait qu’il repère aussi bien des termes simples que des termes complexes, ce qui n’est pas le cas de tous les systèmes (Lemay, L’Homme, & Drouin, 2005 : 228). Le score, qui prend en compte un calcul basé sur la fréquence des termes candidats et non uniquement leur fréquence, est également un réel avantage de ce système. Ainsi, même si un terme a une fréquence très basse, il peut tout de même être repéré par

1 TermoStat, http://termostat.ling.umontreal.ca/index.php, consulté le 17 mars 2014.

26

TermoStat. Nous avons donc décidé d’extraire les termes du corpus constitué des communiqués de presse de l’ESA avec TermoStat principalement pour ces deux raisons.

Nous avons donc d’abord procédé à l’extraction des termes candidats nominaux, puis des termes candidats verbaux. Si nous avons décidé d’extraire également les termes candidats verbaux, c’est parce que nous pensons que les verbes sont tout aussi intéressants que les noms en terminologie.

Il est en effet aujourd’hui reconnu que les verbes peuvent tout à fait véhiculer des connaissances spécialisées (L’Homme, 2012). Dans notre cas, et à partir de nos propres connaissances du domaine spatial, nous supposons que de nombreux verbes pourraient avoir un sens spécialisés dans ce domaine et qu’il serait donc intéressant de les examiner de plus près dans notre travail.

En effet, les verbes « voler »/« to fly », « atterrir »/« to land », « lancer »/« to launch » ou

« propulser »/« to propel », par exemple, véhiculent un sens spécialisé dans le domaine spatial.

Ainsi, l’inclusion des verbes à notre étude nous permettrait de représenter au mieux le domaine, d’une part, et, d’autre part, d’obtenir une liste de termes diversifiée, susceptible de contenir de nombreux candidats à la déterminologisation. L’extraction des termes candidats verbaux nous permettra également d’asseoir ou non notre intuition à propos du verbe dans ce domaine.

3.2.5.2. Extraction des termes candidats nominaux

La liste de termes candidats nominaux obtenue avec TermoStat était globalement conforme à nos attentes, même s’il y avait plus de bruit que ce que nous avions pensé au départ. Nous pensons pouvoir expliquer ce bruit par le degré de spécialisation du corpus, qui était plus faible que s’il s’était agi de textes provenant de revues scientifiques ou de manuels, par exemple.

Toutefois, nous avons pu rapidement diminuer le bruit en supprimant immédiatement de nombreux termes candidats, comme http, int, media@esa, ou rue. Les communiqués de presse ont un contenu particulier, par rapport à d’autres genre textuels, ce qui peut expliquer ce bruit. En effet, des adresses, des adresses électroniques ou des URL apparaissent bien plus fréquemment dans les communiqués que dans d’autres genres. Certains éléments apparaissent même dans tous les communiqués. Il est alors tout à fait compréhensible que TermoStat ait retenu ces éléments en tant que termes candidats, puisqu’ils ont une fréquence relative bien plus élevée dans le corpus d’analyse que dans le corpus de référence.

Prenons l’exemple de rue. Les communiqués de presse contiennent un certain nombre d’adresses (d’autres agences spatiales, de personnes à contacter, etc.), dont certaines se trouvent dans un pays francophone. De plus, même si rue existe en anglais, il est bien moins fréquent que le rue français utilisé dans des adresses figurant dans les communiqués de presse. Si TermoStat a retenu

27

rue comme terme candidat, c’est donc parce qu’il apparaît significativement plus fréquemment dans le corpus d’analyse que dans le corpus de référence.

Les unités retenues comme termes candidats telles que information ou contact s’expliquent par le fait que les mêmes phrases types reviennent dans la plupart des communiqués de presse. Leur fréquence est effectivement très haute : 1924 et 885 respectivement. Information revient principalement dans les phrases « For further information … » et « For more information… », ainsi que dans leurs variantes « For additional information … », « For more detailed information … » et « For information on … ». Contact apparaît le plus souvent dans l’expression « please contact : … » ou simplement « contact : … ».

Ces quelques exemples pour montrer que les résultats de l’extraction de termes sont typiques du genre particulier des communiqués de presse. Néanmoins, nous avons rapidement pu éliminer ce bruit.

3.2.5.3. Extraction des termes candidats verbaux

Nous avons pu constater un certain bruit dans la liste de termes candidats verbaux établie par TermoStat. En effet, de nombreux verbes font partie des phrases typiques des communiqués de presse, comme attend et wish dans « Media representatives wishing to attend… », ou du vocabulaire général, comme schedule ou follow.

Peu de verbes appartiennent clairement au domaine du spatial. Mentionnons tout de même launch, orbit et probe, qui ont également été retenus lors de l’extraction de termes candidats nominaux. Les formes canoniques nominales et verbales de ces unités se confondent en anglais et, si nous les retenions, nous aboutirions à une liste de termes comprenant des doublons, ce qui n’est pas souhaitable dans le cadre de nos recherches.

Au vu du peu de termes candidats verbaux validés en tant que termes et dont la forme canonique est différente du terme nominal déjà retenu, nous avons décidé de continuer cette étude uniquement sur la base des termes nominaux obtenus avec la première extraction.