• Aucun résultat trouvé

Nous présentons la mise en œuvre des collocations pour identifier des connaissances linguistiques et nous discutons la méthode proposée.

5.6.1 Méthode

Plusieurs mesures d’association ont été appliquées pour extraire au- tomatiquement des collocations. Si l’Information Mutuelle (Fano 1961) permet d’identifier des unités lexicales qui apparaissent plus souvent en- semble que séparément, le Z-score (Berry-Rogghe 1973) est plutôt privilé- gié pour déterminer les collocatifs candidats d’un terme donné. Dans ce travail, nous associons à une liste de termes donnés leurs meilleurs collo- catifs en nous appuyant sur la mesure du Z-score puisque nous connais- sons a priori les termes que nous souhaitons illustrer. Ces collocations ser- viront, par la suite, à sélectionner des contextes potentiellement riches en connaissances linguistiques : des CRCL candidats.

Les mesures d’association peuvent également être combinées à des ana- lyses linguistiques telles que l’analyse syntaxique (Fellbaum 1998). Ces analyses, jouant un rôle de filtre, permettent d’affiner la qualité des collo- cations obtenues et de les classer selon leurs schémas syntaxiques. Evert et Krenn (2005) montrent la nécessité de distinguer les catégories syn- taxiques des collocations avant d’appliquer une mesure d’association. Ici, nous nous appuyons sur la définition des collocations que nous avons adoptée dans la section 3.6. Nous retenons alors trois catégories de col- locations nominales dans lesquelles la base est un terme à illustrer et le collocatif est un nom, verbe ou adjectif.

Pour les collocatifs conjugués au participe présent ou au participe passé, ils ont été intégrés dans la catégorie des adjectifs. En effet, établir

5.6. Collocations pour connaissances linguistiques 65

une différence entre participe passé et adjectif est difficile pour l’étiquetage automatique en parties de discours (POS). S’agit-il dans l’apposition de la phrase L’usine sérieusement endommagée par l’explosion, devra être arrachée et entièrement reconstruite d’un adjectif ou d’une phrase passive inachevée el- liptique ? Il semble pour autant justifié d’« admettre un continuum entre les deux valeurs [...] » (Noailly 1999, p.19) d’autant plus qu’il n y a pas de différence de sens. Par conséquent, les limites entre les collocatifs adjectifs ou participes présents sont, elles aussi, fluctuantes. Nous regroupons alors les participes passés et les participes présents dans la même catégorie que les adjectifs.

Guillaume (1984) aborde la grande proximité de l’infinitif relativement à la catégorie du nom puisqu’il peut porter un statut « pleinement » no- minal. C’est-à-dire que l’infinitif participe dans le discours de la nature du nom. Nous regroupons alors les noms et les infinitifs dans la même catégo- rie. Le choix d’intégrer les participes présents et passés dans la catégorie des adjectifs, et les infinitifs dans celle des noms permet de résoudre le problème de conflit d’étiquette morphosyntaxique.

Ainsi, nous obtenons, à la fin de cette étape, trois schémas syntaxiques de collocations dans lesquels la base est un terme connu :

— (terme, adjectif ou participe présent/passé) ; — (terme, nom ou verbe à l’infinitif) ;

— (terme, verbe fléchi).

Après avoir filtré les mots outils dans le corpus, nous avons repéré, pour chaque terme à illustrer, les collocations constituées de deux mots pleins dans une fenêtre bigramme : un mot avant ou un mot après la base (sans compter les mots vides) en respectant les schémas syntaxiques étudiées. Afin d’extraire les CRCL candidats nous avons suivi les deux étapes suivantes :

1. identifier pour un terme à illustrer ses collocatifs en fonction de leur catégorie syntaxique et les ordonner selon le Z-score ;

2. parcourir les collocatifs de chaque terme à illustrer et retenir les col- locations (terme à illustrer, collocatif) qui procurent au moins un contexte phrastique (une phrase entière). Les contextes retenus sont ceux dont les mots pleins contiennent le terme et son collocatif dans une fenêtre de bigramme de mots.

Les CRC candidats de la table 5.2 sont identifiés par des collocations dans lesquelles la base est un terme à illustrer.

5.6.2 Discussion

Concrètement, les catégories grammaticales retenues des collocations correspondent à des schémas syntaxiques également exploités en extrac- tion terminologique (Roche 2004) en particulier, pour les termes com- plexes. Étant en outre des expressions polylexicales, en domaine de spé- cialité, les collocations telles que définies par Sinclair se rapprochent des

66 Chapitre 5. Extraction de CRC monolingues

Terme à illustrer Collocatif CRC candidat

Gaz carbonique Ce gaz carbonique qui, transformé

par les plantes, a donné de l’oxygène, indispensable à la vie.

Gas dissolved Gas dissolved in the molten rock ex-

panded and literally blew the volcano apart...

Cendre retombée Les explosions phréatiques se font plus violentes qu’en 1792, et deux ou trois d’entre elles provoquent des retom- bées de cendres sur les villes du prê- cheur.

Cendre retombée Veaucoup d’habitants du prêcheur et

de ses environs viennent se réfugier à Saint-Pierre, épargnée par les retom- bées de cendres.

Table 5.2 – Exemples de CRC candidats identifiés par des collocations

termes complexes, notamment les collocations nominales et adjectivales. Ce problème est l’une des difficultés connues rencontrées lors de l’extrac- tion automatique des collocations pour laquelle roche magmatique (corres- pondant à la structure nom + adjectif) fait partie du bruit. La figure 5.2 illustre l’intersection de l’ensemble des collocations avec celui des termes complexes. Cette intersection représente les associations lexicales parta- geant des critères de syntaxe et de co-occurrence. Toutefois, ces deux no- tions se distinguent par leurs caractéristiques sémantiques. Dans notre travail, nous ne traitons pas l’aspect sémantique des collocations qui ab- sorbent également une partie des termes complexes extraits par le z-score.

Collocations

Termes complexes

Figure 5.2 – Collocations versus termes complexes

5.7

Conclusion

Les ressources conventionnelles utilisées en traduction terminologique sont encore loin d’être satisfaisantes quand il s’agit d’un terme très tech- nique ou lorsque le traducteur n’est pas expert du domaine. Notre pre- mier objectif dans la présente thèse est de compléter les connaissances qui manquent dans ces ressources, à savoir des contextes authentiques de ré- férence. Pour cela, nous nous sommes appuyés sur la notion de contextes riches en connaissances introduite dans un cadre terminologique. Nous avons enrichie cette notion par une dimension linguistique en qualifiant également les collocations de riches en connaissances. Nous avons ainsi distingué deux types de CRC : CRCC et CRCL extraits en corpus de spé- cialité. Nous postulons dans la suite que ces CRC peuvent représenter

5.7. Conclusion 67

une information complémentaire aux ressources habituellement utilisées en traduction, et qu’ils peuvent également être utiles pour les traducteurs. Nous évaluons dans le chapitre suivant les CRC candidats fournis par nos méthodes, et nous étudions la validité de notre hypothèse dans un cadre expérimental de traduction.

6

Évaluation

Sommaire 6.1 Introduction . . . . 71 6.2 Ressources . . . 72 6.2.1 Corpus comparables . . . 72 6.2.2 Marqueurs de relations . . . 72 6.2.3 Liste terminologique d’évaluation . . . 73

6.3 Évaluation manuelle des connaissances conceptuelles 74 6.3.1 Fiabilité des PC . . . 74 6.3.2 Validation manuelle des CRCC . . . 74 6.3.3 Résultats de validation de CRCC . . . 75 6.3.4 Problèmes rencontrés et solutions . . . 76

6.4 Évaluation manuelle des connaissances linguistiques. 77 6.4.1 Consignes aux annotateurs . . . 78 6.4.2 Validation manuelle des CRCL . . . 78 6.4.3 Résultats des collocations . . . 80

6.5 Synthèse : stratégie unifiée. . . . 81

6.6 Évaluation expérimentale en traduction . . . 82 6.6.1 Données expérimentales . . . 82 6.6.2 Expérimentations préalables . . . 83 6.6.3 Expérimentations finales . . . 84

6.7 Conclusion . . . 86

6.1. Introduction 71

6.1

Introduction

C

omme mentionné dans le chapitre 4, plusieurs études ont observé