• Aucun résultat trouvé

Afin de faciliter le travail des terminologues et des traducteurs, des mé- thodes de repérage automatique des collocations ont été mises en œuvre. Ces méthodes essentiellement statistiques peuvent être également combi- nées à des analyses linguistiques telles que l’analyse syntaxique ou mor- phosyntaxique (Fellbaum 1998, Seretan et al. 2008, Seretan 2011). Ces ana- lyses, qui jouent un rôle de filtre, permettent d’affiner la qualité des collo- cations obtenues et de les classer selon leurs catégories grammaticales.

4.5.1 Systèmes d’extraction automatique des collocations

Les systèmes d’extraction automatique de collocations suivent globale- ment la même procédure :

1. dans un premier temps, ils identifient les collocations candidates qui correspondent à des paires de mots (i.e associations). Certains cri- tères comme le schéma syntaxique peuvent être appliqués comme filtres servant à cibler uniquement les associations les plus intéres- santes et ne retenir que les collocations candidates.

2. dans un second temps, ils appliquent leur propre mesure (c f . sec- tion 4.5.2) pour associer à chaque collocation candidate un score de fiabilité.

La première étape est très importante pour la performance de l’ex- traction des collocations. Elle permet de choisir initialement les colloca- tions candidates, ce qui a une influence considérable sur les résultats de la deuxième étape. Optionnellement, un filtre sur un critère linguistique (ex. schéma syntaxique) peut être appliqué sur les collocations candidates afin d’exclure certaines combinaisons jugées moins privilégiées (Nerima et al. 2006, Seretan et al. 2008, Seretan 2011). Parmi ces combinaisons, celles qui incluent des articles, prépositions, conjonctions, auxiliaires, etc. Pour

4.5. Extraction automatique des collocations 49

éviter certains risques, comme l’explosion combinatoire dans des corpus de taille importante, les systèmes d’extraction ne retiennent pas toutes les combinaisons possibles de mots comme candidates, dans l’étape 1. L’es- pace des combinaisons est ainsi réduit à une fenêtre de mots de dimension prédéterminée (classiquement 5 mots) (Nerima et al. 2006).

La deuxième étape se charge d’ordonner les collocations candidates choisies dans l’étape précédente selon le score de la mesure utilisée. Le résultat représentera la liste finale des collocations.

4.5.2 Mesures d’extraction de collocations

Les méthodes d’extraction de collocations à partir de données tex- tuelles exploitent principalement leurs propriétés distributionnelles. Parmi les nombreuses mesures qui ont été utilisées, nous retenons :

— la fréquence des unités textuelles : cette mesure se limite à la dis- tribution habituelle de l’association entre la base et le collocatif. Elle consiste à compter simplement le nombre de fois où la base et son collocatif apparaissent ensemble dans un corpus donné. Les asso- ciations fréquentes sont considérées comme des collocations candi- dates. La limite de cette mesure réside dans l’identification des élé- ments à compter : les « collocations » les plus fréquentes ont souvent peu d’intérêt ou ne sont pas significatives ;

— l’information mutuelle (Fano 1961) : cette mesure compare la pro- babilité d’observer la base et son collocatif ensemble (probabilité de la dépendance), avec la probabilité d’observer ces deux éléments sé- parément (probabilité de l’indépendance). L’inconvénient de cette mesure concerne la nature des associations interprétées qui ne sont pas toujours collocative, notamment des associations entre unités lexicales sémantiquement apparentées telles que hôpital et docteur ou maladie et patient qui appartiennent au même champ sémantique ; — le Z-score (Berry-Rogghe 1973) : l’auteur s’est appuyé sur la défini-

tion opératoire de Halliday :

”The syntagmatic association of lexical items, quantifiable, textually, as the probability that there will occur at n removes (a distance of n lexical items) from an item x, the items a, b, c [...]”9

(Halliday 1961, p. 276)

Cette mesure permet donc de fournir, pour une unité lexicale don- née U, un ensemble ordonné de ses cooccurrents significatifs. Elle mesure la différence entre les fréquences observées pour chaque as- sociation formée à partir de U, et les fréquences attendues sous l’hy- pothèse du hasard. Plus le score d’une association est élevé, plus elle est considérée comme significative.

9. « L’association syntagmatique des éléments lexicaux, quantifiables, textuellement, comme la probabilité qu’il y aura à n suppression (sur une distance de n éléments lexicaux) à partir d’un élément x, les items a,b,c [...]. »

50 Chapitre 4. État de l’art

Contrairement aux PC, les méthodes d’extraction de collocations se basent principalement sur la distribution des termes dans les corpus, quelque soit le domaine et le genre étudiés. Les collocations représentent ainsi une solution générique pour palier les problèmes de l’utilisation des PC, et fournir d’autres types de connaissances linguistiques.

4.5.3 Problèmes de collocations

De nombreux travaux (Kilgarriff 1996, Pearce 2002, Evert 2005) ont réa- lisé des études comparatives sur la performance des méthodes d’extrac- tion automatique des collocations. Il résulte de ces travaux que la qualité des collocations obtenues peut varier en fonction de plusieurs paramètres tels que : la langue étudiée, la taille du corpus utilisé, ou encore le schéma syntaxique de la collocation. Cependant, l’extraction automatique des col- locations n’est pas encore parfaite. Le choix initial des collocations est une question importante qui nécessite la mise en œuvre de critères linguis- tiques pour distinguer les collocations des termes complexes et d’autres expressions polylexicales (Nerima et al. 2006). Toutefois, les systèmes d’ex- traction de collocations basés sur des méthodes statistiques ne permettent pas actuellement d’aboutir à une distinction automatique et nette, entre les différentes sous-classes d’expressions polylexicales (Nerima et al. 2006, Se- retan et al. 2008) qui constituent généralement un continuum (Wehrli 2000, McKeown et Radev 2000). En effet, la plupart des critères linguistiques mis en œuvre se contentent de fournir une valeur continue sans déterminer le périmètre séparant les collocations des termes complexes. Néanmoins, des travaux prometteurs récents tels que Bride et al. (2015) commencent à proposer des modélisations plus sophistiquées des collocations et ainsi améliorer la qualité des résultats obtenus.

4.6

Conclusion

Dans ce chapitre, nous avons illustré l’état de l’art portant sur l’iden- tification automatique (ou semi-automatique) des contextes qui peuvent être qualifiés de riches en connaissances. Deux principaux types d’ap- proches se distinguent : par règles ou par apprentissage. Barrière (2004), par exemple, s’est explicitement donnée pour objectif la description de PC signalant des énoncés riches en connaissances. D’autres méthodes ont essayé de trouver un compromis entre les deux, c’est-à-dire soit en tra- duisant la structure linguistique en modèle générique (Navigli et Velardi 2010), soit en incluant comme traits les PC. Nous tenons à noter que la plupart des travaux reposent sur la présence du terme à illustrer ainsi que les PC pour identifier les CRC. D’autres, comme Kilgarriff et al. (2008) et Didakowski et al. (2012) ont intégré une information linguistique diffé- rente représentant un voisinage « typique » des termes : les collocations. Saggion (2004) a proposé une heuristique dérivée des collocations qui est les termes secondaires. Le principal enjeu des méthodes basées sur des

4.6. Conclusion 51

règles est le faible rappel des PC qu’elles appliquent malgré leur préci- sion. Ceux-ci, dépendent la plupart du temps du genre et du domaine du corpus étudié. En revanche, les collocations sont plus fréquentes en corpus spécialisé et peuvent être comme une solution pour palier le problème des PC. Nous envisageons d’exploiter ces deux connaissances (à savoir les PC et les collocations), riches au sens linguistique, dans la perspective d’aider à la traduction spécialisée.