• Aucun résultat trouvé

First, catch your corpus.

(Somers, 2001)

Les corpus de textes constituent une ressource primordiale pour toute tˆache d’ex- traction de connaissances `a partir de textes. En extraction lexicale `a partir de corpus comparables, ces corpus sont utilis´es pour fournir `a la fois les informations lexicales et statistiques suivantes :

• L’information contextuelle : l’information sur les environnements lexicaux d’un terme source ou cible ainsi que leur fr´equences.

• Les listes de r´ef´erence : il s’agit des paires de traductions initialement s´electionn´ees pour ´evaluer un mod`ele d’extraction.

Dans cette ´etude, l’extraction lexicale porte sur des corpus comparables sp´ecialis´es dans les domaines de la finance des entreprise, cancer du sein, ´energie ´eolienne et de la technologie mobile. Nous nous int´eressons ´egalement `a ´etudier diff´erentes ap- proches pour les paires de langues fran¸cais-anglais et roumain-anglais. `A cet ´egard, deux sources de donn´ees ont ´et´e utilis´ees pour extraire les corpus comparables. D’une part, nous nous basons sur Wikip´edia1

et proposons une technique permettant de construire des corpus comparables sp´ecialis´es. D’autre part, nous exploitons des cor- pus comparables disponibles sur le Web. Ceci permet d’´etudier le comportements de

Finance des entreprises

Analyse Financière Comptabilité générale Indicateur Financier

Risque Crédit Actifs Bilan Salaire Solde Bénéfice Revenu ... ...

Figure 4.1: Arborescence de cat´egories de la th´ematique Finance des entreprises diff´erentes approches d’extraction de lexiques bilingues `a partir de corpus compa- rables issus de diff´erentes sources et traitant diff´erentes th´ematiques. Cette section est alors consacr´ee `a la description de ces deux sources de donn´ees.

4.2.1

Wikip´edia comme corpus comparable

Wikip´edia est une encyclop´edie collective libre qui fournit de vastes collections de textes dans plusieurs langues et qui couvre aussi bien des domaines g´en´eraux et domaines de sp´ecialit´e. Elle est compos´ee d’articles qui font la synth`ese des connais- sances sur un sujet donn´e. Ce sujet se d´efini par un titre, un texte le d´ecrivant et la th´ematique `a laquelle il appartient (cat´egorie dans Wikip´edia). Cette ressource a ´et´e largement exploit´ee pour extraire des corpus comparables. Nous distinguons les tra- vaux qui partent d’une liste de mots amorces pour extraire les articles de Wikip´edia qui lui correspondent. Dans (Laroche et Langlais, 2010), les auteurs utilisent les listes de r´ef´erence comme amorce. Ceci permet de garder les articles o`u les mots sources et cibles apparaissent forc´ement. Citons ´egalement les les travaux qui se basent sur

les liens au sein de la mˆeme langue afin de chercher l’information dans la langue source et ainsi parcourir le corpus monolingue (Sadat et Terrasa, 2010) et sur les liens interlingues (Sadat et Terrasa, 2010; Rapp et al., 2012) pour capturer l’infor- mation translinguistique. D’autres approches dont notamment (Gamallo et Garcia, 2012) se basent sur le syst`eme de classement th´ematique de Wikip´edia par cat´egorie pour extraire les articles traitant une th´ematique donn´ee.

Nous proposons une technique d’extraction de corpus comparables qui rel`eve des deux derniers types d’approches. Cette technique se base en premier lieu sur les cat´egories de Wikip´edia pour extraire des articles sp´ecialis´es en langue source. En- suite, les liens interlingues sont utilis´es pour chercher l’information translinguistique et construire la partie cible du corpus comparable. Nous consid´erons que le domaine d’´etude constitue une cat´egorie dans Wikip´edia. Une requˆete compos´ee du domaine d’´etude en langue source (par exemple finance des entreprises) est donc construite pour extraire une arborescence de cat´egories ou de th`emes ayant pour cat´egorie m`ere le domaine de sp´ecialit´e. Un exemple d’arborescence est pr´esent´e dans la figure 4.1.

Ensuite, nous collectons tous les articles associ´es `a chacune des cat´egories de l’ar- borescence pour construire un corpus sp´ecialis´e monolingue (en langue source). Pour collecter les articles en langue cible, les liens interlingues au sein de chaque article du corpus monolingue sont ensuite utilis´es pour extraire les articles correspondants en langue cible. Les articles Wikip´edia collect´es ont ´et´e convertis en texte brut et nettoy´es. Sur la base de cette technique, nous avons construit :

– quatre corpus comparables roumain-anglais, sp´ecialis´es dans les domaines sur lesquels porte notre ´etude (finance des entreprises, cancer du sein, ´energie ´eolienne et technologie mobile).

– deux corpus comparables fran¸cais-anglais relevant des domaines de la finance des entreprises et du cancer du sein.

Il est int´eressant que noter que la limite principale de cette technique est qu’elle ne permet d’extraire que des corpus comparables pour des paires de langues et domaines de sp´ecialit´e couverts par Wikip´edia.

4.2.2

Corpus du projet TTC

La disponibilit´e des corpus du projet europ´een TTC2

nous a permis de d´eriver les corpus comparables fran¸cais-anglais des domaines de l’´energie ´eolienne et ce- lui de la technologie mobile. Ces corpus ont ´et´e construits `a l’aide du crawler Ba- bouk (de Groc, 2011). L’objectif principal de ce crawler est de rapatrier des documents pertinents pour un domaine d´efini. Il requiert simplement un ensemble de termes ou URL amorces en entr´ee et s’appuie sur un cat´egoriseur bas´e sur un lexique pond´er´e pour ordonner les documents `a t´el´echarger par ordre de pertinence. Un seuil pour la cat´egorisation est fix´e automatiquement pour filtrer les documents non pertinents.

Ce crawler a permis la constitution de corpus comparables sp´ecialis´es dans les domaines de l’´energie ´eolienne et de la technologie mobile pour les diff´erentes langues europ´eennes (fran¸cais, anglais, allemand, espagnol, italien, etc.). Dans notre ´etude, nous n’utilisons que les corpus fran¸cais et anglais.

4.2.3

Normalisation des corpus

L’ensemble des corpus comparables ont ´et´e normalis´es `a travers les ´etapes de pr´e-traitement linguistique suivantes : la segmentation de mots, l’´etiquetage morpho- syntaxique et la lemmatisation `a l’ensemble des corpus. Pour le fran¸cais et l’anglais, la normalisation a ´et´e effectu´ee `a l’aide de l’´etiqueteur morphosyntaxique TreeTag- ger (Schmid, 1995). En ce qui concerne la langue roumaine, nous utilisons l’´etiqueteur d´ecrit dans (Simionescu, 2011). Nous avons ´ecart´e les mots fonctionnels et n’avons gard´e que les noms, adjectifs, verbes et adverbes. Des liste de mots vides pr´ed´efinies ont ´et´e ´egalement utilis´e `a cet effet. Ces listes sont constitu´ees de mots non significatifs figurants dans un texte. La signification d’un mot s’´evalue `a partir de sa distribution dans une collection de textes. Un mot dont la distribution est uniforme sur les textes de la collection est dit vide. En d’autres termes, un mot qui apparaˆıt avec une fr´equence semblable dans chacun des textes de la collection n’est pas discriminant, ne permet pas de distinguer les textes les uns par rapport aux autres. Elles sont constitu´ees de respectivement 238, 426 et 264 mots en anglais, fran¸cais et roumain extraits `a partir du Web3

.

2. http://www.ttc-project.eu/index.php/releases-publications

Domaine Fran¸cais Anglais Finance des entreprises 402 486 756 840

Cancer du sein 396 524 524 805 ´

Energie ´eolienne 145 019 345 607 Technologie mobile 97 689 144 168 Domaine Roumain Anglais Finance des entreprises 206 169 524 805

Cancer du sein 22 539 322 507 ´

Energie ´eolienne 121 118 298 165 Technologie mobile 200 670 124 149

Tableau 4.1: Taille des corpus comparables en nombre de mots pleins. Ainsi, huit corpus comparables traitant diff´erentes th´ematiques pour deux paires de langues ont ´et´e cr´ees. Dans le tableau 4.1, nous pr´esentons la taille des corpus r´esultants. Nous d´efinissons la taille par le nombre de mots pleins composant les cor- pus monolingues sp´ecialis´es. La taille des corpus sp´ecialis´es varie au sein et entre diff´erentes langues. Les corpus issus du domaine de la finance des entreprise sont les plus riches dans les deux paires de langues. Pour le roumain, le corpus relevant du domaine du Cancer du sein est de taille particuli`erement r´eduite, avec approximati- vement 22 000 mots. Cette variabilit´e permettra de v´erifier s’il existe une corr´elation entre la taille du corpus et les r´esultats obtenus.