• Aucun résultat trouvé

Partie II Apprentissage de connaissances morphologiques 57

3.4 Traitement des corpus

Fig.3.2: Effectif cumulé des balises par rapport à la position pour le document de la Figure 3.1.

balises<strong>dans le fichier source. La position optimale du début de la zone de contenu a

donc été identifiée après la balise</strong> fermante.

Comme l’observe [Baroni, 2005], cette méthode est bien adaptée à l’extraction de contenu

pour des pages provenant de sites différents car elle ne repose pas sur des informations de

structure dépendantes de sites précis. De plus, comme nous l’avons vu, elle est assez précise même

s’il arrive que cette méthode supprime des éléments pertinents comme des mots ou des phrases

situés en début et fin de texte ou contenus dans des tableaux HTML. Les documents comportant

des zones de contenus entre-coupées de publicités ou d’éléments de navigation constituent une

autre pierre d’achoppement de cette méthode qui ne permet de détecter qu’une zone centrale de

contenu par fichier.

3.4 Traitement des corpus

Afin de pouvoir utiliser les textes constituant un corpus, il est nécessaire de les soumettre à

un certain nombre de traitements. Nous détaillons ici les traitements minimaux (découpage en

mots et vérification de la langue) que nous avons utilisés. À ces traitements peuvent s’ajouter

des analyses plus sophistiquées comme l’étiquetage morphosyntaxique ou l’analyse grammaticale,

que nous ne mentionnerons pas car nous ne les avons pas appliquées à nos corpus.

3.4.1 Découpage des textes en mots, phrases et paragraphes

Les textes sont représentés dans un fichier sous forme de séquences de caractères : lettres,

nombres et caractères de ponctuation. Afin de pouvoir traiter ces données, il est nécessaire

d’identifier différents types d’unités : paragraphes, phrases et mots. Cette tâche est loin d’être

Chapitre 3. Préliminaire : construction de corpus

est un ouvrage où l’on tente de traiter de façon exhaustive de l’ensemble du savoir humain. Par

extension, le mot désigne également un ouvrage qui traite systématiquement d’un domaine de

connaissance en particulier. Le mot encyclopédie vient du grec ancien enkuklios paideia qui

désignait l’éducation comprenant l’étude de toutes les sciences. Il devint enkuklopaideia par

une erreur de transcription, puis au XVIe siècle les savants le latinisèrent en encyclopaedia .

Cet article chez Wikipedia

Ejecta

Par les ejecta , les scientifiques définnisent les objets rejeté par les volcans qui ne sont pas

de la lave pendant certaines éruptions explosives qui fragmentent le magma et qui retombent

plus ou moins verticalement hors du cratère.

Ces ejecta sont classés suivant leur taille dans un ordre croissant, cendres, lapilli, blocs et

bombes sont des ejecta. La majorité de ceux-ci retombent alors en épousant une trajectoire

parabolique. Par ailleurs, les particules les plus fines peuvent atteindre une altitude suffisante

pour être entraînées par les courants aériens sur des distances considérables.

Chaque éruption volcanique est caractérisée par une catégorie particulière d’ejecta.Grace à

cela, les vulcanologues peuvent définir les types de volcans. Ce sont ces produits qui, par leur

accumulation, forment progressivement les cônes volcaniques.

Fig. 3.3: Résultat de l’extraction de contenu pour le document de la Figure 3.1.

triviale. En effet, il n’est pas toujours aisé de définir ce qu’est un mot, voire une phrase et

donc, à plus forte raison, de les identifier de manière automatique [Grefenstette et Tapanainen,

1994, Manning et Schütze, 1999]. Le mot peut être défini, de manière un peu simpliste, comme

une suite de caractères séparés par des espaces ou des signes de ponctuation. Cependant, la

solution triviale qui consiste à déterminer les frontières de mots par les espaces et les signes de

ponctuation est loin d’être satisfaisante. Considérons les exemples suivants :

(1) L’edmontosaurus mesurait 3,5mètres.

(2) Des chercheurs ont analysé10.000 vertèbres de dinosaures.

(3) Cette nouvelle technique a été développée parM. Dupond.

(4) For additional information see alsohttp ://www.fda.gov/cder/approval/index.htm

(5) Pyroclastic-falldeposits,referred to as tephra,consist of combinations of pumice,

scoria, dense-rockmaterial,and crystals.

(6) Recent geophysical data revealed that Mauna Loa’s summit caldera has begun to

swell and stretch at a rate of 2 to2.5 inches a year.

Ces exemples permettent de faire les observations suivantes :

– Lepointne marque pas toujours une fin de phrase. Il peut être contenu dans divers types

d’unités comme les nombres (voir exemples 2 et 6), les abréviations (exemple 3) ou les

URLs (exemple 4). Il faut donc faire la différence entre ces occurrences et les occurrences

du point comme marqueur de fin de phrase.

– La virgule doit dans certains cas, lorsqu’elle apparaît en fin de mot comme dans la

phrase 5, être séparée de la chaîne de caractères qui la précède. Dans d’autres cas, elle

peut faire partie d’un nombre comme dans l’exemple 1.

3.4. Traitement des corpus

choisi de toujours séparer les clitiques accolés au mot suivant ou précédent par une

apos-trophe.

– Le tiret. Nous avons conservé les tirets contenus à l’intérieur de mots (voir exemple 5),

sauf dans le cas des traits d’union marquant une liaison avec un pronom comme dans

peut-on ou puis-je. En effet, comme nous le verrons dans les chapitres suivants, les tirets

fournissent des informations précieuses sur les frontières morphémiques et il est donc utile

de les préserver.

Ces exemples montrent également qu’au cours du découpage d’un texte, il est utile de repérer

certaines unités qui ont une structure spécifique comme les dates, les nombres, les abréviations,

les URLs ou les adresses e-mail. Leur structure peut généralement être décrite à l’aide

d’expres-sions régulières : certaines de ces expresd’expres-sions régulières sont identiques pour toutes les langues

(URL, adresses e-mail), d’autres sont spécifiques aux langues comme les nombres ou les

abré-viations [Grefenstette, 1998]. Ces unités contiennent souvent des signes de ponctuation ambigus

comme le point ou la virgule. Une fois ces unités identifiées, les signes de ponctuation restant

peuvent être utilisés de manière non ambiguë pour délimiter les mots et les phrases.

Nous avons implémenté l’ensemble des opérations permettant la tokenisation d’un texte en

Python (voir Annexe B.2.2, p. 155).

3.4.2 Vérification de la langue

Compte tenu du caractère multilingue du Web, il est possible de trouver des portions de texte

de langues différentes au sein du même document. Sauf utilisation particulière, un corpus est

généralement construit pour une seule langue cible. Il peut donc s’avérer nécessaire de filtrer les

phrases ou paragraphes écrits dans une langue différente de la langue cible. On distingue deux

types de méthodes pour identifier automatiquement la langue d’un texte : les méthodes basées sur

les n-grammes (suites de n caractères) et les méthodes basées sur les mots fréquents [Grefenstette,

1995]. C’est cette dernière technique que nous avons utilisée. Les mots les plus fréquents d’une

langue (généralement les mots outils) peuvent être identifiés en comparant leur fréquence dans

un corpus d’apprentissage et leur fréquence dans le texte [Dunning, 1994, McNamee, 2005]. Cette

méthode est relativement efficace, sauf bien sûr pour des passages très courts de quelques mots.

Nous l’avons utilisée à l’échelle du paragraphe.

Nous avons développé un outil de reconnaissance de langue basé sur la méthode décrite

dans [McNamee, 2005]. La méthode se décompose en une étape d’apprentissage et une étape

d’utilisation. Dans un premier temps, des textes d’apprentissage sont collectés pour chaque

langue. Les textes choisis par [McNamee, 2005] proviennent du corpus de textes du Projet

Gutenberg. Nous avons également utilisés des textes du Projet Gutenberg pour notre corpus

d’apprentissage (voir Tableau B.1, p. 156). Puis, les mots sont extraits de ces textes et un

fichier contenant le profil de chaque langue est généré. Un profil correspond aux 1 000 mots les

plus fréquents de chaque langue, associés au pourcentage d’occurrences du mot dans le texte

d’apprentissage (voir Tableau B.2, p. 156). Ces profils sont ensuite utilisés pour identifier la

langue d’une phrase ou d’un paragraphe. La langue d’un texte sera déterminée en calculant un

score pour chaque langue afin de rechercher la langue de score maximal. Pour donner un score

à une langue, il suffit d’additionner les poids des mots du texte dans cette langue.

Chapitre 3. Préliminaire : construction de corpus

Prenons l’exemple de la séquence « in die ». Les scores pour les différentes langues sont les

suivants :

– allemand : 1,61 + 2,46 = 4,07

– anglais : 2,59 + 0 = 2,59

– français : 0 + 0 = 0

– italien : 1,09 + 0 = 1,09

– néerlandais : 2,07 + 1,23 = 3,30

La langue de la séquence « in die » est donc l’allemand. Si aucun score ne dépasse 0, alors

la langue du texte est inconnue.

Les caractéristiques de l’outil ainsi que les corpus d’apprentissage utilisés pour les différentes

langues figurent dans l’Annexe B.2.3, p. 155.

3.4.3 Extraction des mots d’un corpus

Les outils de tokenisation et de vérification de la langue peuvent être mis à profit pour

extraire les mots d’un corpus et procéder à un premier filtrage. En effet, la tokenisation utilise

des expressions régulières représentant des entités spécifiques comme les nombres, les dates,

les URLs ou les adresses e-mail. Celles-ci pourront donc être exclues de la liste des mots du

corpus. De plus, le module d’identification de langue permet d’éliminer les mots qui se trouvent

dans des paragraphes qui ne sont pas écrits dans la langue cible du corpus. Ce second filtrage

élimine une grande partie des mots étrangers. Restent les entités nommées telles que les lieux et

personnes qui sont plus difficiles à identifier et que nous n’avons pas traitées (voir par exemple

[Elkateb-Gara, 2005] pour un exemple de traitement des entités nommées).