Partie II Apprentissage de connaissances morphologiques 57
3.4 Traitement des corpus
Fig.3.2: Effectif cumulé des balises par rapport à la position pour le document de la Figure 3.1.
balises<strong>dans le fichier source. La position optimale du début de la zone de contenu a
donc été identifiée après la balise</strong> fermante.
Comme l’observe [Baroni, 2005], cette méthode est bien adaptée à l’extraction de contenu
pour des pages provenant de sites différents car elle ne repose pas sur des informations de
structure dépendantes de sites précis. De plus, comme nous l’avons vu, elle est assez précise même
s’il arrive que cette méthode supprime des éléments pertinents comme des mots ou des phrases
situés en début et fin de texte ou contenus dans des tableaux HTML. Les documents comportant
des zones de contenus entre-coupées de publicités ou d’éléments de navigation constituent une
autre pierre d’achoppement de cette méthode qui ne permet de détecter qu’une zone centrale de
contenu par fichier.
3.4 Traitement des corpus
Afin de pouvoir utiliser les textes constituant un corpus, il est nécessaire de les soumettre à
un certain nombre de traitements. Nous détaillons ici les traitements minimaux (découpage en
mots et vérification de la langue) que nous avons utilisés. À ces traitements peuvent s’ajouter
des analyses plus sophistiquées comme l’étiquetage morphosyntaxique ou l’analyse grammaticale,
que nous ne mentionnerons pas car nous ne les avons pas appliquées à nos corpus.
3.4.1 Découpage des textes en mots, phrases et paragraphes
Les textes sont représentés dans un fichier sous forme de séquences de caractères : lettres,
nombres et caractères de ponctuation. Afin de pouvoir traiter ces données, il est nécessaire
d’identifier différents types d’unités : paragraphes, phrases et mots. Cette tâche est loin d’être
Chapitre 3. Préliminaire : construction de corpus
est un ouvrage où l’on tente de traiter de façon exhaustive de l’ensemble du savoir humain. Par
extension, le mot désigne également un ouvrage qui traite systématiquement d’un domaine de
connaissance en particulier. Le mot encyclopédie vient du grec ancien enkuklios paideia qui
désignait l’éducation comprenant l’étude de toutes les sciences. Il devint enkuklopaideia par
une erreur de transcription, puis au XVIe siècle les savants le latinisèrent en encyclopaedia .
Cet article chez Wikipedia
Ejecta
Par les ejecta , les scientifiques définnisent les objets rejeté par les volcans qui ne sont pas
de la lave pendant certaines éruptions explosives qui fragmentent le magma et qui retombent
plus ou moins verticalement hors du cratère.
Ces ejecta sont classés suivant leur taille dans un ordre croissant, cendres, lapilli, blocs et
bombes sont des ejecta. La majorité de ceux-ci retombent alors en épousant une trajectoire
parabolique. Par ailleurs, les particules les plus fines peuvent atteindre une altitude suffisante
pour être entraînées par les courants aériens sur des distances considérables.
Chaque éruption volcanique est caractérisée par une catégorie particulière d’ejecta.Grace à
cela, les vulcanologues peuvent définir les types de volcans. Ce sont ces produits qui, par leur
accumulation, forment progressivement les cônes volcaniques.
Fig. 3.3: Résultat de l’extraction de contenu pour le document de la Figure 3.1.
triviale. En effet, il n’est pas toujours aisé de définir ce qu’est un mot, voire une phrase et
donc, à plus forte raison, de les identifier de manière automatique [Grefenstette et Tapanainen,
1994, Manning et Schütze, 1999]. Le mot peut être défini, de manière un peu simpliste, comme
une suite de caractères séparés par des espaces ou des signes de ponctuation. Cependant, la
solution triviale qui consiste à déterminer les frontières de mots par les espaces et les signes de
ponctuation est loin d’être satisfaisante. Considérons les exemples suivants :
(1) L’edmontosaurus mesurait 3,5mètres.
(2) Des chercheurs ont analysé10.000 vertèbres de dinosaures.
(3) Cette nouvelle technique a été développée parM. Dupond.
(4) For additional information see alsohttp ://www.fda.gov/cder/approval/index.htm
(5) Pyroclastic-falldeposits,referred to as tephra,consist of combinations of pumice,
scoria, dense-rockmaterial,and crystals.
(6) Recent geophysical data revealed that Mauna Loa’s summit caldera has begun to
swell and stretch at a rate of 2 to2.5 inches a year.
Ces exemples permettent de faire les observations suivantes :
– Lepointne marque pas toujours une fin de phrase. Il peut être contenu dans divers types
d’unités comme les nombres (voir exemples 2 et 6), les abréviations (exemple 3) ou les
URLs (exemple 4). Il faut donc faire la différence entre ces occurrences et les occurrences
du point comme marqueur de fin de phrase.
– La virgule doit dans certains cas, lorsqu’elle apparaît en fin de mot comme dans la
phrase 5, être séparée de la chaîne de caractères qui la précède. Dans d’autres cas, elle
peut faire partie d’un nombre comme dans l’exemple 1.
3.4. Traitement des corpus
choisi de toujours séparer les clitiques accolés au mot suivant ou précédent par une
apos-trophe.
– Le tiret. Nous avons conservé les tirets contenus à l’intérieur de mots (voir exemple 5),
sauf dans le cas des traits d’union marquant une liaison avec un pronom comme dans
peut-on ou puis-je. En effet, comme nous le verrons dans les chapitres suivants, les tirets
fournissent des informations précieuses sur les frontières morphémiques et il est donc utile
de les préserver.
Ces exemples montrent également qu’au cours du découpage d’un texte, il est utile de repérer
certaines unités qui ont une structure spécifique comme les dates, les nombres, les abréviations,
les URLs ou les adresses e-mail. Leur structure peut généralement être décrite à l’aide
d’expres-sions régulières : certaines de ces expresd’expres-sions régulières sont identiques pour toutes les langues
(URL, adresses e-mail), d’autres sont spécifiques aux langues comme les nombres ou les
abré-viations [Grefenstette, 1998]. Ces unités contiennent souvent des signes de ponctuation ambigus
comme le point ou la virgule. Une fois ces unités identifiées, les signes de ponctuation restant
peuvent être utilisés de manière non ambiguë pour délimiter les mots et les phrases.
Nous avons implémenté l’ensemble des opérations permettant la tokenisation d’un texte en
Python (voir Annexe B.2.2, p. 155).
3.4.2 Vérification de la langue
Compte tenu du caractère multilingue du Web, il est possible de trouver des portions de texte
de langues différentes au sein du même document. Sauf utilisation particulière, un corpus est
généralement construit pour une seule langue cible. Il peut donc s’avérer nécessaire de filtrer les
phrases ou paragraphes écrits dans une langue différente de la langue cible. On distingue deux
types de méthodes pour identifier automatiquement la langue d’un texte : les méthodes basées sur
les n-grammes (suites de n caractères) et les méthodes basées sur les mots fréquents [Grefenstette,
1995]. C’est cette dernière technique que nous avons utilisée. Les mots les plus fréquents d’une
langue (généralement les mots outils) peuvent être identifiés en comparant leur fréquence dans
un corpus d’apprentissage et leur fréquence dans le texte [Dunning, 1994, McNamee, 2005]. Cette
méthode est relativement efficace, sauf bien sûr pour des passages très courts de quelques mots.
Nous l’avons utilisée à l’échelle du paragraphe.
Nous avons développé un outil de reconnaissance de langue basé sur la méthode décrite
dans [McNamee, 2005]. La méthode se décompose en une étape d’apprentissage et une étape
d’utilisation. Dans un premier temps, des textes d’apprentissage sont collectés pour chaque
langue. Les textes choisis par [McNamee, 2005] proviennent du corpus de textes du Projet
Gutenberg. Nous avons également utilisés des textes du Projet Gutenberg pour notre corpus
d’apprentissage (voir Tableau B.1, p. 156). Puis, les mots sont extraits de ces textes et un
fichier contenant le profil de chaque langue est généré. Un profil correspond aux 1 000 mots les
plus fréquents de chaque langue, associés au pourcentage d’occurrences du mot dans le texte
d’apprentissage (voir Tableau B.2, p. 156). Ces profils sont ensuite utilisés pour identifier la
langue d’une phrase ou d’un paragraphe. La langue d’un texte sera déterminée en calculant un
score pour chaque langue afin de rechercher la langue de score maximal. Pour donner un score
à une langue, il suffit d’additionner les poids des mots du texte dans cette langue.
Chapitre 3. Préliminaire : construction de corpus
Prenons l’exemple de la séquence « in die ». Les scores pour les différentes langues sont les
suivants :
– allemand : 1,61 + 2,46 = 4,07
– anglais : 2,59 + 0 = 2,59
– français : 0 + 0 = 0
– italien : 1,09 + 0 = 1,09
– néerlandais : 2,07 + 1,23 = 3,30
La langue de la séquence « in die » est donc l’allemand. Si aucun score ne dépasse 0, alors
la langue du texte est inconnue.
Les caractéristiques de l’outil ainsi que les corpus d’apprentissage utilisés pour les différentes
langues figurent dans l’Annexe B.2.3, p. 155.
3.4.3 Extraction des mots d’un corpus
Les outils de tokenisation et de vérification de la langue peuvent être mis à profit pour
extraire les mots d’un corpus et procéder à un premier filtrage. En effet, la tokenisation utilise
des expressions régulières représentant des entités spécifiques comme les nombres, les dates,
les URLs ou les adresses e-mail. Celles-ci pourront donc être exclues de la liste des mots du
corpus. De plus, le module d’identification de langue permet d’éliminer les mots qui se trouvent
dans des paragraphes qui ne sont pas écrits dans la langue cible du corpus. Ce second filtrage
élimine une grande partie des mots étrangers. Restent les entités nommées telles que les lieux et
personnes qui sont plus difficiles à identifier et que nous n’avons pas traitées (voir par exemple
[Elkateb-Gara, 2005] pour un exemple de traitement des entités nommées).
Dans le document
Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales
(Page 84-87)