Extraction de données - Bilan intermédiaire

5.4 Bilan intermédiaire

6.1.1 Extraction de données

Notre lexique a été extrait de l’édition du Wiktionary pour le serbo-croate. En effet, deux éditions proposent du contenu serbe : l’édition serbo-croate (sh.wiktionary.org) et la version serbe (sr.wiktionary.org). Ce fait semble être dû à des facteurs extra- linguistiques plutôt que linguistiques : un parcours manuel des deux éditions ne nous a pas permis de relever des différences importantes quant à la qualité du contenu. Nous avons donc sélectionné la version serbo-croate car elle contient un nombre d’entrées lar- gement supérieur à l’édition serbe : 850 000 vs 45 000. L’extraction s’est focalisée sur les informations morphosyntaxiques, notamment le cas, le nombre et le genre. Elle a été basée sur le dump du 2 octobre 2015.

Étant donné que plusieurs standards d’encodage peuvent coexister dans la même édi- tion, voire dans la même page du Wiktionary, un extracteur doit faire preuve d’une grande

robustesse pour maximiser la quantité de données extraites. Par exemple, dans le dump que nous avons utilisé, il existe deux types de pages principaux : la page dont l’entrée est un lemme et qui contient le paradigme complet du lemme en question (cf. figure 6.1), et la page dont l’entrée est une forme fléchie et qui en liste toutes les interprétations morphosyntaxiques possibles (cf. figure 6.2).

Dans le premier format, les traits morphosyntaxiques de chaque forme fléchie peuvent être indiqués par des codes (typiquement dans le cas des verbes) ou bien ils sont déduits à partir de la position de la forme dans la table du paradigme (typiquement dans le cas des noms, cf. figure 6.1). Cela est possible grâce au fait que les tables du Wiktionary suivent de manière générale la présentation des paradigmes traditionnellement acceptée pour le serbe. Par exemple, dans la figure 6.1, la première colonne représente le singulier, la deuxième le pluriel, et les cas sont présentés dans l’ordre suivant : nominatif, génitif, datif, accusatif, vocatif, instrumental et locatif. Cependant, nous avons également rencontré des pages où les formes de l’instrumental et du locatif étaient permutées. Pour éviter une extraction erronée, notre extracteur effectue une vérification basée sur la terminaison de la forme pour vérifier si le cas inféré par l’extracteur à partir de la position de la forme dans le tableau correspond au suffixe exhibé par la forme en question et corrige si nécessaire l’information du cas qui est inscrite dans le lexique.

====Deklinacija==== {{sh-imenica-deklinacija2 |jezik|jezici |jezika|jezika |jeziku|jezicima |jezik|jezike |jeziče|jezici |jeziku|jezicima |jezikom|jezicima }}

Figure 6.1 – Modèle de page du Wiktionary basé sur le lemme : article du mot jezik ‘langue’

Dans les articles dont l’entrée est une forme fléchie, la forme fléchie traitée est donnée en tête de l’article entre guillemets, suivie par une série de descriptions textuelles de ses traits morphosyntaxiques introduites par des dièses. Il s’agit typiquement des groupes nominaux qui doivent être décomposés et analysés pour en extraire l’information sur les valeurs des différents traits morphosyntaxiques. Par exemple, l’article présenté dans la figure 6.2 traite la forme guvernerskim, une forme fléchie ambiguë de l’adjectif guvernerski ‘relatif au gouverneur’. La première ligne commençant par “#” dans la figure 6.2, à savoir instrumental množine ženskog roda pozitiva određenog vida pridjeva, signifie littéralement ‘instrumental du pluriel du genre féminin du positif de l’aspect déterminé de l’adjectif’.

L’ordre dans lequel les informations sont présentées n’est pas fixe, et par ailleurs, certaines données peuvent être absentes de la description.

===Flektirani oblici=== "’guvernerskim’"

# instrumental množine ženskog roda pozitiva određenog vida pridjeva [[guvernerski#Srpskohrvatski|guvernerski]]

# lokativ množine ženskog roda pozitiva određenog vida pridjeva [[guvernerski#Srpskohrvatski|guvernerski]]

# dativ množine muškog roda pozitiva određenog vida pridjeva [[guvernerski#Srpskohrvatski|guvernerski]]

# instrumental množine muškog roda pozitiva određenog vida pridjeva [[guvernerski#Srpskohrvatski|guvernerski]]

Figure 6.2 – Modèle de page du Wiktionary basé sur la forme fléchie : article du mot guvernerski ‘relatif au gouverneur’

De nombreuses autres variations de plus bas niveau ont également été détectées, comme différents encodages des formes verbales, et divers codes utilisés pour indiquer certains traits morphosyntaxiques. Afin de maximiser la quantité d’informations extraites, nous avons consacré une attention particulière au traitement de chacun des cas de figure relevés. Nous avons également repéré et comblé quelques lacunes quasi-systématiques dans le traitement de certains types des lemmes. Par exemple, la majorité des entrées adverbiales contenait des adverbes au comparatif ou au superlatif, mais il n’y avait pas d’entrée correspondante au positif. Comme les articles en question contenaient néanmoins le lemme, et que la forme du positif d’un adverbe est identique au lemme, ces entrées-là ont été générées automatiquement. Il en est de même pour les formes du futur simple qui étaient omises des articles de certains verbes : ce temps ayant un schéma de flexion très régulier, il suffisait de disposer de l’infinitif d’un verbe pour pouvoir créer les formes manquantes.

Nous avons également constaté que Wiktionary était particulièrement pauvre en formes pour les classes fermées. Le résultat de l’extraction initiale a donc été enrichi en utilisant plusieurs autres sources. 107 prépositions ont été importées des listes constituées ma- nuellement lors des travaux théoriques sur les relations spatiales de Stosic (2001), et un ensemble de 76 prépositions, 43 conjonctions, 33 interjections et 868 adverbes ont été ex- traits du corpus étiqueté en parties du discours de (Miletic, 2013). Toutes ces formes ont été rajoutées au résultat de l’extraction automatique.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 148-150)