• Aucun résultat trouvé

Nous détaillons dans cette section les différents schémas et formats utilisés pour représenter

les EPs au sein de divers jeux de données. Nous nous limitons aux schémas et formats principaux

utilisés par les travaux les plus significatifs dans la littérature d’identification des EPs, et dans

2.4. Annotations : schémas et formats

Shéma La décision de mettre cet homme à l’ écart a été prise

IOB O O O B O O I I I O O O

IOB-iob O B O b o o i i i O O I

Figure 2.5 – Schémas IOB et IOB-iob - exemple : Les représentations IOB et IOB-iob

de la phraseLa décision1 demettre2 cet hommeà2 l’écart2 a été prise1 contenant deux EPs

(décision prise et mettre à l’écart, cette dernière apparaissant au sein de la discontinuité entre

décision etprise. Le schéma IOB fourni ne permet pas de gérer ce cas, et n’annote ici quemettre

à l’écart, contrairement à IOB-iob.

les données sur lesquelles s’appuient nos expérimentations.

2.4.1 Schémas IOB et IOB-iob

Les schémas dits IOB (« Inside Outside Begin ») ou IOB-iob sont couramment utilisés par

les méthodes d’étiquetage de séquences pour de multiples tâches de TAL comme la segmentation

syntaxique (chunking) et la reconnaissance des entités nommées. Le schéma IOB a été proposé

par Ramshaw et Marcus (1999) avec l’objectif de représenter les groupes nominaux non récursifs.

Il s’agit d’un schéma d’étiquetage séquentiel, associant une unique étiquette à chaque token de

la phrase. Alors que I indique si le token est à l’intérieur du groupe nominal, O indique que

le token est à l’extérieur de celui-ci et B marque l’élément le plus à gauche du groupe. Les

méthodes d’identification des EPs à base d’étiquetage de séquences s’inspirent de ce schéma

pour représenter les phrases des corpus d’apprentissage. Le token peut être soit le premier token

d’une EP (il est alors étiquetéB), soit un token complémentaire de l’EP (I), soit à l’extérieur

de l’EP (O). Ce schéma permet de représenter des EPs continues et discontinues, mais n’est pas

capable de représenter les cas d’enchâssement, de chevauchement, ni même d’imbrication (un cas

particulier d’enchâssement, où l’EP enchâssante a des composantes à gauche et à droite de l’EP

enchâssée).

Pour augmenter le pouvoir expressif de ce schéma, Schneider et al. (2014a) proposent une

modification afin de l’adapter à l’imbrication. Le schéma IOB-iob est composé de six étiquettes :

B, I, O, b, ieto. Les étiquettes majuscules sont similaires à celles du schéma IOB standard. Les

étiquettes en minuscules ont des significations similaires, mais pour les EPs imbriquées : b est

utilisé pour le premier composant de l’EP imbriquée, ipour ses composants suivants et o pour

les éventuels tokens qui n’appartiennent pas à l’EP imbriquée (ni enchâssante) et se produisent

dans l’une de ses discontinuités (commecet homme dans la figure 2.5). Ce schéma ne permet de

représenter l’imbrication qu’à un seul niveau. Comme son ascendant, ce schéma n’est pas capable

de représenter les scénarios d’enchâssement ou de chevauchement.

Il existe d’autres variantes du schéma IOB permettant de s’adapter à divers cadres

expérimen-taux. Klyueva et al. (2017) donne à ce schéma la capacité de catégoriser les EPs en remplaçant la

étiquetteB par la catégorie linguistique de l’EP. Diab et Bhutada (2009) se base sur ce schéma

pour distinguer les occurrences littérales des occurrences idiomatiques des CVSs en proposant

cinq différentes étiquettes : BL (début d’une occurrence littérale), IL (à l’intérieur d’une

oc-currence littérale),BI (début d’une occurrence idiomatique), II (à l’intérieur d’une occurrence

idiomatique), O (à l’extérieur d’une occurrence d’EP). À noter que le jeu de données DiMSUM

utilise le schéma IOB-iob.

Position Forme fléchie Lemme POS ...

# sentid : Europar.550_00166

# sentence-text : Nous devrions prendre cela au sérieux.

1 Nous il PRON ...

2 devrions devoir VERB ...

3 prendre prendre VERB ...

4 cela cela PRON ...

5-6 au _ _ ...

5 à à PREP ...

6 le le DET ...

7 sérieux sérieux NOUN ...

8 . . PUNCT ...

Figure 2.6 – Les premières colonnes pour le format CoNLL-U pour la phrase Nous devrions

prendre celaau sérieux., comportant le traitement de l’amalgameau.

2.4.2 Schéma PARSEME

Dans les annotations PARSEME, une EP correspond simplement à un ensemble de tokens

d’une phrase (éventuellement réduit à un seul token), l’ensemble étant associé à un identifiant

unique au sein de la phrase. Un token peut appartenir à un nombre quelconque d’EPs. On

obtient ainsi un pouvoir expressif maximal. La seule restriction est que le schéma se base sur

la tokenisation d’entrée de la phrase, et ne peut pas annoter comme composant une sous-partie

d’un token. Le schéma prévoit également un typage des EPs.

Les données sont fournies dans deux formats, un format tabulé simple (PARSEME-TSV),

et un format couplé à l’annotation syntaxique en dépendances (format CUPT). Avant de les

détailler, nous faisons un point terminologique concernant token et mot.

Token versus mot dans les annotations de type CoNLL-U

Les formats des données PARSEME utilisent les principes de tokenisation du projet

Univer-sal Dependencies17, avec en particulier un format qui permet qu’un token correspondant à un

amalgame soit défait en plusieurs « mots », comme par exemple l’amalgame aux pouvant être

défait en deux « mots » à etles. La terminologie du projet « Universal Dependencies » utilise

le terme « multi-word token » pour l’amalgame, et le terme « word » pour les mots qui en sont

extraits, ainsi que les mots non issus d’un amalgame. Dans les annotations au format CoNLL-U,

utilisé pour les « Universal Dependencies », on a une ligne par amalgame ou mot (voir à la

figure 2.6, par exemple la ligne pour au et la ligne pour le à qui en est extrait). Seuls les mots

ont un numéro, les amalgames sont fournis pour mémoire du texte original, avec une indication

de la plage de mots auxquels ils correspondent, mais ils ne peuvent pas recevoir d’annotations

(morphologiques, syntaxiques, ou dans le cas de PARSEME des annotations d’EPs).

Dans toute la suite, nous préférons garder le terme « token » pour une unité APRÈS

décomposition des amalgames. Ainsi dans la figure 2.6, on a selon cette terminologie 8 tokens

numérotés de 1 à 8, y compris les tokensà etleissu de l’amalgameau. Celui-ci n’a pas d’étiquette

morphosyntaxique et n’entre pas dans l’arbre de dépendances syntaxiques. On indique seulement

la plage de tokens qu’il couvre (ici la plage 5-6).

2.4. Annotations : schémas et formats

Position Forme fléchie Booléen (nsp/_) EP

# sentid : Europar.550_00166

# sentence-text : Nous devrions prendre cela au sérieux.

1 Nous _ _

2 devrions _ _

3 prendre _ 1 :ID

4 cela _ _

5-6 au _ _

5 à _ 1

6 le _ 1

7 sérieux nsp 1

8 . _ _

Figure 2.7 – Format PARSEME-TSV - exemple : Un exemple au format

PARSEME-TSV pour la phraseNous devrionsprendre celaau sérieux.où prendre au sérieux est annoté

comme un idiome verbal. Les deux premières lignes indiquent l’identifiant et le texte de la phrase.

Le symbole « nsp » de la troisième colonne indique que le token n’est pas suivi par un espace

dans le texte original.

Format PARSEME-TSV

Le format PARSEME-TSV a été utilisé dans la cadre de la première campagne PARSEME

(campagne 1.0, (Savary et al., 2017)). C’est un format tabulé, avec chaque phrase séparée par

une ligne vide, puis un token ou un amalgame par ligne. Chaque token est représenté par une

ligne de quatre champs : la position du token dans la phrase, sa forme fléchie, le caractère (’_’)

si le token est suivi par un espace dans la phrase, sinon, il contient« nsp ». Le dernier champ est

dédié à l’appartenance à aucune, une ou plusieurs EPs. Le champ contient le caractère (’_’) si

le token ne fait pas partie d’une EP verbale. Sinon, ce champ contient une liste de codes d’EPs,

séparés par des points-virgules. Le premier token d’une EP est repéré par un identifiant entier,

suivi par une étiquette de la catégorie de l’EP. Le champ ne contient que l’identifiant de l’EP

pour les autres tokens de l’EP (voir figure 2.7).

Comme indiqué section 2.3.1.0, pour certaines des langues des données PARSEME 1.0, le

fichier PARSEME-TSV est accompagné d’un fichier CoNLL-U qui fournit l’annotation

morpho-logique et l’arbre de dépendances syntaxiques.

Le fichier CoNll-U contient les phrases tokenisées de manière exactement parallèle au

fichier PARSEME-TSV. Chaque tokentest associé à un ensemble d’informations linguistiques :

sa position dans la phrase courante, sa forme fléchie, son lemme, son étiquette morphosyntaxique

universelle (Petrov et al., 2011), son étiquette morphosyntaxique, ses traits morphologiques,

l’indice du mot gouverneur syntaxique de t et le label de la dépendance syntaxique entre le

gouverneur ett, ainsi qu’un champ pour des informations diverses.

Format CUPT

Le format CUPT est une fusion des deux formats CoNLL-U et PARSEME-TSV que nous

venons de décrire. Il s’agit d’un format tabulé comprenant les 10 colonnes du CoNLL-U, et les

colonnes 3 et 4 du PARSEME-TSV, modulo quelques modifications mineures comme le

rempla-cement du caractère (_) par un autre caractère (*) dans la dernière colonne pour indiquer que

Position Forme fléchie Lemme EMSu ... EP

1 Cette ce DET ... *

2 photo photo NOUN ... *

3 a avoir AUX ... *

4 subi subir VERB ... 1 :LVC.full ;2 :LVC.full

5 des un DET ... *

6 retouches retouche NOUN ... 1

7 et et CONJ ... *

8 des un DET ...

9 recadrages recadrage NOUN ;.. 2

10 . . PUNCT ;.. *

Figure 2.8 – Format CUPT : Un exemple au format CUPT des annotations de la phrase

Cette photo a subi1,2 des retouches1 et desrecadrages2.. Les colonnes sont les 10 colonnes du

CoNLL-U (on ne montre ici que le rang, la forme fléchie, le lemme, la POS). La dernière colonne

fournit les annotations d’EPs, au même format que le format PARSEME-TSV.

le token n’appartient à aucune EP. La figure 2.8 montre un exemple de phrase annotée dans ce

format.