Nous détaillons dans cette section les différents schémas et formats utilisés pour représenter
les EPs au sein de divers jeux de données. Nous nous limitons aux schémas et formats principaux
utilisés par les travaux les plus significatifs dans la littérature d’identification des EPs, et dans
2.4. Annotations : schémas et formats
Shéma La décision de mettre cet homme à l’ écart a été prise
IOB O O O B O O I I I O O O
IOB-iob O B O b o o i i i O O I
Figure 2.5 – Schémas IOB et IOB-iob - exemple : Les représentations IOB et IOB-iob
de la phraseLa décision1 demettre2 cet hommeà2 l’écart2 a été prise1 contenant deux EPs
(décision prise et mettre à l’écart, cette dernière apparaissant au sein de la discontinuité entre
décision etprise. Le schéma IOB fourni ne permet pas de gérer ce cas, et n’annote ici quemettre
à l’écart, contrairement à IOB-iob.
les données sur lesquelles s’appuient nos expérimentations.
2.4.1 Schémas IOB et IOB-iob
Les schémas dits IOB (« Inside Outside Begin ») ou IOB-iob sont couramment utilisés par
les méthodes d’étiquetage de séquences pour de multiples tâches de TAL comme la segmentation
syntaxique (chunking) et la reconnaissance des entités nommées. Le schéma IOB a été proposé
par Ramshaw et Marcus (1999) avec l’objectif de représenter les groupes nominaux non récursifs.
Il s’agit d’un schéma d’étiquetage séquentiel, associant une unique étiquette à chaque token de
la phrase. Alors que I indique si le token est à l’intérieur du groupe nominal, O indique que
le token est à l’extérieur de celui-ci et B marque l’élément le plus à gauche du groupe. Les
méthodes d’identification des EPs à base d’étiquetage de séquences s’inspirent de ce schéma
pour représenter les phrases des corpus d’apprentissage. Le token peut être soit le premier token
d’une EP (il est alors étiquetéB), soit un token complémentaire de l’EP (I), soit à l’extérieur
de l’EP (O). Ce schéma permet de représenter des EPs continues et discontinues, mais n’est pas
capable de représenter les cas d’enchâssement, de chevauchement, ni même d’imbrication (un cas
particulier d’enchâssement, où l’EP enchâssante a des composantes à gauche et à droite de l’EP
enchâssée).
Pour augmenter le pouvoir expressif de ce schéma, Schneider et al. (2014a) proposent une
modification afin de l’adapter à l’imbrication. Le schéma IOB-iob est composé de six étiquettes :
B, I, O, b, ieto. Les étiquettes majuscules sont similaires à celles du schéma IOB standard. Les
étiquettes en minuscules ont des significations similaires, mais pour les EPs imbriquées : b est
utilisé pour le premier composant de l’EP imbriquée, ipour ses composants suivants et o pour
les éventuels tokens qui n’appartiennent pas à l’EP imbriquée (ni enchâssante) et se produisent
dans l’une de ses discontinuités (commecet homme dans la figure 2.5). Ce schéma ne permet de
représenter l’imbrication qu’à un seul niveau. Comme son ascendant, ce schéma n’est pas capable
de représenter les scénarios d’enchâssement ou de chevauchement.
Il existe d’autres variantes du schéma IOB permettant de s’adapter à divers cadres
expérimen-taux. Klyueva et al. (2017) donne à ce schéma la capacité de catégoriser les EPs en remplaçant la
étiquetteB par la catégorie linguistique de l’EP. Diab et Bhutada (2009) se base sur ce schéma
pour distinguer les occurrences littérales des occurrences idiomatiques des CVSs en proposant
cinq différentes étiquettes : BL (début d’une occurrence littérale), IL (à l’intérieur d’une
oc-currence littérale),BI (début d’une occurrence idiomatique), II (à l’intérieur d’une occurrence
idiomatique), O (à l’extérieur d’une occurrence d’EP). À noter que le jeu de données DiMSUM
utilise le schéma IOB-iob.
Position Forme fléchie Lemme POS ...
# sentid : Europar.550_00166
# sentence-text : Nous devrions prendre cela au sérieux.
1 Nous il PRON ...
2 devrions devoir VERB ...
3 prendre prendre VERB ...
4 cela cela PRON ...
5-6 au _ _ ...
5 à à PREP ...
6 le le DET ...
7 sérieux sérieux NOUN ...
8 . . PUNCT ...
Figure 2.6 – Les premières colonnes pour le format CoNLL-U pour la phrase Nous devrions
prendre celaau sérieux., comportant le traitement de l’amalgameau.
2.4.2 Schéma PARSEME
Dans les annotations PARSEME, une EP correspond simplement à un ensemble de tokens
d’une phrase (éventuellement réduit à un seul token), l’ensemble étant associé à un identifiant
unique au sein de la phrase. Un token peut appartenir à un nombre quelconque d’EPs. On
obtient ainsi un pouvoir expressif maximal. La seule restriction est que le schéma se base sur
la tokenisation d’entrée de la phrase, et ne peut pas annoter comme composant une sous-partie
d’un token. Le schéma prévoit également un typage des EPs.
Les données sont fournies dans deux formats, un format tabulé simple (PARSEME-TSV),
et un format couplé à l’annotation syntaxique en dépendances (format CUPT). Avant de les
détailler, nous faisons un point terminologique concernant token et mot.
Token versus mot dans les annotations de type CoNLL-U
Les formats des données PARSEME utilisent les principes de tokenisation du projet
Univer-sal Dependencies17, avec en particulier un format qui permet qu’un token correspondant à un
amalgame soit défait en plusieurs « mots », comme par exemple l’amalgame aux pouvant être
défait en deux « mots » à etles. La terminologie du projet « Universal Dependencies » utilise
le terme « multi-word token » pour l’amalgame, et le terme « word » pour les mots qui en sont
extraits, ainsi que les mots non issus d’un amalgame. Dans les annotations au format CoNLL-U,
utilisé pour les « Universal Dependencies », on a une ligne par amalgame ou mot (voir à la
figure 2.6, par exemple la ligne pour au et la ligne pour le à qui en est extrait). Seuls les mots
ont un numéro, les amalgames sont fournis pour mémoire du texte original, avec une indication
de la plage de mots auxquels ils correspondent, mais ils ne peuvent pas recevoir d’annotations
(morphologiques, syntaxiques, ou dans le cas de PARSEME des annotations d’EPs).
Dans toute la suite, nous préférons garder le terme « token » pour une unité APRÈS
décomposition des amalgames. Ainsi dans la figure 2.6, on a selon cette terminologie 8 tokens
numérotés de 1 à 8, y compris les tokensà etleissu de l’amalgameau. Celui-ci n’a pas d’étiquette
morphosyntaxique et n’entre pas dans l’arbre de dépendances syntaxiques. On indique seulement
la plage de tokens qu’il couvre (ici la plage 5-6).
2.4. Annotations : schémas et formats
Position Forme fléchie Booléen (nsp/_) EP
# sentid : Europar.550_00166
# sentence-text : Nous devrions prendre cela au sérieux.
1 Nous _ _
2 devrions _ _
3 prendre _ 1 :ID
4 cela _ _
5-6 au _ _
5 à _ 1
6 le _ 1
7 sérieux nsp 1
8 . _ _
Figure 2.7 – Format PARSEME-TSV - exemple : Un exemple au format
PARSEME-TSV pour la phraseNous devrionsprendre celaau sérieux.où prendre au sérieux est annoté
comme un idiome verbal. Les deux premières lignes indiquent l’identifiant et le texte de la phrase.
Le symbole « nsp » de la troisième colonne indique que le token n’est pas suivi par un espace
dans le texte original.
Format PARSEME-TSV
Le format PARSEME-TSV a été utilisé dans la cadre de la première campagne PARSEME
(campagne 1.0, (Savary et al., 2017)). C’est un format tabulé, avec chaque phrase séparée par
une ligne vide, puis un token ou un amalgame par ligne. Chaque token est représenté par une
ligne de quatre champs : la position du token dans la phrase, sa forme fléchie, le caractère (’_’)
si le token est suivi par un espace dans la phrase, sinon, il contient« nsp ». Le dernier champ est
dédié à l’appartenance à aucune, une ou plusieurs EPs. Le champ contient le caractère (’_’) si
le token ne fait pas partie d’une EP verbale. Sinon, ce champ contient une liste de codes d’EPs,
séparés par des points-virgules. Le premier token d’une EP est repéré par un identifiant entier,
suivi par une étiquette de la catégorie de l’EP. Le champ ne contient que l’identifiant de l’EP
pour les autres tokens de l’EP (voir figure 2.7).
Comme indiqué section 2.3.1.0, pour certaines des langues des données PARSEME 1.0, le
fichier PARSEME-TSV est accompagné d’un fichier CoNLL-U qui fournit l’annotation
morpho-logique et l’arbre de dépendances syntaxiques.
Le fichier CoNll-U contient les phrases tokenisées de manière exactement parallèle au
fichier PARSEME-TSV. Chaque tokentest associé à un ensemble d’informations linguistiques :
sa position dans la phrase courante, sa forme fléchie, son lemme, son étiquette morphosyntaxique
universelle (Petrov et al., 2011), son étiquette morphosyntaxique, ses traits morphologiques,
l’indice du mot gouverneur syntaxique de t et le label de la dépendance syntaxique entre le
gouverneur ett, ainsi qu’un champ pour des informations diverses.
Format CUPT
Le format CUPT est une fusion des deux formats CoNLL-U et PARSEME-TSV que nous
venons de décrire. Il s’agit d’un format tabulé comprenant les 10 colonnes du CoNLL-U, et les
colonnes 3 et 4 du PARSEME-TSV, modulo quelques modifications mineures comme le
rempla-cement du caractère (_) par un autre caractère (*) dans la dernière colonne pour indiquer que
Position Forme fléchie Lemme EMSu ... EP
1 Cette ce DET ... *
2 photo photo NOUN ... *
3 a avoir AUX ... *
4 subi subir VERB ... 1 :LVC.full ;2 :LVC.full
5 des un DET ... *
6 retouches retouche NOUN ... 1
7 et et CONJ ... *
8 des un DET ...
9 recadrages recadrage NOUN ;.. 2
10 . . PUNCT ;.. *
Figure 2.8 – Format CUPT : Un exemple au format CUPT des annotations de la phrase
Cette photo a subi1,2 des retouches1 et desrecadrages2.. Les colonnes sont les 10 colonnes du
CoNLL-U (on ne montre ici que le rang, la forme fléchie, le lemme, la POS). La dernière colonne
fournit les annotations d’EPs, au même format que le format PARSEME-TSV.
le token n’appartient à aucune EP. La figure 2.8 montre un exemple de phrase annotée dans ce
format.
Dans le document
Analyse automatique par transitions pour l'identification des expressions polylexicales
(Page 52-56)