Chapitre 4 : Méthodologie
4.2. Annotation du corpus
4.2.4. Balises et attributs
Dans un souci de cohérence avec les travaux de recherche antérieurs auxquels fait
suite notre étude (selon le protocole décrit dans Vandaele, Bodain et Raffo, 2012b), nous
avons en grande partie repris, pour l’annotation du corpus, les éléments déjà définis. Au
total, six balises sont utilisées. Les trois premières servent directement au repérage et à la
caractérisation des ICM (section 4.2.4.1) :
<concIndPred> et
<concInd>, qui sont
utilisées pour identifier les ICM, et <lingEl>, qui permet d'identifier les actants des ICM
prédicatifs ou quasi prédicatifs. Les trois autres balises servent surtout à faciliter
l'annotation (section 4.2.4.2) : <comm> permet d'ajouter des commentaires, <prob>, de
mettre en évidence des problèmes et <sic>, d'apporter des corrections au texte annoté.
Lorsqu'un ICM est identifié grâce au critère de dissonance cognitive (voir section
4.2.2), il est immédiatement classé selon sa nature prédicative ou non prédicative et entouré
de la balise correspondante (respectivement <concIndPred> ou <concInd>). Les ICM
quasi prédicatifs sont entourés de la balise <concInd> (voir chapitres 5 et 6 pour plus de
détails sur la relation entre les modes de conceptualisation métaphorique et la prédication).
Les actants des ICM prédicatifs et quasi prédicatifs, le cas échéant, sont également
étiquetés afin d'être reliés à l'ICM. Si l'actant est lui-même un ICM, il est entouré de la
balise correspondante. S'il n'est pas un ICM, il est entouré de la balise <lingEl> (dont le
nom signifie simplement « élément linguistique »).
La figure suivante montre une capture d'écran du logiciel Oxygen (SyncroSoft
SRL : version 14.1, sous Windows 7) lors de l'annotation.
Figure 2 : Capture d'écran du logiciel Oxygen
4.2.4.1. Balises et attributs servant au repérage et à la caractérisation des ICM
La balise <concIndPred> est utilisée pour annoter les ICM de nature prédicative.
Les attributs propres à notre étude sont en caractères gras. Les autres sont explicités dans
Vandaele, Bodain et Raffo (2012b).
<concIndPred>
Identification des ICM prédicatifs
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
lex
texte
Catégorie lexicale à laquelle appartient l'élément annoté
lem
texte
Forme lemmatisée de l'élément annoté
morph
texte
Radical réalisant la projection métaphoriquedans sa
morphologie au sein de la lexie composée
15morphLem
texte
Lexie la plus proche dont dérive le radical réalisant la
projection métaphorique
synt
texte
Forme lemmatisée du syntagme dont fait partie l'élément annoté
act1
act2
…
chiffre
Numéro d’identification de la balise dont le contenu réalise un
des actants de l'élément prédicatif annoté
met1
met2
…
texte
Catégorie conceptuelle d’actant réalisant prototypiquement
l’actant correspondant de l'élément prédicatif annoté
repFic
texte
Catégorie de représentation fictive à laquelle appartient l’ICM
annoté
resLex
texte
Réseau lexical auquel appartient l'ICM annoté
comm
texte
Commentaires
Tableau 4.1 : Attributs de l’élément <concIndPred>
Les attributs morph et morphLem, qui permettent de caractériser une partie de la
lexie composée annotée, ont principalement été ajoutés pour répondre aux besoins des
lexies composées, particulièrement fréquentes en allemand. Ces attributs sont explicités aux
sections 4.2.4.3.4.
La balise <concInd> est utilisée pour annoter les ICM de nature non prédicative ou
quasi prédicative.
15 Les attributs morph et morphLem ne sont obligatoires que lorsqu'une partie seulement de l'élément annoté réalise la conceptualisation métaphorique.
<concInd>
Identification des ICM non prédicatifs ou quasi prédicatifs
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
lex
texte
Catégorie lexicale à laquelle appartient l'élément annoté
lem
texte
Forme lemmatisée de l'élément annoté
morph
texte
Radical réalisant la projection métaphoriquedans sa
morphologie au sein de la lexie composée
morphLem
texte
Lexie la plus proche dont dérive le radical réalisant la
projection métaphorique
synt
texte
Forme lemmatisée du syntagme dont fait partie l'élément annoté
gener
texte
Générique de l'élément annoté
holo
texte
Holonyme de l'élément annoté
act1
act2
…
chiffre
Numéro d’identification de la balise dont le contenu réalise
un des actants participant à la projection métaphorique de
l'élément quasi prédicatif annoté
met1
met2
…
texte
Catégorie conceptuelle d’actant réalisant prototypiquement
l’actant correspondant de l'élément quasi prédicatif annoté
proj
texte
Traits sémantiques projetés du cadre conceptuel source au cadre
conceptuel cible
resLex
texte
Réseau lexical auquel appartient l'ICM annoté
comm
texte
Commentaires
Tableau 4.2 : Attributs de l’élément <concInd>
L'utilisation des attributs act1, act2, etc. au sein de la balise <concInd> est a priori
contre-intuitive dans la mesure où cette balise avait d'abord été conçue pour les ICM non
prédicatifs. Nous utilisons toutefois cette même balise pour les ICM quasi prédicatifs, dont
le fonctionnement peut être à la fois une projection de traits sémantiques et une projection
de catégorie conceptuelle d’actants (voir section 5.3 et section 6.2).
La balise <lingEl> est utilisée pour annoter les éléments participant à la projection
métaphorique qui ne sont pas eux-mêmes des ICM, c'est-à-dire les actants des ICM
prédicatifs ou quasi prédicatifs.
<lingEl>
Identification de la réalisation des actants des ICM prédicatifs ou quasi prédicatifs
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
lex
texte
Catégorie lexicale à laquelle appartient l'élément annoté
lem
texte
Forme lemmatisée de l'élément annoté
morph
texte
Radical visé par l'annotation dans sa morphologie au sein de
la lexie composée
morphLem
texte
Lexie la plus proche dont dérive le radical visé par
l'annotation
synt
texte
Forme lemmatisée du syntagme dont fait partie l'élément annoté
gener
texte
Générique de l'élément annoté
holo
texte
Holonyme de l'élément annoté
comm
texte
Commentaires
Tableau 4.3 : Attributs de l’élément <lingEl>
4.2.4.2. Autres balises
Les balises <comm>, <prob> et <sic> complètent l'annotation. La balise <comm>
est utilisée pour insérer des commentaires temporaires ou permanents dans le texte annoté,
la balise <prob> permet, en cours d’annotation, de repérer des problèmes à régler (elle
n’existe plus, en principe, lorsque l’annotation est terminée) et la balise <sic> est utilisée
pour signaler et corriger une erreur provenant du texte d’origine.
<comm>
Insertion de commentaires dans le texte
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
lem
texte
Forme lemmatisée de l'élément annoté
comm
texte
Commentaires
Tableau 4.4 : Attributs de l’élément <comm>
<prob>
Identification de cas problématiques
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
lem
texte
Forme lemmatisée de l'élément annoté
comm
texte
Commentaires
<sic>
Identification d’erreurs dans le texte
Attribut
Contenu
Explication
id
chiffre
Numéro d’identification de l'élément annoté
cor
texte
Forme corrigée de l'élément annoté
comm
texte
Commentaires
Tableau 4.6 : Attributs de l’élément <sic>
4.2.4.3. Attributs
Afin de faciliter l'extraction des données et d'harmoniser les résultats avec les études
antérieures, les valeurs des attributs sélectionnées dans des listes préétablies sont toutes en
français.
4.2.4.3.1. id
L'attribut id est commun à toutes les balises et sert à attribuer aux éléments un
numéro d'identification unique au sein du fichier. Il est constitué d’un numéro unique de
phrase généré automatiquement à l’étape de transformation (voir section 4.1) et d'un
numéro unique au sein de cette phrase. Si, par exemple, il s'agit de la première balise (1) de
la quatorzième phrase (14), l'attribut apparaît ainsi au sein de la balise : "_14-1".
Le soulignement permet de rendre le contenu des balises conforme au type IDREFS
qui permet de le relier au contenu des attributs act1, act2, etc. L’insertion de ce numéro est
manuelle, mais la feuille de style XSD permet de valider le numéro attribué.
4.2.4.3.2. lex
L'attribut lex permet d’indiquer la catégorie lexicale de la lexie ou du syntagme
annoté. Les valeurs possibles de cet attribut, définies en amont, sont affichées dans un
menu déroulant (voir le tableau suivant). Lors de l’annotation, il suffit de sélectionner
l’attribut pertinent dans la liste. Nous avons repris la liste des attributs explicités dans
Vandaele, Bodain et Raffo (2012b) et ajouté les valeurs suivantes : composé nominal,
composé verbal, composé qualificatif, composé relationnel. Ces valeurs sont utilisées
dans le cas des lexies composées, lorsque l'élément à annoter correspond à un seul des
éléments compositifs. Par exemple, la lexie composée Kleinhirnkern en allemand serait
annotée comme composé nominal.
Valeur
Utilisation
verbe
Verbes (pronominaux ou non) et syntagmes verbaux
composé verbal
Lexie composée verbale
nom
Noms et syntagmes nominaux
composé nominal
Lexie composée nominale
qualificatif
Adjectifs qualificatifs
composé qualificatif
Lexie composée ayant la fonction d'adjectif qualificatif
relationnel
Adjectifs relationnels
composé relationnel
Lexie composée ayant la fonction d'adjectif relationnel
adverbe
Adverbes et syntagmes adverbiaux
préposition
Préposition et syntagmes prépositionnels
Tableau 4.7 : Valeurs de l'attribut lex
4.2.4.3.3. lem
L'attribut lem a pour fonction d'indiquer la forme lemmatisée de l’élément annoté.
Cette forme permet de rassembler par la suite toutes les occurrences d'une même lexie, peu
importe leur flexion en discours. Pour un verbe conjugué, par exemple, la forme
lemmatisée correspond à l'infinitif.
4.2.4.3.4. morph et morphLem
Les attributs morph
et morphLem sont toujours utilisées conjointement. Ils
permettent d'isoler le radical ayant la fonction visée par l'annotation (ICM ou actant)
lorsque ce dernier ne correspond qu'à un élément compositif de la lexie délimitée par la
balise.
L'attribut morph permet d'indiquer l'élément compositif qui réalise la projection
métaphorique au sein de la lexie avec la morphologie qui lui est propre (p. ex. dans
Kleinhirnkern, la valeur de cet attribut est -kern). L'attribut morphLem permet quant à lui
d'indiquer la lexie la plus proche dont dérive cet élément compositif (p. ex. Kern dans
Kleinhirnkern).
Si l'on prend l'exemple de Kleinhirnkern, l'annotation serait présentée ainsi :
<concInd
id="_1-1"
lex="composé
nominal"
lem="Kleinhirnkern"
morph="-kern"
morphLem="Kern"
proj="position"
resLex="botanique">Faserbahn</concInd>
4.2.4.3.5. synt
L'attribut synt a pour fonction d'indiquer le syntagme libre auquel appartient
l’élément annoté. Ce syntagme peut figurer explicitement dans la phrase ou être
partiellement implicite. Par exemple, dans les expressions « rameau antérieur » ou
« rameau postérieur », l'ICM annoté est « rameau » (lem="rameau") mais les syntagmes
correspondants seront indiqués comme valeur de l'attribut synt (p. ex. synt="rameau
antérieur").
4.2.4.3.6. gener et holo
L'attribut gener permet d’indiquer l'hyperonyme (générique) de l'élément annoté
et l'attribut holo, son l'holonyme. Les valeurs de ces attributs sont sélectionnées dans une
liste de valeurs (tableau 4.8). Une partie de la liste était établie à partir des études
antérieures (Lubin, 2006; Labelle, 2009) et nous avons ajouté les valeurs spécifiques à
notre corpus (p. ex. télencéphale, myélencéphale, métencéphale, mésencéphale et
diencéphale).
La liste n'est pas fermée, car elle dépend du contenu des textes. Nous l’avons donc
complétée au fur et à mesure de l’annotation. Son objectif est de garantir une constance
dans l’annotation, et notamment d’éviter les variations orthographiques qui nuiraient les
recherches ultérieures
16.
Valeur
vaisseau
artère
veine
molécule
neurotransmetteur
cellule
neurone
système nerveux périphérique
nerf
système nerveux central
diencéphale
encéphale
méninge
mésencéphale
métencéphale
moelle spinale
myélencéphale
télencéphale
système musculaire
muscle
système squelettique
os
fibre
organe
organisme
tissu
Tableau 4.8 : Liste des valeurs possibles des attributs gener et holo
4.2.4.3.7. act1 et autres
Les attributs act1, act2, etc. servent à caractériser la structure actancielle d'un lCM
de nature prédicative ou quasi prédicative. Ils permettent d'identifier les actants (act) et de
leur attribuer un numéro selon leur position dans la structure actancielle (premier actant
16 À noter que nous avons utilisé la même liste, en français, pour les trois langues. C’est une contrainte imposée par le protocole d’annotation de Vandaele et coll. (2012), liée à des particularités informatiques de la mise en ligne des corpus prévue ultérieurement. Le détail des contraintes imposées dépasse le cadre de notre recherche et nous ne l’expliciterons pas ici.