• Aucun résultat trouvé

Chapitre 4 : Méthodologie

4.2. Annotation du corpus

4.2.4. Balises et attributs

Dans un souci de cohérence avec les travaux de recherche antérieurs auxquels fait

suite notre étude (selon le protocole décrit dans Vandaele, Bodain et Raffo, 2012b), nous

avons en grande partie repris, pour l’annotation du corpus, les éléments déjà définis. Au

total, six balises sont utilisées. Les trois premières servent directement au repérage et à la

caractérisation des ICM (section 4.2.4.1) :

<concIndPred> et

<concInd>, qui sont

utilisées pour identifier les ICM, et <lingEl>, qui permet d'identifier les actants des ICM

prédicatifs ou quasi prédicatifs. Les trois autres balises servent surtout à faciliter

l'annotation (section 4.2.4.2) : <comm> permet d'ajouter des commentaires, <prob>, de

mettre en évidence des problèmes et <sic>, d'apporter des corrections au texte annoté.

Lorsqu'un ICM est identifié grâce au critère de dissonance cognitive (voir section

4.2.2), il est immédiatement classé selon sa nature prédicative ou non prédicative et entouré

de la balise correspondante (respectivement <concIndPred> ou <concInd>). Les ICM

quasi prédicatifs sont entourés de la balise <concInd> (voir chapitres 5 et 6 pour plus de

détails sur la relation entre les modes de conceptualisation métaphorique et la prédication).

Les actants des ICM prédicatifs et quasi prédicatifs, le cas échéant, sont également

étiquetés afin d'être reliés à l'ICM. Si l'actant est lui-même un ICM, il est entouré de la

balise correspondante. S'il n'est pas un ICM, il est entouré de la balise <lingEl> (dont le

nom signifie simplement « élément linguistique »).

La figure suivante montre une capture d'écran du logiciel Oxygen (SyncroSoft

SRL : version 14.1, sous Windows 7) lors de l'annotation.

Figure 2 : Capture d'écran du logiciel Oxygen

4.2.4.1. Balises et attributs servant au repérage et à la caractérisation des ICM

La balise <concIndPred> est utilisée pour annoter les ICM de nature prédicative.

Les attributs propres à notre étude sont en caractères gras. Les autres sont explicités dans

Vandaele, Bodain et Raffo (2012b).

<concIndPred>

Identification des ICM prédicatifs

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

lex

texte

Catégorie lexicale à laquelle appartient l'élément annoté

lem

texte

Forme lemmatisée de l'élément annoté

morph

texte

Radical réalisant la projection métaphoriquedans sa

morphologie au sein de la lexie composée

15

morphLem

texte

Lexie la plus proche dont dérive le radical réalisant la

projection métaphorique

synt

texte

Forme lemmatisée du syntagme dont fait partie l'élément annoté

act1

act2

chiffre

Numéro d’identification de la balise dont le contenu réalise un

des actants de l'élément prédicatif annoté

met1

met2

texte

Catégorie conceptuelle d’actant réalisant prototypiquement

l’actant correspondant de l'élément prédicatif annoté

repFic

texte

Catégorie de représentation fictive à laquelle appartient l’ICM

annoté

resLex

texte

Réseau lexical auquel appartient l'ICM annoté

comm

texte

Commentaires

Tableau 4.1 : Attributs de l’élément <concIndPred>

Les attributs morph et morphLem, qui permettent de caractériser une partie de la

lexie composée annotée, ont principalement été ajoutés pour répondre aux besoins des

lexies composées, particulièrement fréquentes en allemand. Ces attributs sont explicités aux

sections 4.2.4.3.4.

La balise <concInd> est utilisée pour annoter les ICM de nature non prédicative ou

quasi prédicative.

15 Les attributs morph et morphLem ne sont obligatoires que lorsqu'une partie seulement de l'élément annoté réalise la conceptualisation métaphorique.

<concInd>

Identification des ICM non prédicatifs ou quasi prédicatifs

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

lex

texte

Catégorie lexicale à laquelle appartient l'élément annoté

lem

texte

Forme lemmatisée de l'élément annoté

morph

texte

Radical réalisant la projection métaphoriquedans sa

morphologie au sein de la lexie composée

morphLem

texte

Lexie la plus proche dont dérive le radical réalisant la

projection métaphorique

synt

texte

Forme lemmatisée du syntagme dont fait partie l'élément annoté

gener

texte

Générique de l'élément annoté

holo

texte

Holonyme de l'élément annoté

act1

act2

chiffre

Numéro d’identification de la balise dont le contenu réalise

un des actants participant à la projection métaphorique de

l'élément quasi prédicatif annoté

met1

met2

texte

Catégorie conceptuelle d’actant réalisant prototypiquement

l’actant correspondant de l'élément quasi prédicatif annoté

proj

texte

Traits sémantiques projetés du cadre conceptuel source au cadre

conceptuel cible

resLex

texte

Réseau lexical auquel appartient l'ICM annoté

comm

texte

Commentaires

Tableau 4.2 : Attributs de l’élément <concInd>

L'utilisation des attributs act1, act2, etc. au sein de la balise <concInd> est a priori

contre-intuitive dans la mesure où cette balise avait d'abord été conçue pour les ICM non

prédicatifs. Nous utilisons toutefois cette même balise pour les ICM quasi prédicatifs, dont

le fonctionnement peut être à la fois une projection de traits sémantiques et une projection

de catégorie conceptuelle d’actants (voir section 5.3 et section 6.2).

La balise <lingEl> est utilisée pour annoter les éléments participant à la projection

métaphorique qui ne sont pas eux-mêmes des ICM, c'est-à-dire les actants des ICM

prédicatifs ou quasi prédicatifs.

<lingEl>

Identification de la réalisation des actants des ICM prédicatifs ou quasi prédicatifs

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

lex

texte

Catégorie lexicale à laquelle appartient l'élément annoté

lem

texte

Forme lemmatisée de l'élément annoté

morph

texte

Radical visé par l'annotation dans sa morphologie au sein de

la lexie composée

morphLem

texte

Lexie la plus proche dont dérive le radical visé par

l'annotation

synt

texte

Forme lemmatisée du syntagme dont fait partie l'élément annoté

gener

texte

Générique de l'élément annoté

holo

texte

Holonyme de l'élément annoté

comm

texte

Commentaires

Tableau 4.3 : Attributs de l’élément <lingEl>

4.2.4.2. Autres balises

Les balises <comm>, <prob> et <sic> complètent l'annotation. La balise <comm>

est utilisée pour insérer des commentaires temporaires ou permanents dans le texte annoté,

la balise <prob> permet, en cours d’annotation, de repérer des problèmes à régler (elle

n’existe plus, en principe, lorsque l’annotation est terminée) et la balise <sic> est utilisée

pour signaler et corriger une erreur provenant du texte d’origine.

<comm>

Insertion de commentaires dans le texte

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

lem

texte

Forme lemmatisée de l'élément annoté

comm

texte

Commentaires

Tableau 4.4 : Attributs de l’élément <comm>

<prob>

Identification de cas problématiques

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

lem

texte

Forme lemmatisée de l'élément annoté

comm

texte

Commentaires

<sic>

Identification d’erreurs dans le texte

Attribut

Contenu

Explication

id

chiffre

Numéro d’identification de l'élément annoté

cor

texte

Forme corrigée de l'élément annoté

comm

texte

Commentaires

Tableau 4.6 : Attributs de l’élément <sic>

4.2.4.3. Attributs

Afin de faciliter l'extraction des données et d'harmoniser les résultats avec les études

antérieures, les valeurs des attributs sélectionnées dans des listes préétablies sont toutes en

français.

4.2.4.3.1. id

L'attribut id est commun à toutes les balises et sert à attribuer aux éléments un

numéro d'identification unique au sein du fichier. Il est constitué d’un numéro unique de

phrase généré automatiquement à l’étape de transformation (voir section 4.1) et d'un

numéro unique au sein de cette phrase. Si, par exemple, il s'agit de la première balise (1) de

la quatorzième phrase (14), l'attribut apparaît ainsi au sein de la balise : "_14-1".

Le soulignement permet de rendre le contenu des balises conforme au type IDREFS

qui permet de le relier au contenu des attributs act1, act2, etc. L’insertion de ce numéro est

manuelle, mais la feuille de style XSD permet de valider le numéro attribué.

4.2.4.3.2. lex

L'attribut lex permet d’indiquer la catégorie lexicale de la lexie ou du syntagme

annoté. Les valeurs possibles de cet attribut, définies en amont, sont affichées dans un

menu déroulant (voir le tableau suivant). Lors de l’annotation, il suffit de sélectionner

l’attribut pertinent dans la liste. Nous avons repris la liste des attributs explicités dans

Vandaele, Bodain et Raffo (2012b) et ajouté les valeurs suivantes : composé nominal,

composé verbal, composé qualificatif, composé relationnel. Ces valeurs sont utilisées

dans le cas des lexies composées, lorsque l'élément à annoter correspond à un seul des

éléments compositifs. Par exemple, la lexie composée Kleinhirnkern en allemand serait

annotée comme composé nominal.

Valeur

Utilisation

verbe

Verbes (pronominaux ou non) et syntagmes verbaux

composé verbal

Lexie composée verbale

nom

Noms et syntagmes nominaux

composé nominal

Lexie composée nominale

qualificatif

Adjectifs qualificatifs

composé qualificatif

Lexie composée ayant la fonction d'adjectif qualificatif

relationnel

Adjectifs relationnels

composé relationnel

Lexie composée ayant la fonction d'adjectif relationnel

adverbe

Adverbes et syntagmes adverbiaux

préposition

Préposition et syntagmes prépositionnels

Tableau 4.7 : Valeurs de l'attribut lex

4.2.4.3.3. lem

L'attribut lem a pour fonction d'indiquer la forme lemmatisée de l’élément annoté.

Cette forme permet de rassembler par la suite toutes les occurrences d'une même lexie, peu

importe leur flexion en discours. Pour un verbe conjugué, par exemple, la forme

lemmatisée correspond à l'infinitif.

4.2.4.3.4. morph et morphLem

Les attributs morph

et morphLem sont toujours utilisées conjointement. Ils

permettent d'isoler le radical ayant la fonction visée par l'annotation (ICM ou actant)

lorsque ce dernier ne correspond qu'à un élément compositif de la lexie délimitée par la

balise.

L'attribut morph permet d'indiquer l'élément compositif qui réalise la projection

métaphorique au sein de la lexie avec la morphologie qui lui est propre (p. ex. dans

Kleinhirnkern, la valeur de cet attribut est -kern). L'attribut morphLem permet quant à lui

d'indiquer la lexie la plus proche dont dérive cet élément compositif (p. ex. Kern dans

Kleinhirnkern).

Si l'on prend l'exemple de Kleinhirnkern, l'annotation serait présentée ainsi :

<concInd

id="_1-1"

lex="composé

nominal"

lem="Kleinhirnkern"

morph="-kern"

morphLem="Kern"

proj="position"

resLex="botanique">Faserbahn</concInd>

4.2.4.3.5. synt

L'attribut synt a pour fonction d'indiquer le syntagme libre auquel appartient

l’élément annoté. Ce syntagme peut figurer explicitement dans la phrase ou être

partiellement implicite. Par exemple, dans les expressions « rameau antérieur » ou

« rameau postérieur », l'ICM annoté est « rameau » (lem="rameau") mais les syntagmes

correspondants seront indiqués comme valeur de l'attribut synt (p. ex. synt="rameau

antérieur").

4.2.4.3.6. gener et holo

L'attribut gener permet d’indiquer l'hyperonyme (générique) de l'élément annoté

et l'attribut holo, son l'holonyme. Les valeurs de ces attributs sont sélectionnées dans une

liste de valeurs (tableau 4.8). Une partie de la liste était établie à partir des études

antérieures (Lubin, 2006; Labelle, 2009) et nous avons ajouté les valeurs spécifiques à

notre corpus (p. ex. télencéphale, myélencéphale, métencéphale, mésencéphale et

diencéphale).

La liste n'est pas fermée, car elle dépend du contenu des textes. Nous l’avons donc

complétée au fur et à mesure de l’annotation. Son objectif est de garantir une constance

dans l’annotation, et notamment d’éviter les variations orthographiques qui nuiraient les

recherches ultérieures

16

.

Valeur

vaisseau

artère

veine

molécule

neurotransmetteur

cellule

neurone

système nerveux périphérique

nerf

système nerveux central

diencéphale

encéphale

méninge

mésencéphale

métencéphale

moelle spinale

myélencéphale

télencéphale

système musculaire

muscle

système squelettique

os

fibre

organe

organisme

tissu

Tableau 4.8 : Liste des valeurs possibles des attributs gener et holo

4.2.4.3.7. act1 et autres

Les attributs act1, act2, etc. servent à caractériser la structure actancielle d'un lCM

de nature prédicative ou quasi prédicative. Ils permettent d'identifier les actants (act) et de

leur attribuer un numéro selon leur position dans la structure actancielle (premier actant

16 À noter que nous avons utilisé la même liste, en français, pour les trois langues. C’est une contrainte imposée par le protocole d’annotation de Vandaele et coll. (2012), liée à des particularités informatiques de la mise en ligne des corpus prévue ultérieurement. Le détail des contraintes imposées dépasse le cadre de notre recherche et nous ne l’expliciterons pas ici.

[act1], deuxième actant [act2], etc.). Le contenu de l'attribut correspond au numéro

d'identification de l'élément auquel il fait référence, qui doit donc lui-même avoir été

annoté. Afin de pouvoir relier plusieurs numéros d'identification à un actant, le contenu des

attributs act1, act2, etc. est de type IDREFS, dont la valeur est une liste de numéros

d'identification.

4.2.4.3.8. met1 et autres

Les attributs met1, met2, etc. permettent de décrire la catégorie conceptuelle

d’actant réalisant prototypiquement l’actant correspondant de l'ICM. L’attribut met1 est

donc associé à l'attribut act1, l’attribut met2, à l'attribut act2 et ainsi de suite. Les valeurs

possibles des attributs met1, met2, etc. sont sélectionnées dans une liste elle aussi

partiellement issue des travaux antérieurs et complétée au fil de notre étude :

Valeurs

action

animal

arbre

bâtiment

branche

corps

cours d'eau

direction

entité animée

entité mobile

entité volante

lieu

message

moyen de transport

outil

personne

rayon

sol

tête

toit de bâtiment

voie de communication

La valeur entité animée (au sens du latin anima [être vivant ayant un souffle, une

âme]) réfère à des êtres vivants, c'est-à-dire à la fois les personnes et les animaux. La valeur

entité mobile est une valeur générique pour toute entité capable de se déplacer. Aucune

hypothèse a priori n’étant faite sur la nature de l’entité, cela peut inclure des entités

vivantes ou des entités relevant de moyens de transport.

4.2.4.3.9. proj

L'attribut

proj

permet d’indiquer les traits sémantiques projetés du cadre

conceptuel source au cadre conceptuel cible. Les valeurs possibles de cet attribut sont

sélectionnées dans une liste provenant de Lubin (2006) :

Valeurs

apparence

fonction

fonction / position

forme

forme / fonction

forme / position

position

Tableau 4.10 : Liste des valeurs possibles de l'attribut proj

4.2.4.3.10. repFic

L'attribut repFic permet de caractériser la représentation fictive véhiculée par

l'ICM. Les valeurs possibles pour cet attribut, déterminées en amont, sont adaptées des

catégorisations de Talmy (2000; voir section 1.1.2) par Lubin (2006). Les valeurs possibles

de cet attribut sont présentées dans le tableau 4.11.

Valeur

Utilisation

action fictive

Représentation fictive d'une entité factivement inerte comme

investigatrice d'une action

action fictive et

déplacement fictif

Représentation fictive d'une entité factivement inerte comme

investigatrice d'une action couplée d'un déplacement

changement fictif

Représentation fictive appartenant à la catégorie principale state of

change et dans laquelle un état stable factif s’oppose à un changement

fictif

déplacement fictif--

advent path--site arrival

Représentation fictive d'un objet factivement immobile comme arrivant

au site qu'il occupe

déplacement fictif--

advent path--site

departure

Représentation fictive d'un objet factivement immobile comme partant

du site qu'il occupe

déplacement fictif--

coextension path

Représentation d'un objet étendu dans l’espace « en termes d'une trajectoire suivie par une entité fictive qui correspond à l'étendue de

l'objet » (Talmy, 2000 : 138, traduit dans Lubin, 2006 : 26).

déplacement fictif--

emanation path

Représentation fictive d'une entité intangible comme émanant d'une

source

état fictif

Représentation d'une entité en termes d'un état qui ne la décrit pas

factivement

processus fictif

Représentation fictive d'une entité comme initiant ou subissant un

processus

autre

Représentation fictive non spécifique

Tableau 4.11 : Valeurs de l'attribut repFic

4.2.4.3.11. resLex

L'attribut

resLex

permet de caractériser le réseau lexical auquel appartient

l’élément annoté. Les valeurs possibles de cet attribut sont sélectionnées dans une liste

ouverte à laquelle sont ajoutés les nouveaux réseaux lexicaux observés.

Valeurs

architecture

botanique

communication

électricité

géographie

géologie

hydrologie

technologie

textile

transport

4.2.4.3.12. comm

L'attribut

comm peut être inséré dans n'importe quelle balise pour ajouter un

commentaire (à ne pas confondre avec la balise <comm> qui permet d’insérer un

commentaire au niveau de la phrase).