Remaniement des fichier XML Transcriber avec un étiqueteur morphosyntaxique morphosyntaxique

Méthode d’analyse du corpus

3.7 Etiquettes et balises

3.7.3 Remaniement des fichier XML Transcriber avec un étiqueteur morphosyntaxique morphosyntaxique

A la suite de ces deux étapes de transcription, et de remaniement, les fichiers XML présentent peu d‘intérêt et doivent être remaniés et annotés de façon à ce que les unités minimales soient non plus des tours de parole mais des mots. Il faut un enchâssement où les mots se trouvent en éléments balisés. Cela est effectué conjointement à l‘étiquetage morphosyntaxique et LSA qui introduit des balises avec des étiquettes pour chaque élément texte du script. On se sert donc des fichiers Trs, mais le travail est tout juste amorcé, et il faut, hormis l‘adjonction de balises, éliminer ce qui est inutile pour l‘analyse, de façon à réduire la taille des fichiers au maximum.

3.7.3 Remaniement des fichier XML Transcriber avec un étiqueteur morphosyntaxique

3.7.3.1 Choix de l‟étiqueteur Morphosyntaxique

Les étiqueteurs à dépendances syntaxiques

Ils procèdent à une analyse profonde qui utilise des lois statistiques et des banques de données. Certains programmes comme French Machinese Phrase Tagger 4.6 analysis de Connexor, sont disponibles avec signature d‘un document légal sur les conditions d‘utilisation par le directeur de laboratoire. Ils traitent le français et l‘anglais, avec différents degrés de complexité. Deux types de traitements par Machinese (http://www.connexor.com/demo/) fournissent un aperçu des possibilités de l‘étiquetage morphosyntaxique. L‘Extrait de texte à traiter est : « c' est là le musicien fait l' athlétisme des doigt» (304,F8). On peut obtenir un étiquetage structurel et fonctionnel par Phrase Tagger 4.6 analysis :

Text Baseform Phrase syntax and part-of-speech le le premodifier, determiner

musicien musicien nominal head, noun, single-word noun phrase fait faire main verb, indicative present

l' le premodifier, determiner

athlétisme athlétisme nominal head, noun, noun phrase begins

d de postmodifier, preposition, noun phrase continues es les premodifier, determiner, noun phrase continues

doigt doigt nominal head, noun, noun phrase ends, sentence boundary Tableau 10a Résultats de l‘étiquetage morphosyntaxique

Ou un étiquetage de dépendance par Analysis of Machinese Syntax for French: # Text Baseform Syntactic relation Syntax and morphology

1 le le det:>2 &DN> <Def> DET MSC SG 2 musicien musicien subj:>3 &NH N MSC SG

3 fait faire main:>0 &+FMA V IND PRES SG3 4 l' le det:>5 &DN> <Def> DET MSC SG 5 athlétisme athlétisme obj:>3 &NH N MSC SG

6 d de pm:>8 &PM> PREP

7 es les det:>8 &DN> <Def> DET MSC PL 8 doigt doigt mod:>5 &NH N MSC SG

9 <s> <s>

Tableau 10b résultats de l‘étiquetage morphosyntaxique de dépendance

On a vu que l‘étiqueteur de relation syntaxique de dépendance peut être utile dans le traitement de corpus dont la topique varie (ce qui est tout le temps le cas mis la constance du thème des interviews a autorisé une approximation). Ici, le mot « athlétisme » peut être

comparé sémantiquement à « musicien » par la relation syntaxique établie par le programme. On obtiendrait le coefficient de distance sémantique suivant :

Document musicien athlétisme musicien 1 -0.01 athlétisme -0

Ce coefficient signale un écart sémantique énorme, et donc potentiellement la présence d‘une métaphore vive. Ce type d‘étiqueteur est donc à retenir pour des corpus plus important, à topique variable.

Il en existe d‘autres tels que celui de VISL (université de Syddansk), dont les résultats sont peu différents de Machinese :

est[être] <mv> V PR 3S IND @FMV

là[là] <aloc> ADV @<SA le[le] <def> ART M S @>N musicien[musicien]N M S @<SC

fait[faire] <mv> V PR 3S IND @FMV

l'[le] <def> ART M S @>N

athlétisme[athlétisme]N M S @<ACC[athlétisme]N M S @<SUBJ de[de] <sam-> PRP @<PIV

les[de+les] <det> PRP @ADVL

doigt[doigt]N M S <<< <<< @P<

L‘avantage de Machinese dans sa fonction de parseur syntactique est donc sa fonction d‘annotation de relation syntaxique de dépendance. La mise en œuvre d‘un programme qui calculerait la distance sémantique en fonction des relations syntaxiques établies par un parseur exigerait de travailler en collaboration avec le laboratoire SALSA. En effet l‘utilisation de la seule version de démonstration qui a suffit pour cet embryon de corpus demanderait trop de manipulations.

Conclusion :

Ces analyses sont trop fines pour l‘analyse entreprise dans cette étude qui a pour ambition d‘affiner des outils et d‘ouvrir des voies nouvelles d‘exploration de la vivacité métaphorique. Qui plus est, ces parseurs sont adaptés à des énoncés bien formés selon des normes établies pour de l‘écrit. Pour l‘oral, après de nombreux essais, l‘inconvénient majeur est apparu : l‘oral n‘est pas fait de phrases bien définies, et le logiciel est vite dérouté dés que les prises de parole excèdent quinze mots. On conservera cette possibilité pour les analyses fines d‘un nombre restreint d‘énoncés métaphoriques dont la taille sera elle-même restreinte.

3.7.3.2 Les étiqueteurs simples du style Tree Tagger, fonctionnant selon des

structures « en arbre » ou des principes de grammaire chomskienne :

TREE TAGGER de l‘université de Stuttgart7

en est un prototype. Sa production est claire, il traite l‘anglais et le français, et de surcroît, il traite des fichiers textes assez consistants qui sont retournés après avoir été traités en quelques secondes. Le fichier texte est envoyé et retourné sous la forme suivante :

c' PRO:DEM ce

est VER:pres être là ADV là

le DET:ART le

musicien NOM musicien fait VER:pres faire

l' DET:ART le

athlétisme NOM athlétisme des PRP:det du

doigt NOM doigt

Ce format est directement exploitable et transformable en format compatible XML par l‘utilisation de formule régulière avec le logiciel TextPad. Seules les annotations morphologiques sont fournies, mais celles-ci sont suffisantes pour l‘étude envisagée.

3.7.3.3 Choix de l’étiqueteur et étendue du balisage

Pour le choix des balises morphosyntaxiques, il est donc primordial de prendre en compte la nature orale du corpus. L‘absence de phrases remplacées par des segments correspondant à des tours de paroles fait qu‘un découpage syntaxique de type chomskien doit suffire pour l‘étiquetage complet du corpus. D‘autant plus qu‘avec les répétitions, les changements inopinés de construction syntaxique, les analyses de dépendance sont souvent erronées.

On pourra donc s‘en tenir dans un premier temps, pour cette étude qui ne porte pas directement sur la syntaxe, au lemme, et à la morphologie.

Il existe des étiqueteurs en ligne qui remplissent très bien ces fonctions. Après quelques recherches, l‘étiqueteur TREE TAGGER de l‘université de Stuttgart est sélectionné pour son adéquation avec les objectifs de cette étude. Cet outil semble être idéal pour un étiquetage de l‘oral. Les erreurs sont rares (2/3 %), et les résultats sont à la fois clairs et précis. Autre avantage, les codes utilisés pour l‘anglais et le français sont cohérents, d‘une précision équivalente, ce qui n‘était pas le cas pour les autres étiqueteurs—un inconvénient de taille dans le cadre d‘une étude contrastive.

3.7.3.4 Etendue de l‟étiquetage

Après quelques tentatives d‘étiquetage morphosyntaxique se limitant aux EMs sélectionnés pour l‘étude, les limites de cette formule de traitement partiel du corpus, malgré un bon rendement pour ce qui est du traitement par instructions XSLT(recherche sélective de catégories morphologiques), apparaissent vite.

En effet si on ne balise que les portions d‘énoncés qui ont été jugées « métaphoriques », on bannit toute recherche sur le reste du corpus. Aussi, dans le cadre de recherche en amont et en aval des segments étudiés, il faut prévoir une telle marge qu‘il est aussi aisé de baliser

intégralement. Car si les investigations du contexte à droite et à gauche peuvent être jugées fructueuses jusqu‘à six mots, il faut remonter plus loin si on prend en considération les répétitions, et les interruptions.

La première raison d‘un étiquetage total est l‘obtention d‘une cohérence intra-corpus. En effet, la grammaire de l‘oral ne délimitant pas des phrases mais plutôt un fondu enchaîné de propositions aux frontières diffuses, il est préférable de considérer que chaque prise de parole est une phrase (Turn) ou une unité maximale. L‘ensemble de la prise de parole sans tenir compte des interruptions, constitue une phrase. Il faut donc traiter l‘ensemble du corpus. Ce traitement intégral permet ensuite de procéder à des statistiques quand à la répartition contrastive des différentes catégories morphologiques.

Avant même d‘obtenir des résultats quant à la nature sémantique ou structurelle des têtes de métaphore, il semble y avoir une bonne raison de baliser l‘intégralité du corpus : la carence des études par recherche des domaines sources. On ne peut pas savoir au préalable où vont se trouver les têtes de métaphores sémantiquement et morphologiquement puisque le but même de l‘étude est de découvrir ces caractéristiques. Il serait absurde de prendre pour établi qu‘un dépistage manuel, largement introspectif et intuitif, suffirait à cerner toutes les métaphores de ce corpus.

La deuxième motivation est celle d‘obtenir une cohérence inter-corpus, qui rend ce corpus intégrable dans un groupe de travail de linguistique de corpus.

Ces deux raisons ont motivé un balisage complet. Il est bien entendu qu‘en ce qui concerne les segments sur lesquels l‘étude porte plus spécifiquement, notamment les têtes de métaphores classées comme étant innovantes et leur environnement direct, un balisage plus complet des analyses grammaticales de dépendance est envisageable.

3.7.3.5 méthode adoptée pour l‟étiquetage du corpus complet

Modèle adopté

L‘étude qui sert de modèle est celle de (VOLK RIPPLINGER VINTAR 2002). Leur étiquetage conforme à XML et aux normes établies par la TEI (text encoding initiative) correspond aux besoins de l’analyse :

<text>

<token id="w1" pos="NN"> Balint </token> <token id="w2" pos="NN"> syndrom </token> <token id="w3" pos="VBZ" lemma="be"> is </token> <token id="w4" pos="DT" lemma="a"> a </token>

<token id="w5" pos="NN" lemma="combination"> combination </token> <token id="w6" pos="IN" lemma="of"> of </token>

<token id="w7" pos="NNS" lemma="symptom"> symptoms </token> ...

<token id="w21" pos="NN" lemma="perception"> perception </token> <token id="w22" pos="CC" lemma="and"> and </token>

<token id="w23" pos="NN" lemma="representation"> representation </token> ...

</text>

Cette configuration simple, qui utilise des étiquettes similaires à celles produites par Treetagger, est adoptée. Les étiquetages portant le lemme et la morphologie sont insérés dans les balises. En ce qui concerne la deuxième étiquette, la catégorie morphologique est enrichie de renseignements de base sur les graphèmes (marque de l‘infinitif, présent, passé…), mais cette étiquette demeure morphologique. La numérotation des éléments texte ne paraît pas utile à première vue puisque les instructions XSLT prenant les mots dans l‘ordre chronologique par les instructions Xpath, la numérotation est sous-jacente.

3.7.3.6 Marche à suivre pour le balisage

1 /Sélection du texte brut

Elle est effectuée à partir des fichiers TRS produits par la transcription avec le logiciel Transcriber. La procédure adoptée est la suivante :

1/ ouverture des fichiers avec le tableur Excel

2/ insertion d‘une numérotation annexe en première colonne

On obtient un tableau primaire où les lignes des fichiers Trs sont numérotées :

14 </Speakers>

15 <Episode program="" air_date="">

16 <Section type="report" startTime="0" endTime="2095.462">

17 <Turn startTime="0" endTime="10.449" speaker="spk6" mode="spontaneous"> 18 <Sync time="0"/>

19 un dictaphone j'en voulais un quand j'étais à l'école moi 20 </Turn>

21 <Turn speaker="spk3" mode="spontaneous" startTime="10.449" endTime="11.826"> 22 <Sync time="10.449"/>

23 pour enregistrer les profs en cours 24 </Turn>

25 <Turn speaker="spk6" mode="spontaneous" startTime="11.826" endTime="11.971"> 26 <Sync time="11.826"/>

27 pour éviter 28 </Turn>

29 <Turn speaker="spk4" startTime="11.971" endTime="13.831"> 30 <Sync time="11.971"/>

31 après moi j'ai arrêter l'école

Tableau 11 fichier TRS transformé en tableau

3/ les lignes peuvent désormais être ordonnées de façon à extraire tout ce qui est texte pur, organisé en ligne numéroté. On obtient le texte pur, chaque ligne étant numérotée :

20 </Turn> 24 </Turn> 28 </Turn>

15 <Episode program="" air_date="">

16 <Section type="report" startTime="0" endTime="2095.462"> 18 <Sync time="0"/>

22 <Sync time="10.449"/> 26 <Sync time="11.826"/> 30 <Sync time="11.971"/>

21 <Turn speaker="spk3" mode="spontaneous" startTime="10.449" endTime="11.826"> 29 <Turn speaker="spk4" startTime="11.971" endTime="13.831">

25 <Turn speaker="spk6" mode="spontaneous" startTime="11.826" endTime="11.971"> 17 <Turn startTime="0" endTime="10.449" speaker="spk6" mode="spontaneous"> 31 après moi j'ai arrêté l'école

23 pour enregistrer les profs en cours 27 pour éviter

19 un dictaphone j'en voulais un quand j'étais à l'école moi Tableau 12 fichier TRS transformé en tableau réordonné

Le texte brut est extrait par lignes tout en conservant la numérotation assignée à chaque ligne, ce qui permettra de réordonner le texte une fois l‘étiquetage morphosyntaxique accompli. Texte brut :

31 après moi j'ai arrêté l'école

23 pour enregistrer les profs en cours 27 pour éviter

19 un dictaphone j'en voulais un quand j'étais à l'école moi

3.7.3.7 L‟étiquetage par Treetagger suivi d‟une vérification

Cet étiquetage s‘effectue sur le site de l‘étiqueteur POS8

. Les fichiers comportant le texte brut sont téléchargés pour traitement, et renvoyés avec leurs annotations morphologiques. Des problèmes d‘identification des lignes (qui doivent être ensuite réinsérées dans le tableau) doivent être surmontés. Des repères de fin de ligne correspondant aux fins de tours de parole doivent être insérés dans les fichiers TRS (£ ici).

Il est désormais possible de recevoir des fichiers directement formatés en XML, mais le balisage devant être remanié il n‘est pas apparu handicapant de recevoir des tableaux simple (voir ci-dessous). Cela d‘autant plus qu‘il est nécessaire de désambiguïser et de supprimer les erreurs.

Texte brut annoté reçu par courriel (l‘énoncé test est « après moi j'ai arrêté l'école pour

enregistrer les profs en cours ») :

après KON après

moi PRO:PER moi

j' PRO:PER je

ai VER:aux:pres avoir arrêté VER:pper arrêter

l' DET:ART le

école NOM école £

VER:pper <unknown> pour PRP pour

enregistrer VER:infi enregistrer

les DET:ART le

profs NOM prof

en PRP en

cours NOM cour|cours £

Le texte annoté est ensuite « nettoyé » ou désambiguïsé :

après KON après

moi PRO:PER moi

j' PRO:PER je

ai VER:aux:pres avoir arrêté VER:pper arrêter

l' DET:ART le

école NOM école £

pour PRP pour

enregistrer VER:infi enregistrer

les DET:ART le

profs NOM prof

en PRP en

cours NOM cour-cours £

Dans une dernière étape, les annotations morphosyntaxiques sont transformées en étiquettes par une suite de transformations par expressions régulières et réinsérées dans le tableau Excel.

3.7.3.8 Transformation des étiquettes en balises xml

On utilise des expressions régulières en recherchant par \([a-zA-Zçéèêàâô:'-]+\)\t\([a-zA-Zçéèêàâô:'-]+\)\t\([a-zA-Zçéèêàâô:'-]+\) et remplaçant par: <Token lem="\3" synt="\2">\1</Token>. Grâce à ces expressions qui réordonnent, insère la syntaxe souhaitée, on obtient des lignes d‘éléments texte formatées en XML :

<Token lem="après" synt="KON">après</Token> <Token lem="moi" synt="PRO:PER">moi</Token> <Token lem="je" synt="PRO:PER">j'</Token>

<Token lem="avoir" synt="VER:aux:pres">ai</Token> <Token lem="arrêter" synt="VER:pper">arrêté</Token> <Token lem="le" synt="DET:ART">l'</Token>

<Token lem="école" synt="NOM">école</Token> £

<Token lem="pour" synt="PRP">pour</Token>

<Token lem="enregistrer" synt="VER:infi">enregistrer</Token> <Token lem="le" synt="DET:ART">les</Token>

<Token lem="prof" synt="NOM">profs</Token> <Token lem="en" synt="PRP">en</Token>

<Token lem="cour-cours" synt="NOM">cours</Token> £

Il suffira de rajouter les balises de hiérarchie supérieure. Cette dernière étape est en partie réalisée par la réinsertion de ces lignes dans le tableau Excel, grâce à la numérotation qui sera adjointe de nouveau aux lignes de texte qui sont désormais étiquetées morphosyntaxiquement. On procède d‘abord à la réinsertion du groupe de lignes dans le tableau Excel. Désormais, les lignes de texte sont annotées et compatibles XML dans une structure à nouveau enchâssée qui prend désormais en compte chaque terme comme unité minimale :

20 </Turn> 24 </Turn> 28 </Turn>

15 <Episode program="" air_date="">

16 <Section type="report" startTime="0" endTime="2095.462"> 18 <Sync time="0"/>

22 <Sync time="10.449"/> 26 <Sync time="11.826"/> 30 <Sync time="11.971"/>

21 <Turn speaker="spk3" mode="spontaneous" startTime="10.449" endTime="11.826"> 29 <Turn speaker="spk4" startTime="11.971" endTime="13.831">

25 <Turn speaker="spk6" mode="spontaneous" startTime="11.826" endTime="11.971"> 17 <Turn startTime="0" endTime="10.449" speaker="spk6" mode="spontaneous"> 31 <Token lem="après" synt="KON">après</Token><Tok etc…

23 <Token lem="pour" synt="PRP">pour</Token><Token etc… 27 <Token lem="pour" synt="PRP">pour</Token><Token etc… 19 <Token lem="un" synt="DET:ART">un</Token><Token etc…

Tableau 13 texte balisé réinséré dans le tableau classé

La dernière étape est la remise en ordre de façon à obtenir un tableau équivalent au tableau initial avec cette différence que les lignes de texte sont annotées morphosyntaxiquement :

15 <Episode program="" air_date="">

16 <Section type="report" startTime="0" endTime="2095.462">

17 <Turn startTime="0" endTime="10.449" speaker="spk6" mode="spontaneous"> 18 <Sync time="0"/>

19 <Token lem="un" synt="DET:ART">un</Token><Token etc… 20 </Turn>

21 <Turn speaker="spk3" mode="spontaneous" startTime="10.449" endTime="11.826"> 22 <Sync time="10.449"/>

23 <Token lem="pour" synt="PRP">pour</Token><Token etc… 24 </Turn>

25 <Turn speaker="spk6" mode="spontaneous" startTime="11.826" endTime="11.971"> 26 <Sync time="11.826"/>

27 <Token lem="pour" synt="PRP">pour</Token><Token etc… 28 </Turn>

29 <Turn speaker="spk4" startTime="11.971" endTime="13.831"> 30 <Sync time="11.971"/>

31 <Token lem="après" synt="KON">après</Token><Tok etc…

Tableau 14 Réinstauration de l‘ordre initial (à l‘aide de la colonne de gauche) et obtention d‘un fichier Trs transformé où chaque terme est étiqueté

Il ne manque plus à ce fichier pour être directement utilisable par des feuilles de style XSLT de comporter une DDT (déclaration du type de document). Celle-ci s‘édite automatiquement par les logiciels d‘édition XML. Il est possible de traiter ainsi des fichiers dont la taille ne connaît d‘autres limites que celles imposées par les capacités du logiciel et par la puissance de l‘ordinateur.

Les fichiers produits sont un outil supplémentaire pour analyser et contraster les corpus dans les deux langues. Les fichiers non étiquetés sont conservés et sont un outil de travail pour les premiers stades de l‘étude qui consistent à classer les emplois métaphoriques.

Dans le document Une redéfinition de la métaphoricité à l’oral: Mise en place d’outils d’analyse par une approche de corpus contrastive (Page 90-99)