EDEEN, Grenoble 28 Mai – 2 Juin 2018
1 La Structure du Texte
1.
Avant tout la Forme du texte
Une première distinction fondamentale : Texte en prose.
Texte en vers.
Les superstructures formelles/sémantiques ultérieures : Texte théâtral (en prose et en vers).
Texte épistolaire (en prose et en vers).
Conclusions, nécessaires pour dessiner la structure de mon arbre XML :
Je suis face à un Roman, un Essai, une Poésie, une Pièce Théâtrale, une Lettre, un Document d’archive ?
2.
La prose . Partie . Livre . Chapitre . Sous-chapitre . PARAGRAPHE
Le dernier est l’élément de base pour la structuration typographique/sémantique d’un texte en prose.
Il est toujours présent (sauf dans le cas de certaines écritures d’avant-gardes).
Il correspond à une unité conceptuelle.
Dans le code typographique moderne, il est délimité par : un retour chariot et un alinéa.
3.
Hiérarchie textuelle en prose & TEI
Partie / Livre / Chapitre / Sous-chapitre etc.
<div> (text division) : « contains a subdivision of the front, body, or back of a text » L’attribut @type permet de classifier les sections de façon plus détaillée.
On peu aussi ajouter l’attribut @n (numéro), L’élément CARACTÉRISANT et EXCLUSIF:
<p> (paragraph) « marks paragraphs in prose » Il est contenu par :
le <body> ou une division du texte (<div>, <note>, <sp>, etc.)
les niveaux inférieurs de division du discours :
phrase <s> (s-unit) « contains a sentence-like division of a text » mot <w> (word) « represents a grammatical word »
caractère <c> (character) « represents a character »
Ex.
Les Misérables
Première Partie – Fantine Livre Premier – Un juste
I – M. Myriel
En 1815, M. Charles-François-Bienvenue Myriel était éveque de D. - C’était un vieillard d’environ soixante-quinze ans ; il occupait le siège de D. - depuis 1806...
<text>
< body>
<div type="partie" n="1">
<head>Première Partie – Fantine</head>
<div type="livre" n="1">
<head>Livre Premier – Un juste</head>
<div type="chapitre" n="1">
<head>I. M. Myriel</head>
<p>En 1815, M. Charles-François-Bienvenue Myriel était éveque de D. - C’était un vieillard d’environ soixante-quinze ans ; il occupait le siège de D. - depuis 1806…
</p>
</div>
</div>
</div>
</body>
</text>
Le vers
Section du recueil Pièce
STRUCTURE DE LA PIÈCE VERS
Le dernier est l’élément de base pour la structuration typographique/sémantique d’un texte poétique : un texte poétique est un texte en vers.
Il est toujours présent.
Il correspond à une unité Formelle avec des implications aussi Sémantiques.
Dans le code typographique moderne, il est délimité toujours par un retour chariot, quelques fois par une initiale, des numéros de ligne etc.
Le regroupement des vers, selon des règles formelles/métriques, constitue le deuxième élément distinctif.
5.
Hiérarchie textuelle en vers & TEI
La poésie se présente normalement sous forme de recueil poétique. On a donc des Textes Autonomes Individuels à l’intérieure du Macro-Texte Conteneur qui est la recueil. À leur tour ces Textes Autonomes peuvent être organisés en Sections.
Section / Pièce : <div> + l’attribut @type (et éventuellement @n) Les éléments CARACTÉRISANTS et EXCLUSIFS:
<l> (verse line) « contains a single line of verse »
<lg> (line group) « contains one or more verse lines functioning as a formal unit, e.g. a stanza, refrain, verse paragraph, etc.
Les fleurs du mal Spleen et idéal III. Élévation
Au-dessus des étangs, au-dessus des vallées, Des montagnes, des bois, des nuages, des mers, Par-delà le soleil, par-delà les éthers
Par-delà les confins des sphères étoilées Mon esprit, tu te meurs avec agilité, etc.
<text>
<body>
<head>Les fleurs du mal</head>
<div type="séction" n="1">
<head>Spleen et idéal</head>
<div type="sonnet" n="3">
<head>Élévation</head>
<lg n="1" type="quatraine">
<l>Au-dessus des étangs, au-dessus des vallées,</l>
<l>Des montagnes, des bois, des nuages, des mers,</l>
<l>Par-delà le soleil, par-delà les éthers</l>
<l>Par-delà les confins des sphères étoilées</l>
</lg>
<lg n="2" type="quatraine">
<l>Mon esprit, tu te meurs avec agilité,</l>
etc.
</lg>
</div>
</div>
</body>
</text>
Le texte théâtrale ACTE
SCÈNE
DIDASCALIE PERSONNAGES Texte
Il peut se présenter soit sous forme de texte en prose que de texte en vers : son véritable trait distinctif est donc la Forme.
Il superpose à la forme basique prose/verse une structure très particulière, essentiellement dialogique.
Cette structure est très marquée et reconnaissable dans le code typographique moderne grâce à : la forme « Nom du locuteur – Mots prononcés » ; et à l’emploi des divisions textuelles dénommées Acte et Scène.
Son encodage hérite donc les propriétés liées à <p> et <l> tout en les insérant à l’intérieure d’une structure différente qui représente sa caractéristique exclusive.
8.
Hiérarchie textuelle théâtrale & TEI
Acte / Scène : <div> + @type (et éventuellement @n) Texte : <l> ou <p>
Les éléments CARACTÉRISANTS et EXCLUSIFS:
<stage> (stage direction) « contains any kind of stage direction within a dramatic text or fragment »
+ @type (Status : Recommended) : setting, entrance, exit, novelistic, etc.
<sp> (speech) « contains an individual speech in a performance text »
<speaker> « contains a specialized form of heading or label, giving the name of one or more speakers in a dramatic text »
Julius Caesar
Act III. Scene II. The same. The Forum. Enter BRUTUS and CASSIUS and a trough of CITIZENS.
MARCUS ANTONIUS. You gentle Romans, … CITIZENS. Peace, ho ! Let us hear him.
MARCUS ANTONIUS. Friends, Romans, countrymen, lend me your ears ; I Come to bury Caesar, not to praise him.
Here, under leave of Brutus and the rest, - For Brutus is an honourable man ;
So are they all, all honourable men, - Come I to speal in Caesar’s funeral.
He was my friend, faithful and just to me : But Brutur says he was ambitious ;
And Brutus is an honourable man,
<text>
<body>
<div type="act" n="3">
<head>Act III</head>
<div type="scene" n="2">
<head>Scene II</head>
<stage type="location">The same. The Forum.</stage>
<stage type="entrance">Enter BRUTUS and CASSIUS and a trough of CITIZENS.</stage>
<sp who="#ant">
<speaker>MARCUS ANTONIUS.</speaker>
<l>You gentle Romans, …</l>
</sp>
<sp who="#cit">
<speaker>CITIZENS.</speaker>
<l>Peace, ho ! Let us hear him.</l>
</sp>
<sp who="#ant">
<speaker>MARCUS ANTONIUS.</speaker>
<l>Friends, Romans, countrymen, lend me your ears ;</l>
<l>I Come to bury Caesar, not to praise him.</l>
<l>Here, under leave of Brutus and the rest, -</l>
<l>For Brutus is an honourable man ;</l>
<l>So are they all, all honourable men.</l>
</sp>
</div>
</div>
</body>
</text>
Le texte épistolaire Section
En-tête Texte Clôture
Que ce soit en vers ou en prose, réel ou fictive, le texte épistolaire présente des éléments particuliers au début et à la fin du texte :
- un en-tête incluant : date et lieu d’écriture, nom du destinataire, formule d’ouverture ; - un clôture incluant : formule de salutation, signature.
Ces éléments sont bien soulignés par la typographie moderne, grâce à leur position.
Cette spécificité des éléments se traduit dans la disponibilité d’un encodage dédié.
Le corps du texte retombe par contre dans le traitement commun du texte (<p> ou <l>).
9.
Hiérarchie textuelle théâtrale & TEI
Section / Lettre : <div> + @type (par ex. lettre, billet, télégramme, etc.) (et éventuellement @n) Texte : <l> ou <p>
Les éléments CARACTÉRISANTS et EXCLUSIFS:
<opener> « groups together dateline, byline, salutation, and similar phrases appearing as a preliminary group at the start of a division, especially of a letter »
<closer> « groups together salutations, datelines, and similar phrases appearing as a final group at the end of a division, especially of a letter »
<postscript> « contains a postscript, e.g. to a letter » Et encore plus en détail :
<byline> « contains the primary statement of responsabilty given for a work on its title page or at the head or end of the work »
<dateline> « contains a brief description of the place, date, time, etc. of production of a letter »
<salute> « contains a salutation or greeting prefixed to a foreword, dedicatory epistle, or the salutation in the closing of a letter »
<address> « contains a postal address »
<signed> « contains the closing salutation, etc., appended to a foreword, dedicatory epistle ».
Assemblée nationale, à Mademoiselle Anne Pingeot, 39 rue de Cherche-Midi, Paris VIe.
Mardi 1er décembre 1964
Que ces roses, mon amour, soient pour toi le reflet des beaux jours que nous venons de vivre ; Qu’elles soient le prélude d’un mois de joie et de ferveur, ces roses de décembre ;
Qu’elles soient enfin le signe d’un coeur en paix - Et le mien le sera
Si tu vieux bien, d’un sourire, Me dire que je suis pardonne.
Je t’embrasse et je t’aime François
ps. Je serai rue du Regard à 13 h 15 et nous irons déjeuner ensemble, ma chérie.
<div type="letter-poem">
<opener>
<dateline>
<place>Assemblée nationale,</place>
</dateline>
<address>
<addrLine>à Mademoiselle Anne Pingeot,</addrLine>
<addrLine>39 rue de Cherche-Midi,</addrLine>
<addrLine>Paris Vie.</addrLine>
</address>
<dateline>
<date>Mardi 1er décembre 1964</date>
</dateline>
</opener>
<p>Que ces roses, mon amour, soient pour toi le reflet des beaux jours que nous venons de vivre ;
Qu’elles soient le prélude d’un mois de joie et de ferveur, ces roses de décembre ; Qu’elles soient enfin le signe d’un coeur en paix -
Et le mien le sera
Si tu vieux bien, d’un sourire, Me dire que je suis pardonné.</p>
<closer>
<salute>Je t’embrasse et je t’aime</salute>
<signed>François</signed>
</closer>
<postscript>
<p>ps. Je serai rue du Regard à 13 h 15 et nous irons déjeuner ensemble, ma chérie.</p>
</postscript>
</div>
2 Dedans le texte
Bien comprendre un encodage WYSIWYM (What You See Is What You Mean) face à une copie WYSYWYG (What You See is What You Get)
10.
Mise en évidence | Highlighting : <hi> et les autres…
1. Le monde est le théâtre de la comédie humaine
2. La « comedie humaine » de la ville bourgeoise
3. La Comédie Humaine est composée par 137 volumes
1. <p>Le monde est le théâtre de la comédie humaine</p>
2. <p>La <soCalled>comédie humaine</soCalled> de la ville bourgeoise</p>
3. <p>La <title>Comédie Humaine</title> est composée par 137 volumes
Les deux ressources typographiques, cursif et « », donnent vie à une multiplicité d’étiquettes.
L’encodeur doit interpréter les processus typographiques et expliciter leur signification en choisissant la « bonne étiquette »
Du général au détail :
<hi> (highlighted) « marks a word or phrase as graphically distinct from the surrounding text »
<distinct> « identifies any word or phrase which is regarded as linguistically distinct, for example as archaic, technical, dialectal, etc. »
<foreign> « identifies a word or phrase as belonging to some language other than of the surrounding text »
<emph> « mark words or phrases which are stressed or emphasized for linguistic et rhetorical effect »
<mentioned> « marks words or phrases mentioned, not used »
<term> « contains a single-word, multi-word, or symbolic designation which is regarded as a technical term »
etc. etc. etc.
Il ne s’agit pas d’un problème d’ « aspect physique » : Great Expectations is Dickens’ masterpiece
« Great Expectations » is Dickens’ masterpiece GREAT EXPECTATIONS is Dickens’ masterpiece
Qu’est-ce qu’elle représente cette chaîne graphique, Great Expectations, à l’intérieur de mon texte ? Il s’agit d’un TITRE,
le code typographique marque les TITRES en cursif ou entre « » ou encore avec d’autres procédures graphiques de mise en évidence,
TITRES.
Leur copie WYSIWYG est donc : Great Expectations, « Great Expectations », GREAT EXPECTATIONS
Leur encodage WYSIWYM est : <title>Great Expectations</title>
11.
Citations | Quotation
Mais « » et autres expédients graphiques (par ex. – ) marquent notamment aussi une énonciation : de mots prononcés par un locuteur,
desmots externes au texte dont on fait une citation.
1. - Mais tu va pleurer !, dit le petit prince.
- Bien sûr, dit le renard.
- Alors tu n’y gagnes rien !
- J’y gagne, dit le renard, à cause de la couleur du blé.
2. Souvent j’ai dit à mes élèves qu’il en vaut la peine de gagner « à cause de la couleur du blé ».
1. <said>Mais tu va pleurer !</said>, dit le petit prince.
<said>Bien sûr</said>, dit le renard.
<said>Alors tu n’y gagnes rien !</said>
<said>J’y gagne</said>, dit le renard, <said>à cause de la couleur du blé</said>.
2. Souvent j’ai dit à mes élèves qu’il en vaut la peine de gagner <quote>à cause de la couleur du blé</quote>.
<said> (speech or thought) « indicates passages thought or spoken aloud, whether explicitly indicated in the source or not, whether directly or indirectly reported, whether by real people or fictional characters »
<quote> (quotation) « contains a phrase or passage attributed by the narrator or author to some agency external to the text »
12.
Le peritexte : la Note.
Une catégorie hétérogène.
On peut distinguer deux typologies fondamentales de notes : Notes originales - celles qui sont présentes dans le texte
Notes de l’éditeur numérique - celles qui sont ajoutées par l’éditeur du fichier.
Elles sont encodées par la même balise TEI générique :
<note> « contains a note or annotation »
« All notes should be marked using the same tag, note, whether they appear as block notes in the main text area, at the foot of the page, at the end of the chapter or volume, in the margin, or in some other place. »
L’attribut @type permet à l’encodeur d’expliciter la nature de la note.
L’attribut @place permet à l’encodeur d’indiquer sa position physique dans le texte.
Attention ! La place physique de la note à l’intérieure du fichier XML-TEI est donc indépendante de sa position physique dans le texte originale : cette dernière information est sauvegardée par l’attribut @place.
WYSIWYG versus WYSIWYM
Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page1. Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page2. Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page3.
1 Ici il y ma première note.
2 Ici il y a ma deuxième note.
3 Ici il y a ma troisième note.
<p>Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page<note type="biblio" n="1" place="footer">Ici il y a ma première note</note>. Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page <note type="biblio" n="2" place="footer">Ici il y a ma deuxième note</note>. Ici il y a mon texte qui est un essai, avec, naturellement, beaucoup de notes placées normalement en bas de page <note type="biblio" n="3" place="footer">Ici il y a ma troisième note</note>.</p>
Notes & Accrochage
Une note DOIT être ancrée de quelque façon à l’élément auquel elle fait référence
Guidelines : « A note is usualy attached to a specific point or span within a text, which we term here its point of attachment »
En typographie : 1 * a etc. En général, un symbole placé en correspondance du point d’encrage.
Et en TEI ? Elle offre plusieurs solutions, du simple au complexe.
Simple : La note est physiquement placée à coté de l’élément auquel elle fait référence.
Mon texte1 avec une note.
1 Ma note en bas de page
<p>Mon texte<note n="1" place="footer">Ma note en bas de page</note> avec une note.</p>
<ptr/> (pointer) « defines a pointer to another location »
<ref> (reference) « defines a reference to another location »
La clef pour ce mariage est l’attribut @target (auquel doit correspondre un @xml:id)
Mon texte1 qui contemple une série de notes* *note a marge
en bas de pages2 mais aussi des notes marginales.
1 Note bibliographique 2 Meme note bibliographique
<text>
[ex. avec ref]
<body>
<p>Mon texte<ref target="#n-bibl1">1</ref> qui contemple une série de notes<ref target="#n-mar1">*</ref> en bas de
page<ref target="#n- bibl1">2</ref> mais aussi des notes marginales.</p>
</body>
[ex. avec ptr]
<body>
<p>Mon texte<ptr target="#n-bibl1"> qui contemple une série de notes<ptr target="#n-mar1"> en bas de page<ptr target="#n-bibl1">
mais aussi des notes marginales.</p>
</body>
<back>
<div type="note">
<note xml:id="n-bibl1" place="footer">Note bibliographique</note>
<note xml:id="n-mar1" place="marge">Note a marge</note>
</div>
</back>
</text>
13
Les Entités Nommées : Lieux et Personnes.
La TEI offre une série de solutions qui vont du Général (même très général) au Détail (même très détaillé).
Le plus général :
<rs> (referencing string) « contains a general purpose name or referring string » presque obligatoire, vu la nature généraliste de l’étiquette, l’emploi de l’attribut @type
<name> (name, proper noun) « contains a proper noun or noun phrase » On peut l’utiliser seulement en présence d’un nom propre !
Il est conseillé d’utiliser l’attribut @type Cette étiquette peut alterner avec <rs>
La même phrase de Pride and Prejudice selon les Guidelines (un peu adaptées...) : My dear <rs type="person" ref="#BE">Mr. Bennet</rs>,
said <rs type="person" ref="#MI">his lady</rs> to him one day, have you heard that
<rs type="place" ref="#NP">Netherfield Park</rs> is let at least ? ou
My dear <name type="person" ref="#BE">Mr. Bennet</rs>,
said <rs type="person" ref="#MI">his lady</rs> to him one day, have you heard that
<name type="place" ref="#NP">Netherfield Park</rs> is let at least ?
Mais aussi :
<rs type="person" ref="#CDG">Le général <name>Charles de Gaulle</name></rs>
Le détaillé :
<persName> - Charles de Gaulle
<placeName> - Paris
<geogName> - la mer Méditerranée
Ces étiquettes peuvent s’imbriquer les unes dans les autres :
les <placeName>Colonnes d’<persName>Hercule</persName></placeName>
Quelle que soit la forme d’encodage choisie au niveau du texte, donc d’étiquettes, il est important d’accompagner l’encodage des Entités Nommées par une description : c’est le contenu de notre
@ref.
On mettra donc en place une <listPerson> et une <listPlace>, en choisissant le niveau de détail souhaité.
Cette liste trouve sa place au niveau du teiHeader ou d’un <div>/<p> à l’intérieur du texte.
Antoine Jean-Baptiste Marie Roger, conte de Saint-Exupéry, dit Saint-Ex, Officier de la Légion d’honneur, Croix de guerre, né à Lyon le 29 Juin 1900, précipité dans le Golfe de Marseille le 31 Juillet 1944
<person xml:id="SE">
<persName xml:lang="fr">
<forename>Antoine<forename>
<forename>Jean Baptiste</forename>
<forename>Marie</forename>
<forename>Roger</forename>
<roleName type="nobility">conte</roleName>
<nameLink>de</nameLink>
<surname>Saint-Exupéry</surname>
<addName>Saint-Ex</addName>
<roleName type="honorific">Officier de la Légion d’honneur</roleName>
<roleName type="honorific">Croix de guerre</roleName>
</persName>
<birth>
<date when="1900-06-29">29 Juin 1900</date>
<placeName>Lyon</placeName>
</birth>
<death>
<date when="1944-07-31">31 Juillet 1944</date>
<geogName>Golfe de Marseille</geogName>
</death>
</person>
14 Le temps
Le temps des jours : <date> « contains a date in any format »
Le temps des heures : <time> « contains a phrase defining a time of day in any format » Le <date>deuxième jour du mois de Mai 2018</date>,
je me suis réveillé à <time>six heures du matin</time>.
Déterminant, pour plus de précision, l’emploi de l’attribut @when, dont la valeur est : yyyy-mm-dd pour <date>
00:00:00 pour <time>
Notre encodage se fait donc plus complexe :
Le <date when="2018-05-02">deuxième jour du mois de Mai 2018</date>, je me suis réveillé à
<time when="06:00:00">six heures du matin</time>.
disposition:
L’année 2018 when="2018"
Mai 2018 when="2018-05"
28 Mai 2018 when="2018-05-28"
Mai when="--05"
Le jour 28 when="---28"
Du 28 Mai au 2 juin 2018 from="2018-05-28" to="2018-06-02"
La troisième semaine de Mai 2018 notBefore="2018-05-14" notAfter="2018-05-21"
Pour conclure
Identifier la forme textuelle phase 1 : prose ou vers
phase 2 : narrative en prose, essai, narrative en vers, recueil poétique, recueil épistolaire, pièce théâtrale, document
Identifier les éléments à encoder au delà de la structure textuelle : - mises en évidence
- citations - notes
- entités nommées - dates
etc.