1 / 24
Recueil et structuration de corpus − TD 2
Achille Falaise − Alexandre Roulois
Plan du TD
● Correction TD 1
– Format
– URLs
– Variables
● Couverture d’un corpus
● XML
– Théorie : boîtes et balises/attributs
– Exemple : Corpus 14 (correspondances de Poilus) Pratique : formatage d’un document
3 / 24
Format
Éditeur hexadécimal
Valeur hexadécimale (= base 16)Valeur décimale (= base 10)
Caractère ASCII
5 / 24
URLs
● https://pdf.sciencedirectassets.com/
272642/1-s2.0-S0222961720X00110/1- s2.0-S0222961720302038/main.pdf?X- Amz-Security-
Token=IQoJb3JpZ2luX2VjEEoaCXVzLWVhc3Qt MSJGMEQCIDQmE
%2BWzTvNOBZfBkh9uq5CNYIVSWzE0mx3OR UdLmLH5AiAUANbFOT%2BZG9AOi
%2FCNSDJO6HUfC536gJqHHNwaovMg3yq0Aw gzEAMaDDA1OTAwMzU0Njg2NSIM2oRLxQcg
%2Bn7zEYx8KpEDAJ1C7Vl9ma0JdGgJGk8CfFQ 9Tm0J7y14nyNpigf3x7r7TCwLLcwrwPJhSDKIO l65w2BRqNnY6FGYd
%2B1ck0D57NlhqOPpcyjc5a%2Bux
%2BQ7R5gsjDBGy58WgOYNknjNG67d4riIMDZ s12p%2B4nFtS9JzLZpiXQ2FDuMdFZHP
%2BdN0JSHE3Qt2YLPADhjZfT8p
%2BIGYWfWaaRnyiExOx
%2ByU9PGIQgSKfONe4VwCWnozAoT66bTh
%2B45ELHXtu2Wms8w9IVjp0tM8gxg
%2F3yQizf26n6IkhzDPr8o0Eknz%2Fd
%2BoRaWwa%2F7LITB6%2FTRC
%2Fuqx1KR5CQ1Js9hLiwhuwaHM1vqJRun9dgl udG%2FwqiK5A120PLguH56U0qE6XkylRukK7X2s We6ilFRt
%2F6iy71S2UAC8ntQflDO43Ta8JPnR3uF
%2BAvuWnOpPozg
%2FsZQDE5mo7pucBFp5QgnLmK8a1NyKBQv 9rywktwaYKXkNu7j4OAdx2XVji4Qa
%2BQklpX74bpNACLzS
%2F36%2BUQ43eUOvnl0dvbzyrTlnIh0wjqrBg AY67AHtc7r8AFM5qBPIAqIJd8EJM8oU
%2BEFzv62g75PBnDDt66q5KhkxonfnLkfVqNu jYI8Td29hju
%2BL1LgciFqoRMeAuX3B1JpdUABCqoKc8Bfn RCknonO6BnneNJbQ
%2FLdfmGSrNklo1Pl57dD%2B%2BnE4Xm
%2Fwg3T8LIlU8ZSglU5fVQXDa5gaJwvHWLYf
%2BZ2ahk8bYjum9ees4ArKv10T51wdL5V9o4 t
%2FYoeppDymOemSgHAGQXBi139uumnU9fg
%2FqM4oYypXwtLP
%2B9qLIVnOEP0EAKApdNs2El2dZ3%2F228Qk QV8QwJzxnxNsOXUGfMiwdQ%3D%3D&X-
Amz-Algorithm=AWS4-HMAC-SHA256&X- Amz-Date=20210126T192511Z&X-Amz-
SignedHeaders=host&X-Amz-Expires=300&X- Amz-Credential=ASIAQ3PHCVTY3ARVUY4U
%2F20210126%2Fus-east-
1%2Fs3%2Faws4_request&X-Amz-
Signature=0e51a2cc0be6d70be931f23623ad d48bf760bf286c4852febc0c928924b5b3b8&
hash=8a6976f3074bdf1fb2a0bdca94cf301c3 a708f24a7860c2745dbb4f56bbf02ee&host=6 8042c943591013ac2b2430a89b270f6af2c76 d8dfd086a07176afe7c76c2c61&pii=S022296 1720302038&tid=spdf-2958ebc3-4118-4541- 8b28-
c0b71f7da958&sid=3e8da54c1f5a9349c5984 c422b54a90186e8gxrqb&type=client
Généralement, on peut enlever tout ce qui se trouve après le caractère « ? ».
Licences
7 / 24
Licences
Variables
● Thème Covid-19
– Nombre d’occurrences de xxx
– Date (mois)
– Situation nationale / internationale
● ou pays, continent, etc.
– Épidémiologie (texte sur le nb de cas, les conséquences sociales, etc.) / médecine (effets de la maladie)
– Etc.
9 / 24
Couverture d’un corpus
● Couverture de chaque intersection variable 1 / variable 2
– Pas d’espace vide !
● Équilibrage du nombre de mots pour chaque intersection
● Ex. pour des variables Date (mois) / Genre
Principe de XML
● Encapsulation
Document
En-tête
Corps
Paragraphe Paragraphe
Paragraphe Paragraphe
11 / 24
Principe de XML
● Encapsulation
<TEI>
<body>
Paragraphe
<p> … </p>
<p> … </p>
<p> … </p>
</TEI>
<teiHeader>
...
</teiHeader>
</body>
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text>
<p> … </p>
<p> … </p>
<p> … </p>
</text>
</TEI>
balise ouvrante balise fermante
13 / 24
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text>
<p> … </p>
<p> … </p>
<p> … </p>
</text>
</TEI>
bloc
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text>
<p> … </p>
<p> … </p>
<p> … </p>
</text>
</TEI>
bloc
bloc bloc bloc
15 / 24
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text>
<p> … </p>
<p> … </p>
<p> … </p>
</text>
</TEI>
bloc bloc bloc
bloc
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text xml:lang="fr">
<p> … </p>
<p> … </p>
<p> … </p>
</text>
</TEI>
attribut = valeur
17 / 24
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text xml:lang="fr">
<p> … <lb/> … </p>
<p> … <lb/> … </p>
<p> … </p>
</text>
</TEI>
balise auto-fermante
Principe de XML
● Encapsulation (exemple de XML-TEI)
<TEI>
<teiHeader>
...
</teiHeader>
<text xml:lang="fr">
<p> … <lb/> … </p>
<p> … <lb/> … </p>
<!-- Un commentaire !!! -->
<p> … </p>
</text>
Comme son contenu l’indique...
19 / 24
Exemple concret
<?xml version="1.0" encoding="UTF-8"?>
<TEI>
<teiHeader>
...
</teiHeader>
<text xml:lang="fr">
<p> … <lb/> … </p>
<p> … <lb/> … </p>
<p> … </p>
</text>
</TEI>
Métadonnées
● Encapsulation (exemple de XML-TEI)
Exemple concret
https://pro.aiakide.net/cours/Corpus2021a/exempleCorpus14.xml
21 / 24
Exemple concret
https://pro.aiakide.net/cours/Corpus2021a/exempleCorpus14.xml
Pratique
● Prenez 2 documents différents de votre corpus (pas issus du même site !)
● Formattez-les en XML avec votre éditeur de texte préféré (pas Word ou Writer − dans le doute utilisez SublimeText), en suivant le schéma page suivante
23 / 24
Pratique
<TEI>
<teiHeader>
<titleStmt>
<title> Titre du document </title>
<author> Auteur du document </author>
<editor> Éditeur du document (c’est vous !) </editor>
</titleStmt>
<publicationStmt>
<availability>
<licence> Licence du document </licence>
</availability>
</publicationStmt>
</teiHeader>
<text>
<body>
<p>...</p>
<p>...</p>
<p>...</p>
</body>
</text>
</TEI>
Le cas échéant, utilisez aussi les blocs suivants :
● <title> … </title> (titres)
● <q> … </q> (citations)
Voir aussi : https://tei-c.org/release/doc/tei-p5-exemplars/html/tei_lite.doc.html
Validez votre document XML sur :
● https://www.xmlvalidation.com Le cas échéant, utilisez aussi les blocs suivants :
● <title> … </title> (titres)
● <q> … </q> (citations)
Voir aussi : https://tei-c.org/release/doc/tei-p5-exemplars/html/tei_lite.doc.html
Prochaines séances
● Mise en forme de votre corpus au format XML-TEI
● Chemins XPath
● Récupération automatique de corpus depuis Internet en utilisant XML