• Aucun résultat trouvé

Recueil et structuration de corpus − TD 2

N/A
N/A
Protected

Academic year: 2022

Partager "Recueil et structuration de corpus − TD 2"

Copied!
24
0
0

Texte intégral

(1)

1 / 24

Recueil et structuration de corpus − TD 2

Achille Falaise − Alexandre Roulois

(2)

Plan du TD

Correction TD 1

Format

URLs

Variables

Couverture d’un corpus

XML

Théorie : boîtes et balises/attributs

Exemple : Corpus 14 (correspondances de Poilus) Pratique : formatage d’un document

(3)

3 / 24

Format

(4)

Éditeur hexadécimal

Valeur hexadécimale (= base 16)

Valeur décimale (= base 10)

Caractère ASCII

(5)

5 / 24

URLs

https://pdf.sciencedirectassets.com/

272642/1-s2.0-S0222961720X00110/1- s2.0-S0222961720302038/main.pdf?X- Amz-Security-

Token=IQoJb3JpZ2luX2VjEEoaCXVzLWVhc3Qt MSJGMEQCIDQmE

%2BWzTvNOBZfBkh9uq5CNYIVSWzE0mx3OR UdLmLH5AiAUANbFOT%2BZG9AOi

%2FCNSDJO6HUfC536gJqHHNwaovMg3yq0Aw gzEAMaDDA1OTAwMzU0Njg2NSIM2oRLxQcg

%2Bn7zEYx8KpEDAJ1C7Vl9ma0JdGgJGk8CfFQ 9Tm0J7y14nyNpigf3x7r7TCwLLcwrwPJhSDKIO l65w2BRqNnY6FGYd

%2B1ck0D57NlhqOPpcyjc5a%2Bux

%2BQ7R5gsjDBGy58WgOYNknjNG67d4riIMDZ s12p%2B4nFtS9JzLZpiXQ2FDuMdFZHP

%2BdN0JSHE3Qt2YLPADhjZfT8p

%2BIGYWfWaaRnyiExOx

%2ByU9PGIQgSKfONe4VwCWnozAoT66bTh

%2B45ELHXtu2Wms8w9IVjp0tM8gxg

%2F3yQizf26n6IkhzDPr8o0Eknz%2Fd

%2BoRaWwa%2F7LITB6%2FTRC

%2Fuqx1KR5CQ1Js9hLiwhuwaHM1vqJRun9dgl udG%2FwqiK5A120PLguH56U0qE6XkylRukK7X2s We6ilFRt

%2F6iy71S2UAC8ntQflDO43Ta8JPnR3uF

%2BAvuWnOpPozg

%2FsZQDE5mo7pucBFp5QgnLmK8a1NyKBQv 9rywktwaYKXkNu7j4OAdx2XVji4Qa

%2BQklpX74bpNACLzS

%2F36%2BUQ43eUOvnl0dvbzyrTlnIh0wjqrBg AY67AHtc7r8AFM5qBPIAqIJd8EJM8oU

%2BEFzv62g75PBnDDt66q5KhkxonfnLkfVqNu jYI8Td29hju

%2BL1LgciFqoRMeAuX3B1JpdUABCqoKc8Bfn RCknonO6BnneNJbQ

%2FLdfmGSrNklo1Pl57dD%2B%2BnE4Xm

%2Fwg3T8LIlU8ZSglU5fVQXDa5gaJwvHWLYf

%2BZ2ahk8bYjum9ees4ArKv10T51wdL5V9o4 t

%2FYoeppDymOemSgHAGQXBi139uumnU9fg

%2FqM4oYypXwtLP

%2B9qLIVnOEP0EAKApdNs2El2dZ3%2F228Qk QV8QwJzxnxNsOXUGfMiwdQ%3D%3D&X-

Amz-Algorithm=AWS4-HMAC-SHA256&X- Amz-Date=20210126T192511Z&X-Amz-

SignedHeaders=host&X-Amz-Expires=300&X- Amz-Credential=ASIAQ3PHCVTY3ARVUY4U

%2F20210126%2Fus-east-

1%2Fs3%2Faws4_request&X-Amz-

Signature=0e51a2cc0be6d70be931f23623ad d48bf760bf286c4852febc0c928924b5b3b8&

hash=8a6976f3074bdf1fb2a0bdca94cf301c3 a708f24a7860c2745dbb4f56bbf02ee&host=6 8042c943591013ac2b2430a89b270f6af2c76 d8dfd086a07176afe7c76c2c61&pii=S022296 1720302038&tid=spdf-2958ebc3-4118-4541- 8b28-

c0b71f7da958&sid=3e8da54c1f5a9349c5984 c422b54a90186e8gxrqb&type=client

Généralement, on peut enlever tout ce qui se trouve après le caractère « ? ».

(6)

Licences

(7)

7 / 24

Licences

(8)

Variables

Thème Covid-19

Nombre d’occurrences de xxx

Date (mois)

Situation nationale / internationale

ou pays, continent, etc.

Épidémiologie (texte sur le nb de cas, les conséquences sociales, etc.) / médecine (effets de la maladie)

Etc.

(9)

9 / 24

Couverture d’un corpus

Couverture de chaque intersection variable 1 / variable 2

Pas d’espace vide !

Équilibrage du nombre de mots pour chaque intersection

Ex. pour des variables Date (mois) / Genre

(10)

Principe de XML

Encapsulation

Document

En-tête

Corps

Paragraphe Paragraphe

Paragraphe Paragraphe

(11)

11 / 24

Principe de XML

Encapsulation

<TEI>

<body>

Paragraphe

<p> … </p>

<p> … </p>

<p> … </p>

</TEI>

<teiHeader>

...

</teiHeader>

</body>

(12)

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text>

<p> … </p>

<p> … </p>

<p> … </p>

</text>

</TEI>

balise ouvrante balise fermante

(13)

13 / 24

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text>

<p> … </p>

<p> … </p>

<p> … </p>

</text>

</TEI>

bloc

(14)

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text>

<p> … </p>

<p> … </p>

<p> … </p>

</text>

</TEI>

bloc

bloc bloc bloc

(15)

15 / 24

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text>

<p> … </p>

<p> … </p>

<p> … </p>

</text>

</TEI>

bloc bloc bloc

bloc

(16)

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text xml:lang="fr">

<p> … </p>

<p> … </p>

<p> … </p>

</text>

</TEI>

attribut = valeur

(17)

17 / 24

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text xml:lang="fr">

<p> … <lb/> … </p>

<p> … <lb/> … </p>

<p> … </p>

</text>

</TEI>

balise auto-fermante

(18)

Principe de XML

Encapsulation (exemple de XML-TEI)

<TEI>

<teiHeader>

...

</teiHeader>

<text xml:lang="fr">

<p> … <lb/> … </p>

<p> … <lb/> … </p>

<!-- Un commentaire !!! -->

<p> … </p>

</text>

Comme son contenu l’indique...

(19)

19 / 24

Exemple concret

<?xml version="1.0" encoding="UTF-8"?>

<TEI>

<teiHeader>

...

</teiHeader>

<text xml:lang="fr">

<p> … <lb/> … </p>

<p> … <lb/> … </p>

<p> … </p>

</text>

</TEI>

Métadonnées

Encapsulation (exemple de XML-TEI)

(20)

Exemple concret

https://pro.aiakide.net/cours/Corpus2021a/exempleCorpus14.xml

(21)

21 / 24

Exemple concret

https://pro.aiakide.net/cours/Corpus2021a/exempleCorpus14.xml

(22)

Pratique

Prenez 2 documents différents de votre corpus (pas issus du même site !)

Formattez-les en XML avec votre éditeur de texte préféré (pas Word ou Writer − dans le doute utilisez SublimeText), en suivant le schéma page suivante

(23)

23 / 24

Pratique

<TEI>

<teiHeader>

<titleStmt>

<title> Titre du document </title>

<author> Auteur du document </author>

<editor> Éditeur du document (c’est vous !) </editor>

</titleStmt>

<publicationStmt>

<availability>

<licence> Licence du document </licence>

</availability>

</publicationStmt>

</teiHeader>

<text>

<body>

<p>...</p>

<p>...</p>

<p>...</p>

</body>

</text>

</TEI>

Le cas échéant, utilisez aussi les blocs suivants :

<title> … </title> (titres)

<q> … </q> (citations)

Voir aussi : https://tei-c.org/release/doc/tei-p5-exemplars/html/tei_lite.doc.html

Validez votre document XML sur :

https://www.xmlvalidation.com Le cas échéant, utilisez aussi les blocs suivants :

<title> … </title> (titres)

<q> … </q> (citations)

Voir aussi : https://tei-c.org/release/doc/tei-p5-exemplars/html/tei_lite.doc.html

(24)

Prochaines séances

Mise en forme de votre corpus au format XML-TEI

Chemins XPath

Récupération automatique de corpus depuis Internet en utilisant XML

Références

Documents relatifs

PIONS : découper les lapins, plier en deux, coller, et éventuellement, lester la base du lapin avec du carton, une pièce de monnaie, etc….. ARRIVÉE et DÉPART : ARRIVÉE et DÉPART

Vous pouvez dès lors insérer un pied de page uniquement pour le style de page &#34;Standard&#34; ou insérer des pieds de page pour les deux styles de page, mais avec des champs

personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d'identification ou à un ou plusieurs éléments qui lui

1978 «  (...) Constitue une donnée à caractère personnel toute information relative à une. personne physique identifiée ou qui peut être identifiée, directement ou

– Noter : le titre, l’URL, le genre textuel, le codage, le format, la licence, la taille et 2 variables au choix. – À organiser dans un tableau au

Remarque : dans la norme ISO-15924, même l’API est considéré comme une graphie latine... 18

– Le travail est généralement différent pour chaque source de documents, donc on tend à réduire le nombre de sources... Collecte de

David Rolland - IUFM de la Polynésie française - 8 | 14 Dans le pied de page, insérer les champs adéquats et les caractères de tabulations de façon à