• Aucun résultat trouvé

Recueil et structuration de corpus − TD 3

N/A
N/A
Protected

Academic year: 2022

Partager "Recueil et structuration de corpus − TD 3"

Copied!
18
0
0

Texte intégral

(1)

1 / 18

Recueil et structuration de corpus − TD 3

Achille Falaise − Alexandre Roulois

(2)

2 / 18

Plan du TD

Correction TD 2

Balises à connaître

Langue / script

Pratique

(3)

3 / 18

Correction du TD 2

Trouvez l’erreur

(4)

4 / 18

Correction du TD 2

Trouvez les 3 erreurs

(5)

5 / 18

Correction du TD 2

Trouvez les 3 erreurs

(6)

6 / 18

Correction du TD 2

XML correct, mais en TEI, un seul teiHeader par fichier.

(7)

7 / 18

Correction du TD 2

Le XML est correct, mais quels points de TEI on

pourrait améliorer ? (→ sachant qu’on va donner le corpus à un ordinateur pour faire des stats)

(8)

8 / 18

Quelques balises XML-TEI

(9)

9 / 18

Quelques balises XML-TEI

(10)

10 / 18

Quelques balises XML-TEI

(11)

11 / 18

Quelques balises XML-TEI

(12)

12 / 18

Quelques balises XML-TEI

(13)

13 / 18

Un autre exemple de XML-TEI

Article de presse

Corpus de l’Est Républicain

(14)

14 / 18

Résumé

Quelques balises XML-TEI à savoir utiliser

TEI, text, body

div, p

q, eg, foreign

head, title

lb

Ne pas oublier l’attribut xm:lang="xxx"

quand nécessaire (cf. documentation)

Codes ISO-639-2 ou ISO-639-3 pour la langue

Codes ISO-15924 pour le script [facultatif]

Codes ISO-3166 pour la région [facultatif]

(15)

15 / 18

Combinaisons

code/script/région

(16)

16 / 18

Langue ≠ script

注音符號注音符号 ㄅㄆㄇㄈ

srpskohrvatski-hrvatskosrpski

српскохрватски-хрватскосрпски

Bahasa Melayu ويلام ساهب

Türkçe ابفلا

Hanb Hans Hant zho

Latn

Cyril hbs

Code ISO 639-3 (langue) CodeISO-15924 (script)

Légende

zlm

Latn

Arab

Latn

Arab

tur

(17)

17 / 18

Script ≠ transcription

東京 とうきょう

Tokyo Tōkyō Tôkyô Tookyoo Tohkyoh Toukyou toːkʲoː Токио

La norme ISO-15924 ne

distingue pas les méthodes de transcription latine

(romanisation) : toutes ces graphies ont donc le même script : Latin (code Latn).

Script Hiragana (code Hira) Script Han (code Han)

Langue japonais (code jpn)

Script Cyrillique (code Cyril)

Plein de transcriptions possibles

Remarque : dans la norme ISO-15924, même l’API est considéré comme une graphie latine.

(18)

18 / 18

Pratique

Modifiez l’un de vos documents XML pour

inclure un exemplaire de chacune des balises à savoir utiliser (diapo 14).

Pour l’exercice, vous avez le droit

d’inventer du contenu, ou d’aller chercher un paragraphe dans un autre texte ! Mais la balise doit être employée de manière logique.

N’oubliez pas les codes langue, au moins sur les balises text et foreign.

Références

Documents relatifs

Les pulvérisateurs utilisés pour la protection des cultures doivent être conçus de manière à résister à toutes les charges induites par leur fonctionnement dans les conditions

1.5 Afin de prescrire un matériau thermoplastique pour une application particulière ou d’assurer une méthode de mise en œuvre reproductible, des exigences additionnelles peuvent

Lorsque l'on n'utilise pas de valeurs directement intégrées de conductivité thermique ou de calcul basé sur une expression polynomiale de la conductivité thermique, l'effet de

Annexe A (informative) Application de la concentration par dégazage et piégeage à l'analyse par chromatographie en phase gazeuse des composés volatils dans l'eau — Exemple 1:

Elles sont interprétées – pour certaines – comme étant des morceaux de lithosphère océanique subduite.. À partir de l'étude structurée des documents et de vos

4.1 Enceinte humide, en acrylique ou en tout autre matériau inerte similaire, composée d'une enceinte à l'intérieur de laquelle il est possible de suspendre, au-dessus d'une

La déformation de l’adhésif entre deux cylindres creux La présente partie de I’ISO 11003 prescrit un essai collés bout a bout est déterminée en fonction du de cisaillement pour

La présente Norme internationale définit comme publications en série les collections de monographies, les rapports de congrès, les annuaires et les publications annuelles et les