• Aucun résultat trouvé

Google Livres sur la Comédie-Italienne

3.3 Autres Ressources mobilisées

3.3.4 Google Livres sur la Comédie-Italienne

Le vocabulaire utilisé dans les bases d’images présentées précédemment étant fermé et dédié à un domaine à chaque fois, nous avons cherché à enrichir les bases utilisées avec des ressources linguistiques traitant de la Comédie-Italienne. Nous avons cherché, dans un premier temps, des documents produits par des contributeurs du projet CIRESFI comme “Le répertoire de la Comédie-Italienne de Paris (1716-1762)” d’Emanuele de Luca ou encore des pages de Wikipédia relatives à certains auteurs connus. Cependant, le problème majeur de ces documents est qu’ils sont normalisés en effet, le vocabulaire et l’orthographe sont modernes, et les titres sont souvent écrits dans leur version longue. C’est pour cela que nous nous sommes tournés dans un second temps vers des documents disponibles en grand nombre du XVIIIe siècle, mais souvent sous-exploités.

En effet, en cherchant des ressources potentielles en français qui avait pour thème la Comédie-Italienne, nous avons constaté que sur Google Livres, 419 000

(a) “Georges Washington”

(b) “Les Esposalles”

(c) “Rimes”

Figure 3.10 – Exemples des documents contenus dans chaque base de données sélectionnée

livres français faisant référence à la Comédie-Italienne étaient disponibles. Parmi l’ensemble de ces œuvres, nous avons identifié des scripts bilingues (en Italien et en Français), des répertoires d’œuvres, des livres d’anecdotes sur le théâtre italien (c’est-à-dire incluant les théâtres forains) et portant sur certaines saisons, des prologues d’ouvertures de saison ainsi que des compliments de clôture. . .

Finalement, nous avons sélectionné 23 ouvrages qui sont détaillés dans la table 3.2en précisant leur année de publication, le titre de l’œuvre, son type. Ils sont tous en français classique qui diffère du français moderne par l’orthographe, la syntaxe et le vocabulaire utilisés. Les douze ouvrages contenant des scripts d’œuvre, ils permettent de fournir un vocabulaire propre aux comédies de cette époque, car les termes utilisés n’étaient pas forcément ceux de la vie courante, ce qui contraste avec les ouvrages d’anecdotes.

Les fichiers au format PDF sont disponibles et incluent une version texte du contenu grâce à une océrisation des images par Google.

L’avantage linguistique principal qu’offre cette nouvelle ressource porte sur le fait que le texte n’a subi aucun traitement supplémentaire pour normaliser le vocabulaire. L’orthographe utilisée est celle de l’époque. Par exemple, les termes au singulier finissant par “ment” deviennent “mens” au pluriel, le “t” final se transforme en “s”. La forme longue du “s” est également présente.

Bien que nous ne souhaitons pas normaliser le texte, il est nécessaire de faire des pré-traitements afin de nettoyer le texte obtenu par le OCR. En effet, l’outil de Google a pris une décision pour chaque tache sur le papier, mais également pour chaque dessin ou frise qu’il considère comme une séquence de plus de 20 caractères non interrompue.

Un exemple du texte obtenu par le OCR est fourni dans la table 3.3. La qualité des documents et le style de l’écriture utilisé provoquent des difficultés au moment de l’extraction du texte. Par exemple, “eſt” n’est jamais bien reconnu dans cet exemple (identifié en rouge dans le résultat obtenu). Des caractères de ponctuation sont souvent ajoutés pour correspondre avec des tâches liées au temps sur la page (voir caractères rouges). C’est pour cela qu’au moment de construire le vocabulaire,

nous avons filtré les séquences avec une taille supérieure à 15 caractères. Puis, nous conservons les termes apparaissant plus de 5 fois dans l’ensemble des ouvrages sélectionnés pour tenter de supprimer les substitutions de caractères non fréquentes. Toutes ces erreurs de transcription sur un document tapuscrit historique mettent clairement en avant les difficultés restantes pour désambiguïser le fond du contenu, mais également les formes des caractères.

Table 3.2 – Ensembles des 23 œuvres de la Comédie-Italienne sélectionnées.

Date Titre du livre Type Pages

1654 Les Nopces de Pelee et de Thetis Script de la pièce 47 1726 Arlequin Toujours Arlequin Script de la pièce 33 1729 Le Nouveau Théâtre Italien ou Recueil

General des Comédies T. 3

Recueil de scripts (Français et Italien) Italien

473 1731 Histoire du Théâtre Italien depuis la

Décadence T. 2

Résumé de pièces ordonnées par type

417

1732 Le Jaloux Script de la pièce 143

1733 L’isle du Divorce, comédie Script de la pièce 43 1737 Complimens pour la Closture et pour

l’Ouverture

Compliments 9

1753 Le Nouveau Théâtre Italien ou Recueil General des Comédies T. 1

Recueil ordonnée par date de représentation

495 1760 Catalogue des Livres de la Bibliothèque

de Feu M. G***

Bibliographie ordonnée par type d’ouvrage

793 1762 Le Fils d’Arlequin Perdu et Retrouvé Script de la pièce 17 1763 Bibliographie Instructive ou Traité de

la Connaissance des Livres Rares et Singuliers

Bibliographie ordonnée par type d’ouvrage

703

1767 Compliment pour la Clôture de la Co- médie Italienne

Compliments 23

1767 Prologue d’Ouverture pour la Comédie Italienne

Prologue 29

1769 Histoire Anecdotique et Raisonnée du Théâtre Italien T. 3

Extraits de pièces Italiennes et Françaises

551 1775 Anecdotes dramatiques T. 3 Anecdotes ordonnées par noms

des auteurs et acteurs

593 1777 Les Trois Théâtres de Paris ou Abrégé

Historique de l’établissement de la Comédie Française, comédie Italienne et de l’Opéra

Historique et anecdotes 323

1778 Les Trois Jumeaux Vénitiens Script de la pièce 69 1783 Le Nouveau Théâtre Italien ou Recueil

General des Comédies

Recueil ordonnée par date de représentation

569 1786 De l’Art de la Comédie de l’Imitation,

nouvelle édition, T.2

Extraits de pièces et anecdotes 445 1786 Le Valet Rusé, ou Arlequin Muet Script de la pièce 39 1788 Annales du Théâtre Italien, depuis son

origine jusqu’à ce jour

Anecdotes ordonnées par années 673 1789 La Fausse Magie, Comédie Script de la pièce 37 1820 Œuvres Complètes de Regnard T. 5 Recueil 451

’ï III . EWÆWNWŒQDÇWÊNÆNQP WWWÊMWŒWË- SÔWÆÏWÆWEWAN “1*- ſ ? ? 1’213 7—-— -Tcy- ?POTS PW ? ? 3 ;’ –Wd- v : ..fr ï rf-’J QR P R E F A C E.

ØE U x qui avoient reçû le plusſavo rablement mon Hiſtoire du Théâtre

Italien , m’ont parus déſirer un extrait ,8cun examen de nos Tragedies ,8cde nos Co medies. En eſſet le Catalogué que j’en ai donné , n’epropre à en faire con-noître que le nombre. J’ai crû que je ferois plaiſir à plu ſieurs gens de Lettres, à qui il ne manque

que la connoiſſance de notre langue , de’les mettre à portée d’en’connoître la nature , les beautés , & les défauts.

Quelqüe juſ’ce que ſoit leur deſir , c’e avec peine que je m’y rends ; je ſens toute

_la diſſculté de l’entrepriſe. Je réüſſrai peut être dan-Sles extraits des pieces , j’eſpere qu’on les trouvera ſideleszmais quant au jugement que j’en porterai, je crains de déplaiſe aux deux Nations, que l’une ſe plaigne de mes loüanges,8cl’autre de mes

-critiquess 8Cpeut-être même n’aurai-je à a1)

Table 3.3 – Exemple du texte extrait par l’outil OCR sur une page de “Com- plimens pour la Closture”. En rouge, les erreurs liées aux imperfections du docu- ment ; en vert, les erreurs sur le mot “eſt” ; en bleu, erreurs sur d’autres carac- tères.