3.3 Autres Ressources mobilisées
3.3.4 Google Livres sur la Comédie-Italienne
Le vocabulaire utilisé dans les bases d’images présentées précédemment étant fermé et dédié à un domaine à chaque fois, nous avons cherché à enrichir les bases utilisées avec des ressources linguistiques traitant de la Comédie-Italienne. Nous avons cherché, dans un premier temps, des documents produits par des contributeurs du projet CIRESFI comme “Le répertoire de la Comédie-Italienne de Paris (1716-1762)” d’Emanuele de Luca ou encore des pages de Wikipédia relatives à certains auteurs connus. Cependant, le problème majeur de ces documents est qu’ils sont normalisés en effet, le vocabulaire et l’orthographe sont modernes, et les titres sont souvent écrits dans leur version longue. C’est pour cela que nous nous sommes tournés dans un second temps vers des documents disponibles en grand nombre du XVIIIe siècle, mais souvent sous-exploités.
En effet, en cherchant des ressources potentielles en français qui avait pour thème la Comédie-Italienne, nous avons constaté que sur Google Livres, 419 000
(a) “Georges Washington”
(b) “Les Esposalles”
(c) “Rimes”
Figure 3.10 – Exemples des documents contenus dans chaque base de données sélectionnée
livres français faisant référence à la Comédie-Italienne étaient disponibles. Parmi l’ensemble de ces œuvres, nous avons identifié des scripts bilingues (en Italien et en Français), des répertoires d’œuvres, des livres d’anecdotes sur le théâtre italien (c’est-à-dire incluant les théâtres forains) et portant sur certaines saisons, des prologues d’ouvertures de saison ainsi que des compliments de clôture. . .
Finalement, nous avons sélectionné 23 ouvrages qui sont détaillés dans la table 3.2en précisant leur année de publication, le titre de l’œuvre, son type. Ils sont tous en français classique qui diffère du français moderne par l’orthographe, la syntaxe et le vocabulaire utilisés. Les douze ouvrages contenant des scripts d’œuvre, ils permettent de fournir un vocabulaire propre aux comédies de cette époque, car les termes utilisés n’étaient pas forcément ceux de la vie courante, ce qui contraste avec les ouvrages d’anecdotes.
Les fichiers au format PDF sont disponibles et incluent une version texte du contenu grâce à une océrisation des images par Google.
L’avantage linguistique principal qu’offre cette nouvelle ressource porte sur le fait que le texte n’a subi aucun traitement supplémentaire pour normaliser le vocabulaire. L’orthographe utilisée est celle de l’époque. Par exemple, les termes au singulier finissant par “ment” deviennent “mens” au pluriel, le “t” final se transforme en “s”. La forme longue du “s” est également présente.
Bien que nous ne souhaitons pas normaliser le texte, il est nécessaire de faire des pré-traitements afin de nettoyer le texte obtenu par le OCR. En effet, l’outil de Google a pris une décision pour chaque tache sur le papier, mais également pour chaque dessin ou frise qu’il considère comme une séquence de plus de 20 caractères non interrompue.
Un exemple du texte obtenu par le OCR est fourni dans la table 3.3. La qualité des documents et le style de l’écriture utilisé provoquent des difficultés au moment de l’extraction du texte. Par exemple, “eſt” n’est jamais bien reconnu dans cet exemple (identifié en rouge dans le résultat obtenu). Des caractères de ponctuation sont souvent ajoutés pour correspondre avec des tâches liées au temps sur la page (voir caractères rouges). C’est pour cela qu’au moment de construire le vocabulaire,
nous avons filtré les séquences avec une taille supérieure à 15 caractères. Puis, nous conservons les termes apparaissant plus de 5 fois dans l’ensemble des ouvrages sélectionnés pour tenter de supprimer les substitutions de caractères non fréquentes. Toutes ces erreurs de transcription sur un document tapuscrit historique mettent clairement en avant les difficultés restantes pour désambiguïser le fond du contenu, mais également les formes des caractères.
Table 3.2 – Ensembles des 23 œuvres de la Comédie-Italienne sélectionnées.
Date Titre du livre Type Pages
1654 Les Nopces de Pelee et de Thetis Script de la pièce 47 1726 Arlequin Toujours Arlequin Script de la pièce 33 1729 Le Nouveau Théâtre Italien ou Recueil
General des Comédies T. 3
Recueil de scripts (Français et Italien) Italien
473 1731 Histoire du Théâtre Italien depuis la
Décadence T. 2
Résumé de pièces ordonnées par type
417
1732 Le Jaloux Script de la pièce 143
1733 L’isle du Divorce, comédie Script de la pièce 43 1737 Complimens pour la Closture et pour
l’Ouverture
Compliments 9
1753 Le Nouveau Théâtre Italien ou Recueil General des Comédies T. 1
Recueil ordonnée par date de représentation
495 1760 Catalogue des Livres de la Bibliothèque
de Feu M. G***
Bibliographie ordonnée par type d’ouvrage
793 1762 Le Fils d’Arlequin Perdu et Retrouvé Script de la pièce 17 1763 Bibliographie Instructive ou Traité de
la Connaissance des Livres Rares et Singuliers
Bibliographie ordonnée par type d’ouvrage
703
1767 Compliment pour la Clôture de la Co- médie Italienne
Compliments 23
1767 Prologue d’Ouverture pour la Comédie Italienne
Prologue 29
1769 Histoire Anecdotique et Raisonnée du Théâtre Italien T. 3
Extraits de pièces Italiennes et Françaises
551 1775 Anecdotes dramatiques T. 3 Anecdotes ordonnées par noms
des auteurs et acteurs
593 1777 Les Trois Théâtres de Paris ou Abrégé
Historique de l’établissement de la Comédie Française, comédie Italienne et de l’Opéra
Historique et anecdotes 323
1778 Les Trois Jumeaux Vénitiens Script de la pièce 69 1783 Le Nouveau Théâtre Italien ou Recueil
General des Comédies
Recueil ordonnée par date de représentation
569 1786 De l’Art de la Comédie de l’Imitation,
nouvelle édition, T.2
Extraits de pièces et anecdotes 445 1786 Le Valet Rusé, ou Arlequin Muet Script de la pièce 39 1788 Annales du Théâtre Italien, depuis son
origine jusqu’à ce jour
Anecdotes ordonnées par années 673 1789 La Fausse Magie, Comédie Script de la pièce 37 1820 Œuvres Complètes de Regnard T. 5 Recueil 451
’ï III . EWÆWNWŒQDÇWÊNÆNQP WWWÊMWŒWË- SÔWÆÏWÆWEWAN “1*- ſ ? ? 1’213 7—-— -Tcy- ?POTS PW ? ? 3 ;’ –Wd- v : ..fr ï rf-’J QR P R E F A C E.
ØE U x qui avoient reçû le plusſavo rablement mon Hiſtoire du Théâtre
Italien , m’ont parus déſirer un extrait ,8cun examen de nos Tragedies ,8cde nos Co medies. En eſſet le Catalogué que j’en ai donné , n’epropre à en faire con-noître que le nombre. J’ai crû que je ferois plaiſir à plu ſieurs gens de Lettres, à qui il ne manque
que la connoiſſance de notre langue , de’les mettre à portée d’en’connoître la nature , les beautés , & les défauts.
Quelqüe juſ’ce que ſoit leur deſir , c’e avec peine que je m’y rends ; je ſens toute
_la diſſculté de l’entrepriſe. Je réüſſrai peut être dan-Sles extraits des pieces , j’eſpere qu’on les trouvera ſideleszmais quant au jugement que j’en porterai, je crains de déplaiſe aux deux Nations, que l’une ſe plaigne de mes loüanges,8cl’autre de mes
-critiquess 8Cpeut-être même n’aurai-je à a1)
Table 3.3 – Exemple du texte extrait par l’outil OCR sur une page de “Com- plimens pour la Closture”. En rouge, les erreurs liées aux imperfections du docu- ment ; en vert, les erreurs sur le mot “eſt” ; en bleu, erreurs sur d’autres carac- tères.