• Aucun résultat trouvé

4. Constitution de Cuisitext et réflexion sur son exploitation

4.1 Constitution de corpus écrit

La construction d’une base de données permet de se familiariser avec le domaine de spécialité (Yang, 2016). Comme le soulignent Mangiante et Parpette (2004 : 46), la collecte des données permet à l’enseignant de « sortir de son cadre habituel de travail pour entrer en contact avec un milieu qu’il ne connaît pas, a priori, et pour lequel il doit expliquer ses objectifs et le sens de sa démarche pour obtenir les informations dont il a besoin ». Comme expliqué dans la sous-partie 1.4.2, la recette de cuisine peut être choisie comme un genre de texte approprié à l’élaboration d’un corpus culinaire. Nous décidons de prendre des recettes de cuisine sur internet comme textes de référence du corpus écrit Cuisitext. Au vu de l’abondance des données, les copier/coller ne

suffisent pas pour construire rapidement un tel corpus, donc dans notre étude, nous avons adopté le principe d’un crawleur, c’est-à-dire une aspiration des contenus de site. Gromoteur est le logiciel de collecte de données écrites, que nous avons choisi car il est gratuit (WebBootCat est seulement gratuit pour seulement 30 jours) et ses fonctionnalités multiples permettent de sélectionner des recettes en évitant de tomber dans certains pièges évoqués ci-dessous. En outre, sa prise en main est facile et rapide.

4.1.1 Collecte de données

L’utilisation de Gromoteur pour la collecte de données est la suivante : il faut inscrire, dans le formulaire de requête, des adresses web (URL : Uniform Resource Locator) ou des mots-clés et la collecte de données peut se dérouler de façon automatique. En France, il existe quelques sites culinaires connus sur lesquels de nombreuses recettes de cuisine sont proposées, nous en présentons quelques-uns dans le tableau 4-1 ci-dessous.

Noms des sites URL

Marmiton http://www.marmiton.org

750g http://www.750g.com

Cuisine AZ http://www.cuisineaz.com

Ôdélice http://www.odelices.com

Cuisine actuelle http://www.cuisineactuelle.fr Tableau 4-1 : Quelques sites français de recettes de cuisine

Le tableau 4-1 ci-dessus rassemble les sites les plus populaires dans le domaine culinaire en France, par exemple, le site « Marmiton », qui existe depuis 2003, recense plus de 4,18 millions de visiteurs. Dans notre étude, nous pouvons collecter davantage de données (recettes de cuisine) en faisant des requêtes par les URL plutôt que par des mots-clés. De nombreuses données nous permettent d’avoir davantage de résultats intéressants en termes de fréquence et d’éléments lexicaux différents. Le principe d’aspiration des ressources d’un crawler est le suivant : la page web associée est téléchargée et les liens sur cette page sont également identifiés. Pour chaque nouveau lien, le crawler cherche encore les liens qu’il contient et ainsi de suite. Ce processus se répète indéfiniment. Les sites sélectionnés ne contiennent pas seulement des recettes (ils contiennent également des publicités, des vidéos, des zones de discussions), donc pour éviter cette accumulation de données inutiles pour notre recherche, nous devons trouver les liens qui peuvent aboutir uniquement aux recettes présentes sur ces sites, par exemple, l’URL (http://www.marmiton.org) est l’adresse du site Marmiton, mais l’adresse

d’accès direct aux recettes de ce site est http://www.marmiton.org/recettes/. Une fois que les accès sont identifiés, nous pouvons alors démarrer l’aspiration des recettes par Gromoteur. Cette aspiration, sur différents sites, peut se faire simultanément. Dans la figure 4-1 ci-dessous, nous pouvons décider d’ajouter une ou plusieurs adresses URL en choisissant l’option A ;

nous pouvons également lancer, par l’option B, toutes les aspirations en ajoutant un fichier qui contient toutes les URL.

Figure 4-1 : Choix d’ajout d’URLs dans Gromoteur

En effet, même si nous avons déjà réduit le champ de requête en choisissant les sites d’aspirations, Gromoteur cherche encore tous les liens des sites donnés pour aller plus loin et cette aspiration peut durer plusieurs jours, voire plusieurs semaines. Pour ne pas tomber dans ce piège chronophage, nous devons indiquer à Gromoteur où s’arrêter (level from…to…) comme dans la

figure 4-2 ci-dessous. Le « level from 0 to 0 » signifie que l’aspiration de données reste sur la même page et le « level from 0 to 1 » permet d’indiquer à l’aspirateur de recueillir des données sur la même page et suivre aussi les liens indiqués à partir de cette page. En choisissant le « level from 0 to 1 » dans notre étude, cette collecte des données se déroule seulement en quelques minutes.

Figure 4-2 : Paramètre de requête du choix des pages dans Gromoteur

Dès que l’aspiration est finie, les données sont classées par URL dans un tableau (cf. la figure 4-3 ci-dessous). Le logiciel Gromoteur peut donner

l’accès aux données par différents paramètres : l’URL (adresse de chaque page), les titres des textes, la date de création du document, les textes de chaque page, etc.

Figure 4-3 : Extrait de données collectées dans Gromoteur

Nous pouvons visualiser chaque case de cette figure 4-3 dans une fenêtre indépendante en cliquant dessus. Après avoir fini cette aspiration de données, nous devons opérer un nettoyage des données pour que celles-ci soient propres donc lisibles et réutilisables.

4.1.2 Nettoyage et exportation de données

Dans les textes recueillis, nous constatons qu’il n’y a pas de problème d’encodage, à savoir, d’éléments non reconnus par la machine. En revanche, il existe des URL non pertinentes qui ne contiennent pas de recettes et dans

Gromoteur, nous pouvons filtrer (option « current filtrer » dans la figure 4-4 ci-dessous) les données recueillies pour en éliminer les éléments non pertinents. Par exemple, nous avons constaté que le mot-clé « photo » apparaît toujours dans les titres de ces éléments non pertinents, donc afin de supprimer ces éléments non pertinents, il suffit de filtrer les titres.

Figure 4-4 : Filtrage de corpus par un mot clé « photo »

Ce filtrage peut se faire au niveau des titres. Dans les deux premières colonnes en bas de la figure 4-4 ci-dessus, nous choisissons respectivement les paramètres « titre » et « contains the word ». Nous écrivons le mot-clé « photo » dans la troisième colonne (« condition »). En validant cette requête, nous pouvons facilement sortir et supprimer toutes les adresses URL non pertinentes. Une fois que toutes les données sont propres, leur exportation s’effectue au format TXT par défaut et notre corpus écrit peut être créé dans un fichier choisi. Nous allons construire notre corpus oral dans ce qui suit et le résultat de la construction de Cuisitext est exprimé à la fin de ce chapitre.