• Aucun résultat trouvé

Choix de la source des corpus textuels

Constitution de corpus

5.1 Constitution des corpus textuels

5.1.1 Choix de la source des corpus textuels

Les corpus textuels ont pour objectif d’être utilisés pour permettre l’iden-tiication des concepts du domaine de ski de randonnées et des concepts de récits d’activité du point de vue des skieurs eux-même. Pour cela, les corpus doivent :

• être constitués de récits produits par les acteurs de l’activité, en français • porter sur des randonnées à ski (lien avec le domaine)

Ain de faciliter l’analyse de ces corpus, notamment pour l’identiication des concepts, nous avons fait le choix de ne considérer que les récits portant sur des sorties réalisées dans les Alpes. En efet, les skieurs étant des passion-nés, ils utilisent des points de repères (comme “la bergerie” ou des lieux-dits) que les autres skieurs de la même région connaissent. Ain de pouvoir nous appuyer sur les experts du domaine à Grenoble (pratiquant principalement dans les Alpes) nous avons choisi de limiter la zone géographique des ran-données considérées aux massifs proches de Grenoble (Chartreuse, Vercors, Belledonne, Écrins)

Il existe un corpus textuel en partie en Français accessible sur le ski dans les Alpes. Ce corpus, réalisé par l’université de Zurich est appelé « Text+Berg digital » [Göhring et Volk, 2011]. Il s’agit d’un corpus parallèle français-allemand de plus de 4 millions de mots. Le sous-corpus français est nommé « Text+Berg-Korpus R151v01 Écho des Alpes ». La Figure 5.1 montre le résultat d’une recherche du mot ‘ski’ dans l’interface d’interrogation du site web et renvoie toutes les occurrences contenant ce mot. Il est composé de textes annotés appartenant au Club Alpin Suisse (CAS)1. Il présente des in-formations autour de la culture, de l’environnement et des activités efectuées

1https://cqpweb.linguistik.uzh.ch/

dans les Alpes Suisses. La plate-forme en ligne permet de faire de recherches à partir d’un mot, ain de récupérer les collocations pour observer le contexte où il apparaît.

Fig. 5.1: Capture d’écran du site de consultation du corpus «

Text+Berg-Korpus R151v01 Écho des Alpes » du projet « Text+Berg digital » [Göhring et Volk, 2011]

Les textes de ce corpus ne concernent pas uniquement l’activité de ski de randonnée. En outre, en plus des récits, il est constitué de données textuelles variables (rapports, contes…), sans possibilité d’extraire un sous-corpus consti-tué uniquement de récits d’activité. Enin, certains des textes sont anciens. Or, tant le domaine d’activité que les modes d’expression des skieurs évoluent au cours du temps. Pour ces trois raisons nous avons choisi de constituer de nouveaux corpus composés uniquement de récits d’activité produits en fran-çais, par des skieurs de randonnée ayant fait des sorties dans les Alpes.

Nous avons cherché des sources spécialisées sur Internet, en regardant s’ils ofraient des textes liés à notre cas d’usage. Il se trouve que les sites spécialisés en ski de randonnée prolifèrent sur le net. Nous pouvons y trou-ver des itinéraires, des conseils ainsi que des forums sur lesquels les gens peuvent exprimer leur retour d’expérience. Certains sites ne proposent pas aux skieurs d’exprimer leur avis sous la forme d’un texte libre (comme www. espace-skiderando.com et dans une moindre mesurecamptocamp.org), or c’est dans ces espaces ‘libres’ que les skieurs produisent des récits de leur sor-tie. Nous avons donc choisi d’extraire nos corpus textuels du siteskitour.fr

dispo-nibles pour une sortie.

Skitour.fr est le site de référence de la communauté de skieurs franco-phones. Les sorties sont décrites avec des informations sur l’itinéraire (ichier .gpx, points de repère, durée du parcours, variantes), sur les conditions (date, participants, météo, altitude) mais aussi avec des informations sur l’expé-rience vécue comme des remarques sur certains points de l’itinéraire, des liens avec d’autres sorties relatées ou un résumé de la sortie produit par le skieur.

Plusieurs skieurs proitent de cet espace pour rendre public le récit de leur expérience pendant la randonnée. Bien que les indications techniques aident à comprendre les conditions pendant la sortie, exprimer le ressenti participe au partage de l’activité. Le récit du vécu est un point de vue appartenant au skieur qui permet le suivi du parcours, en même temps que la mise en valeur de certains aspects particuliers pour le skieur. Dans le contexte du ski de randonnée, ce point de vue peut aider à communiquer certains dangers observés qui ont provoqué une réaction ou une décision (par exemple, aban-donner la route prévue). Grâce à ce point de vue, il est possible aussi de savoir le niveau d’expertise requis pour faire ce parcours, selon la description des manœuvres efectuées. Finalement, il expose le ressenti sur la sortie dans son ensemble (satisfaction, points positifs de l’itinéraire…). Ainsi, il s’agit d’un commentaire enrichi où la personne partage son interprétation personnelle de l’activité avec d’autres. Et pour ce ressenti, l’outil le plus utilisé est le récit. Ces récits constituent donc un ensemble de données idéal pour notre cas.

En raison de la quantité des récits disponibles (le site propose environ 5000 itinéraires en France), nous avons limité la recherche des récits aux sommets populaires autour Grenoble. Ce choix favorise l’accès à des experts pouvant nous aider à identiier les itinéraires et la signiication du vocabulaire appartenant à la communauté. Il facilite également le collecte de données capteurs sur place et le repérage dans les données numériques des endroits, accidents ou points les plus fréquemment mentionnés dans le corpus.

posent ont été extraits de la même section de la iche que ceux du Corpus textuel de modélisation. Néanmoins, vu l’objectif établi pour la nouvelle col-lecte, il a fallu mettre en place une approche diférente où la récupération de textes soit efectuée plus eicacement. Ainsi, au lieu de les sélectionner ma-nuellement et ain d’avoir une représentativité adéquate, nous avons décidé de mettre en place une extraction automatique à partir du site skitour.fr.

Pour ce faire, nous avons utilisé la librairie open-source Jsoup2. Dévelop-pée en Java, elle permet d’analyser la structure d’un site web, de manière à manipuler ou à récupérer son contenu. Nous avons développé un script qui permet d’explorer les sorties proposées, de trouver la section concernée et de collecter le texte souhaité, en prenant soin de iltrer des entrées vides, c’est à dire des parcours où il n’y a pas de commentaire en texte libre.

Vu la quantité de sorties disponibles sur le site, nous avons limité l’ex-traction. Pour ce corpus, nous avons récupéré uniquement des sorties faites vers des sommets des départements français de l’Isère et de Haute Savoie sur la période 2009 - 2016.

Au contraire des textes appartenant au Corpus textuel de modélisation, ici il n’a pas été établi un critère spéciique pour la sélection. Ce corpus est destiné à être utilisé dans le cadre de recherches quantitatives. Cela veut dire que le seul objectif visé est d’avoir assez de matériel pour observer une connaissance du langage propre à l’activité. Ainsi, ce corpus de grande échelle ne considère pas, par exemple, la taille ou le nombre de mots utilisés dans chaque texte. Cela implique également la possibilité de trouver diférents types de textes dans le corpus.

Par exemple, la igure 5.3 présente deux textes inclus dans le Corpus fréquentiel. Le texte de la Figure 5.3a est un commentaire concernant une sortie vers le sommet du Pic de la Belle Étoile (Massif de Belledonne). Il s’agit d’un avis très bref sur la qualité de la neige.

Le corpus fréquentiel apporte des connaissances au niveau lexical, gram-matical et sur la cohésion interne du récit. Au niveau lexical, nous pourrons observer la fréquence d’usage de certains mots pour décrire un événement ou un fait, et identiier des termes propres au domaine. Concernant l’aspect grammatical, nous pourrons noter l’emploi des pronoms personnels ou des temps de conjugaison, par exemple. Ce corpus sert aussi pour analyser la syntaxe utilisée par les skieurs, par exemple s’ils décrivent leur ressenti avec des phrases simples (comprenant un seul verbe) ou complexes (comprenant plusieurs verbes conjugués). Finalement, nous pourrons observer la cohésion interne du texte, observable via l’usage des connecteurs. Pour ces objectifs, le premier texte de la igure 5.3a apporte des connaissances au même titre

2https ://github.com/jhy/jsoup/

que celui de la Figure 5.3b qui lui, est un récit. Dans le texte de la igure 5.3a nous pouvons observer les diférents termes utilisés pour la description. Les mots “croutée” et “transfo” servent comme adjectifs qui indiquent des états particuliers de la neige. Ainsi, nous notons qu’il existe un certain type de vocabulaire et d’expressions techniques propres au domaine, qui aident à mieux comprendre les conditions de certaines sorties. Dans le récit de la igure 5.3b, nous pouvons remarquer en plus l’usage des connecteurs pour indiquer la progression du parcours, tels que ‘après’ ou ‘puis’. Il est possible aussi d’observer la composition des phrases, notamment l’emploi des pro-noms personnels (comme ‘nous’) et des verbes employés au présent. Enin, il est possible d’observer que l’auteur de cette sortie utilise diférents types de structures de phrases : sans verbe (comme “Première descente”) et avec verbe (“nous remontons au col de Bellefont”). Un autre aspect important est la mention des noms propres qui font référence aux sommets et points remarquables fréquemment visités par les skieurs lorsqu’ils font une sortie, par exemple “col de Bellefont”. Finalement, nous pouvons observer que le style dans lequel la sortie a été rédigée est assez informel et comporte même des fautes de frappe et d’orthographe et des mots incomplets.

La neige dans tous ses états. Globalement croutée, bonne poudreuse en versant nord et ouest abrités du vent. Transfo en dessous de 2000m pour la descente (13h00)

(a) Sortie du 09 mars 2008 vers le sommet pic de la Belle Étoile de Belledonne (http: //www.skitour.fr/sorties/pic-de-la-belle-etoile,11679.html, date de consultation : 14/03/18)

Partis du col de Marcieu ou il y avait déja qeulques voitures, nous suivons les nombreuses traces jusqu’à l’Aulp du Sueil. Puis direction les Lances de Malissard dans une poudre légère à souhait. Première descente du sommet le long des barres rocheses à l’ombre. De la nous remontons au col de Bellefont et rejoignons les lances à pied par les arétes. éme descente tout aussi bonne. Aprés cel la descente du couloir en virgule n’est pas fabuleuse, surtout qu’il y a des bouloches dans la deuxième partie du couloir...

(b) Sortie du 21 janvier 2009 vers le sommet Lances de Malissard (http://www.skitour.fr/ sorties/lances-de-malissard,16674.html, date de consultation : 14/03/18)

Fig. 5.3: Textes appartenant au Corpus fréquentiel, tels qu’ils se trouvent sur le site skitour.fr

Nous avons extrait un total de 2 840 textes contenant 16 592 phrases et 307 456 mots. Le tableau 5.1 présente une synthèse du contenu de ce corpus.

Sommet Massif Nbre de Textes Nbre de Mots Nbre de Phrases

Aiguille de la Grande Sassière Alpes grées 41 7344 368 Chamechaude Chartreuse 643 52880 2832 Charmant Som Chartreuse 514 57347 3014 Croix de Belledonne Belledonne 191 25964 1385 Grand Moretan Belledonne 77 8912 486 Grand pic de Belledonne Belledonne 34 5329 289 Grand Som Chartreuse 382 38339 2173 Grande Moucherolle Vercors 15 1029 52 Lances de Malissard Chartreuse 273 30269 1646

La Pyramide Belledonne 18 2119 130

La Sure Vercors 11 783 44

Pic Bayle Grandes Rousses 37 4025 190 Pic de la Belle Etoile Belledonne 492 51241 2913

Rochers du Midi Chartreuse 33 4036 195

SoeurAgathe Vercors 18 1261 62

Traversée de Belledonne Belledonne 44 13769 655 Traversée de la Chartreuse Chartreuse 6 493 27 Traversée du Vercors Vercors 11 2316 131

Tab. 5.1: Synthèse des textes du Corpus fréquentiel

5.1.3 Corpus textuel de modélisation de l’activité et