Analyse des données - Méthodologie d’analyse des données

METHODOLOGIE D’ENQUETE

2. Méthodologie d’analyse des données

2.2. Analyse des données

Le corpus complet au format texte ainsi constitué a fait l’objet de trois types d’analyse distincts : 1) analyses qualitatives, afin de synthétiser les propos récoltés dans le cadre des entretiens ; 2) analyses quantitatives, et plus précisément lexicométriques, afin d’évaluer l’importance accordée par les différentes catégories d’acteurs à certains sujets ou arguments en fonction de la fréquence d’utilisation de termes ou champs sémantiques spécifiques ; et 3) analyses de réseaux, visant à titre exploratoire, par l’intermédiaire de Gephi, à représenter visuellement les réseaux d’acteurs se structurant autour de la PEM métropolitaine ainsi que les voies de circulation des données de surveillance maritime au sein de ce réseau. Les modalités de ces analyses sont détaillées ci-après.

2.2.1. Analyses qualitatives

À la suite de l’encodage thématique réalisé avec SONAL, le logiciel permet de prioriser -manuellement- des éléments de discours, par l’attribution de notes -allant de 1 à 5- aux extraits de texte, à la manière d’un surlignage plus ou moins intense en fonction de

l’importance accordée aux propos. Cette fonction a été mobilisée afin d’isoler et extraire les éléments de discours répondant précisément aux questions de recherche au sein des 500 pages du corpus complet. La priorisation a été réalisée au cours de deux relectures complètes du corpus, et tous les extraits ayant reçu une note ≥1 ont été rassemblés dans un corpus synthétique, représentant 1/5 du corpus complet, soit approximativement 100 pages. L’ensemble des citations mobilisées dans le chapitre suivant sont extraites de ce corpus synthétique.

2.2.2. Analyses lexicométriques

Le recours à la lexicométrie a été identifié comme un moyen d’apporter une dimension quantitative à l’analyse du corpus d’entretiens. Cette discipline, à la croisée de la linguistique et de la statistique numérique, est apparue pour faciliter l’analyse de discours (politiques, économiques, littéraires, etc.) en portant l’attention sur le vocabulaire utilisé, souvent considéré comme un vecteur de représentations sociales (Ratinaud & Marchand, 2015). Elle a connu un développement important au cours des années 1990, en grande partie grâce aux progrès informatiques, ayant facilité l’élaboration d’un « ensemble de

méthodes permettant d’opérer des réorganisations formelles de la séquence textuelle et des analyses statistiques sur le vocabulaire d’un corpus de textes » (Lebart & Salem, 1994).

Pour ces analyses, le logiciel libre d’analyse IRAMUTEQ (© 2008-2020 Pierre Ratinaud) a été choisi, notamment pour sa compatibilité avec les exports de SONAL. IRAMUTEQ est conçu comme une interface faisant intervenir le logiciel de statistique R et le langage Python afin de traiter et d’analyser un ou plusieurs corpus de texte. La donnée d’entrée d’IRAMUTEQ consiste en un corpus (ici, le corpus complet), au format .txt, au sein duquel des marqueurs (****) permettent de délimiter les différents textes (unité de base, ici : un entretien) et d’y associer des variables (ex. catégorie d’acteurs) qui peuvent ensuite servir l’analyse52. Après avoir découpé ces textes en segments53, puis en mots (« occurrences ») et regroupé en « formes » les occurrences correspondantes aux différentes déclinaisons d’un même

52 La première analyse proposée par IRAMUTEQ consiste en une description statistique générale du corpus de texte sélectionné. Les résultats de cette analyse, qui permettent notamment de confirmer la bonne prise en compte des données d’entrée par le logiciel, sont présentés en Annexe C.

98 terme (par le biais de la lemmatisation54), le logiciel permet de sélectionner les formes à analyser (« formes actives 55 ») des formes à écarter des analyses (« formes supplémentaires ») selon leur nature grammaticale (nom, verbe, adjectif, adverbe, etc.) (Figure 45).

Les analyses de spécificité offerte par le logiciel ont été identifiées comme une opportunité pour décrire la « sur » ou « sous-représentation » de certains termes ou groupes de termes (champs sémantiques) chez les différentes catégories et sous-catégories d’enquêtés, témoins d’intérêts ou de positions particulières face à certaines thématiques.

Ce type d’analyse, conceptualisé par Lafon (1980) est basé sur la comparaison entre la fréquence d’emploi d’une forme dans un texte (rappel : ici, un texte est un entretien) et la fréquence moyenne (i.e. attendue) d’emploi de cette même forme dans le corpus. Cette comparaison permet d’analyser la répartition des formes dans les textes d’un corpus en termes de suremploi (spécificité positive : fréquence observée > fréquence attendue) et de sous-emploi (spécificité négative : fréquence observée < fréquence attendue). Les indices calculés indiquent le degré de spécificité de chaque forme, dont le résultat est considéré comme significatif à partir d’une valeur absolue de 2 (Leblanc, 2015 ; Ratinaud & Marchand, 2015).

54 Verbes conjugués ramenés à l’infinitif, noms et adjectifs accordés ramenés au masculin singulier. Par exemple : « surveiller », « surveillons » et « surveillent » deviennent 3 occurrences de « surveiller » ; « nouveau », « nouveaux », « nouvelle », « nouvelles » deviennent 4 occurrences de « nouveau ».

55 Par la suite, les formes actives considérées sont : les noms communs, propres, les adjectifs et les verbes. FIGURE 45.TRAITEMENTS PRE-ANALYTIQUES DU CORPUS SOUS IRAMUTEQ. SOURCE :DOCUMENTATION

Pour l’analyse, les textes (entretiens) ont été regroupés selon la variable de la catégorie d’acteurs, suivant le postulat selon lequel des vocabulaires spécifiques peuvent se dégager entre ces groupes. Les termes analysés ont été sélectionnés à partir du corpus synthétique produit à l’étape précédente, en fonction de leur pertinence face aux hypothèses de recherche, ainsi que de leur caractère univoque56. Ces derniers sont listés dans le tableau présenté en Annexe D. Par exemple, pour l’hypothèse n°2 liée à la circulation limitée des données de surveillance, l’utilisation du champ sémantique suivant a été analysée : [accessibilité, accessible, accès, accéder, agréger, collecte, collecter, diffuser, disponible, fournir]. Les analyses de spécificité de ces termes ont ensuite été réalisées sur la base du corpus complet.

Les niveaux de spécificité entre ces termes et champs sémantiques (ou formes) et chacune des catégories d’acteurs sont présentés dans le chapitre suivant sous la forme de graphiques

de spécificité présentant en abscisses les 6 catégories et sous-catégories d’acteurs, et en

ordonnées l’indice de spécificité défini ci-dessus.

2.2.3. Analyses de réseaux

Enfin, dans une perspective exploratoire, la conduite d’analyses structurales de réseaux a été proposée sur le corpus complet, avec pour objectif de :

A. Décrire les réseaux d’acteurs associés à la PEM ;

B. Décrire la circulation de ces données et informations descriptives des activités maritimes entre ces acteurs.

Ce type d’analyse, fondé sur la théorie des graphes57, connait un développement important avec l’essor de l’analyse de réseaux sociaux (Social Network Analysis - SNA) (Scott, 1988) et l’étude des phénomènes relationnels entre des entités sociales (acteurs, personnes, institutions) (Beauguitte, 2016). Il permet notamment de fournir des indicateurs descriptifs de la position de chaque entité dans le réseau étudié, de leur « centralité » (taux de relation),

56 En opposition à des termes ambigus, dont le sens peut varier fortement en fonction du contexte d’énonciation.

57 La théorie des graphes est une discipline mathématique et informatique qui étudie les graphes, des modèles de réseaux reliant des objets de nature diverse selon les disciplines : sociale (acteurs, personnes), technique (outils, systèmes), environnementale (espèces, écosystèmes), etc. Ces modèles sont constitués de sommets (aussi appelés nœuds ou points) représentant les objets étudiés, et d'arêtes (aussi appelées liens ou lignes) représentant les relations entre ces sommets.

100 des groupes « cohésifs » qui peuvent s’y distinguer et un résumé graphique de la structure d’ensemble (Lemercier, 2005).

Pour conduire ces analyses, le logiciel libre GEPHI a été choisi. Celui-ci a initialement été conçu pour explorer les liens sociaux virtuels, définir le rôle et l’importance de chaque acteur lors d’une discussion sur le web et les réseaux sociaux ou détecter les acteurs et comptes influents, etc. (Bastian et al., 2009). A partir de données relationnelles, le logiciel utilise un moteur de restitution 3D pour afficher en temps réel un réseau « spatialisé » interactif, qui peut être manipulé de multiples manières (filtres statistiques, algorithmes de spatialisation, mise en page) afin de mettre en évidence des liens entre les différentes entités58 du système, leur degré d’interaction, leur occurrence et leur poids respectif.

Les données d’entrée standards du logiciel consistent en deux matrices au format .csv : 1. Une « matrice d’identification » faisant l’inventaire de toutes les entités du système,

associé à d’éventuelles caractéristiques complémentaires (ex. catégorisation des entités) ;

2. Une « matrice de relations » dressant la liste de toutes les interactions entre ces entités, dirigées ou non, associées à leur poids (intensité de l’interaction), et à d’éventuelles caractéristiques supplémentaires (ex. nature de l’interaction).

Deux jeux de données distincts ont été générés à partir du corpus complet, l’un pour la description des réseaux d’acteurs (objectif A) et l’autre pour la description de la circulation et données et informations descriptives des activités maritimes (objectif B).

Dans le document Contribution des données de surveillance maritime à la Planification de l’Espace Maritime français - AIS, VMS, Radar : Entre potentiels techniques et contraintes politiques (Page 96-100)