• Aucun résultat trouvé

Annexes informatiques

B.1 Présentation de la méthode et des logiciels uti- uti-lisés

B.1.1 Création d’une base de données : MySQL et PhpMyAd-min

Pour celui qui doit constituer une base, même d’une seule table, les logiciels de type

« tableurs » classiques (Excel, Calc, etc) offrent des possibilités assez limitées. Le choix du SQL s’imposait donc pour plusieurs raisons. Tout d’abord, ce langage stable et éprouvé

186

procure un cadre connu et balisé, devant éviter les mauvaises surprises. Ensuite, les fa-cilités d’utilisation, en matière de manipulation, modification, transformation de masse des données, étaient essentielles au projet, notamment pour permettre la transformation semi-automatisée des données d’un format textuel à un format numérique1. Ensuite, les capacités de comptage, d’affichage sélectif, permettaient une première phase d’analyse.

Enfin, les capacités d’export à divers formats (CSV, TeX, etc) ont permis la réutilisation de la base dans les autres logiciels choisis. Interopérabilité, stabilité, fonctionnalité, tels sont les critères qui ont guidé le choix de ce langage.

Au niveau du logiciel même, le choix d’une version libre et évolutive, telle que MySQL, par rapport à des logiciels commerciaux comme ceux proposés par Oracle™

tombait sous le sens, notamment en raison de l’utilisation d’un système d’exploitation de type Linux, en l’occurrence Ubuntu. Il a été utilisé en combinaison avec PhPMyAdmin, qui facilite très largement son exploitation.

B.1.2 Analyses statistiques : R et Multivar

Fondé sur le langage S, le langage R2 est un langage de programmation destiné aux calculs mathématiques et statistiques poussés, associées à de nombreuses possibili-tés graphiques. Ses capacipossibili-tés sont largement augmentées par l’existence d’un très grand nombre d’extensions et de « bibliothèques », telle que celle proposée par le laboratoire de Biométrie et Biologie Évolutive (UMR 5558) de l’Université Lyon 1, ADE4, initialement consacrée aux « fonctions d’Analyse de Données destinée d’abord à la manipulation des données Écologiques et Environnementales avec des procédures Exploratoires d’essence Euclidienne »3, et qui procure des facilités dans le domaine des analyses factorielles.

Toujours dans le même domaine, l’extension Multivar, écrite par Alain Guerreau, « qui assouplit et enrichit certaines possibilités de la grande bibliothèque ade4 »4, améliore et facilite les calculs d’analyses factorielles simples ou multiples, notamment pour le domaine des statistiques appliquées à l’histoire ou à la philologie (une fonction, notamment, permet d’appliquer les analyses factorielles aux tableaux d’effectifs lexicaux, selon la procédure proposée par une chercheuse américaine, Susan Dumais5) et en améliore les sorties gra-phiques. Pour ces différentes raisons, on a préféré l’utilisation de R à celle de logiciels payants, même d’un usage courant, comme SAS (qui est utilisé, entre autres, par l’IN-SEE).

1. Parmi les fonctions qui m’ont beaucoup servi, on trouvera autant des fonctions de base ( SE-LECT) que des fonctions plus avancées (SET,UPDATE,COUNT), mais surtout et avant tout la capacité d’utiliser des options multiples (WHERE...=... AND ... LIKE .... AND... NOT LIKE... OR etc).

2. http ://www.r-project.org/ [consulté le 7 juillet 2009].

3. http ://pbil.univ-lyon1.fr/ADE-4/ [consulté le mardi 7 juillet 2009].

4. Alain Guerreau, Multivar.r (version 2.0) : mode d’emploi simplifié, 2008, p. 1.

5. Susan Dumais« Improving the retrieval of information from external sources », dans Behavior Research Methods, Instruments and Computers, t. 23 (1991), p. 229-236

ANNEXE B. ANNEXES INFORMATIQUES 188 Pour faciliter l’utilisation du langage R, on a utilisé Rkward6, qui est une interface graphique, fonctionnant sous KDE, et permet d’importer des bases de données, au for-mat CSV, et qui procure une coloration syntaxique, tout comme de nombreuses autres fonctionnalités facilitant notamment les sorties graphiques et leur affichage, tout comme la modification des données.

Pour ce qui est des méthodes et calculs statistiques qui ont été utilisés, on a centré l’étude autour d’un certain nombre d’analyses factorielles, que l’on a ensuite prolongées par des méthodes moins globales, mais plus fines. D’une manière assez générale, les ana-lyses factorielles se fondent sur la notion de distance, c’est–à–dire la distance relative qui sépare chaque individu ou chaque caractère. Pour réaliser une analyse factorielle multiple, on doit donc disposer d’un tableau listant, pour chaque individu, la ou les modalités cor-respondantes de chaque caractère. C’est à partir d’un tel tableau que le logiciel calcule les distances entre chaque individu (« points–lignes ») ou chaque modalité (« points–

colonnes ») et les points les représentant sont ensuite projetés dans un espace de dimension n, n correspondant au nombre total de colonnes. Le logiciel se livre enfin à la recherche d’un hyperplan séparateur, c’est–à–dire qu’il cherche les deux ou trois axes offrant la meilleure répartition des points.

Les analyses factorielles se distinguent entre elles particulièrement en fonction de la méthode qu’elles utilisent pour calculer les distances. Ces distances, qui sont des distances relatives, sont cependant comparables entre elles. Les trois coefficients les plus usités sont la distance euclidienne, le coefficient de corrélation linéaire et le khi–deux7. La distance euclidienne, fondée sur le théorème de Pythagore, calcule la distance entre deux points comme étant égale à la racine carrée de la somme des carrés de la différence des abscisses et de la différence des ordonnées, c’est–à–dire soit D la distance, x l’abscisse de A et x’

l’abscisse de B et y l’ordonnée de A et y’ l’ordonnée de B : D = q(x−x0)2+ (y−y0)2. Le coefficient de corrélation linéaire, quant à lui, s’appuye sur les calculs de régressions linéaires, exposés plus bas tout comme le khi–deux se fonde sur les écarts à l’indépendance.

Les deux types principaux que j’ai utilisé sont les analyses en composantes princi-pales (ACP) et l’analyse factorielle des correspondances (AFC), avec une préférence nette pour cette dernière. Du point de vue mathématique, l’ACP « utilise le coefficient de cor-rélation linéaire entre les colonnes et la distance euclidienne usuelle entre les lignes »8 et fournit une représentation des points–lignes (individus) en fonction d’axes qui cor-respondent aux colonnes (et donc, aux modalités), la position des points–colonnes étant déduite de la position des nuages de points–lignes.

En revanche, l’AFC opère le même traitement pour les lignes et pour les colonnes et utilise un coefficient de type khi-deux : « toutes les cases sont pondérées par les sommes

6. http ://rkward.sourceforge.net/ [consulté le mardi 7 juillet 2009].

7. Sur ce sujet, voir Alain Guerreau,Statistique pour historien, 2004, p. 45.

8. Ibid., p. 51.

des lignes et des colonnes (fréquences marginales), et ainsi les lignes ne sont traitées que comme des écarts par rapport au « profil moyen » identifié à la ligne-somme et les colonnes, comme des écarts par rapport au « profil moyen » identifié à la colonne-somme »9. D’une façon plus simple, la proximité des points dans l’espace factoriel correspond à l’écart à l’indépendance que l’on obtient en les croisant : plus l’écart à l’indépendance est élevé, plus ils seront proches, et réciproquement. De cette manière, tous les points sont disposés, toujours dans un espace dendimensions, en fonction des distances qui les séparent tous les uns les autres. La représentation graphique que donne l’AFC, toujours une représentation des points selon deux axes choisis parmi les trois axes les plus significatifs, est donc plus immédiatement lisible et plus aisément interprétable.

De façon pratique, et au fil de mes expérimentations, j’en suis toutefois venu à considérer que, lorsque l’on est en présence d’un nombre très élevé de caractères et de modalités, l’étude directe des écarts à l’indépendance obtenus en croisant deux caractères, était d’un intérêt très grand, particulièrement lorsque l’on se rend compte qu’un des caractères a une influence très forte sur un grand nombre des autres. En bref, si les ACP ou AFC permettent de repérer des structures que l’on avait pas forcément identifiées, l’étude individuelle des écarts à l’indépendance permet de vérifier, préciser, affiner les liens qu’entretiennent entre eux les caractères et leurs modalités. Le principe de base du calcul des écarts à l’indépendance est dérisoirement simple : il s’agit de compter les cooccurences de chaque modalité de chacun des deux caractères en les groupant par paires (modalité 1 du caractère A avec modalité 1 du caractère B, modalité 1 du caractère A avec modalité 2 du caractère B, etc) : plus les cooccurences sont fréquentes, plus l’écart à l’indépendance les liant sera positif et élevé (attraction) et réciproquement. Dans la réalité, le calcul est plus complexe, notamment parce que le nombre d’occurences de chacune des modalités est rarement, voire jamais, égal et que le pourcentage de l’effectif total du caractère varie d’une modalité à une autre. Le logiciel définit donc une valeur théorique, pour chaque case, dite valeur d’« indépendance », qui est obtenue en supposant que, si les deux caractères étaient indépendants, le résultat du croisement de la modalité 1 du caractère 1 avec les modalités 1,2,3 du caractère B seraient égaux (et ainsi de suite). Le logiciel calcule ensuite l’écart entre la valeur réelle et la valeur d’indépendance. Cette valeur est fréquemment calculé selon la formule du khi–deux (soit E l’écart et V la valeur théorique : EV2).

Lorsque cet écart est positif, on est face à une attraction des deux modalités ; lors-qu’il est négatif, il s’agit d’une répulsion. Il ne faut toutefois pas perdre de vue deux faits importants : ces valeurs sont relatives, elles ne prennent sens que dans un ensemble fini. Ensuite, certains biais peuvent fausser ces valeurs : si une modalité n’est présente qu’une fois, et si cette seule fois elle est associée à une autre, l’écart à l’indépendance sera très élevé, mais avec un effectif aussi limité cela pourra ne rien vouloir dire. Du point

9. Ibid., p. 52.

ANNEXE B. ANNEXES INFORMATIQUES 190 de vue de la représentation graphique des écarts à l’indépendance, le graphique dit de

« Bertin–Cibois »10 est probablement le plus pratique, représentant une grille croisant les modalités des deux caractères et sur laquelle les écarts sont représentés par des rec-tangles proportionnels, s’élevant au dessus de la ligne pour les attractions et plongeant en dessous pour les répulsions. Cette méthode a toutefois certaines limites, notamment parce qu’elle ne rend pas réellement compte des différences d’effectifs d’une modalité à l’autre, qui peuvent être très grands. Il est donc souhaitable de garder à l’esprit ces valeurs numériques de base.

B.1.3 Autres types d’analyses

Philologic a été utilisé, dans une moindre mesure, pour des recherches d’occurences sur le texte des vidas deA. Le temps a hélas manqué pour l’océrisation des vidas deIK et leur encodage en TEI, ce qui aurait été d’un intérêt certain et aurait rendu l’utilisation de Philologic assez vraisemblablement plus profitable. Malgré tout, la réalisation d’une base de données et de calculs statistiques a été d’emblée préférée à l’utilisation d’outils commePhilologic à dimension uniquement textuelle, car le projet imposait de prendre en compte les dimensions iconographiques et matérielles a égalité avec la dimension textuelle et se concevait avant tout dans l’étude des rapports que celles–ci entretenaient entre elles (« Vocabulaire du texte, vocabulaire de l’image... »).

B.1.4 La mise en page : L

A

TEX

Pour obtenir une mise en page propre, élégante, des facilités de transformation et une bonne gestion de fichiers longs, contenant images et tableaux, LATEXa été choisi. Ce logiciel de traitement de texte a également l’avantage de posséder une certaine interopérabilité avec PhPMyAdmin et R. Pour la bibliographie, usage a été fait de BibTeX , qui permet la gestion de bases de données bibliographiques importantes et gère de façon automatisée les renvois et l’affichage des notices. Un problème a toutefois existé, celui des fichiers de mises en forme pour BibTeX , aucun ne répondant aux normes bibliographiques de l’École nationale des chartes.

10. Du nom de Jacques Bertin, son créateur, et de Philippe Cibois, sociologue qui en a fait très largement usage.