• Aucun résultat trouvé

Partie I Problématique et état de l'art

3.2 Les nouveaux tests de validation : Monte-Carlo, bootstrap, jackknife, permu-

3.2.5 Les tests de permutation et de randomisation

On peut voir les tests de permutation comme une alternative combinatoire aux tests d'hy- pothèses des statistiques classiques quand les conditions exigées par ces derniers ne sont pas vériées par les données. Phillip Good, dans son ouvrage consacré à ces tests [96], va plus loin en armant que ce sont les tests d'hypothèses classiques qui sont une alternative théorique aux tests de permutation quand la puissance de calcul est insusante. Citons-le (page 10 de son ouvrage, dans la section intitulé "History") :  World war II provided impetus for developping a theorical basis for parametric procedures that would "serve" in place of the correct but computationnaly demanding permutations.

Les tests de permutation consistent à tester une hypothèse (l'hypothèse nulle H0) sur des données en calculant la proportion de données simulées qui sont au moins aussi extrêmes que les données d'origine selon cette hypothèse. Cette proportion correspond au risque α de se tromper en rejetant H0. Les données simulées sont créées à partir des données d'origine en gardant toutes les observations, toutes les variables et toutes les valeurs présentes dans les données observées, mais en réaectant diéremment les valeurs des variables aux observations sous l'hypothèse H0. Dans la mesure où chaque variable garde globalement le même ensemble de valeurs, il s'agit d'une permutation entre ces dernières. Toutes les permutations possibles sous H0 sont envisagées et comparées aux données d'origine. Le plus ancien de ces tests de permutation, remonte à Fisher (1932), et selon Good ces tests sont redécouverts régulièrement depuis, notamment les tests utilisant les rangs [214, 220, 70] font partie des tests de permutation car ils procèdent par échange des rangs des valeurs.

3.2. Les nouveaux tests de validation : Monte-Carlo, bootstrap, jackknife, permutation, randomisation. Un prédécesseur : le test exact de Fisher

Le test de permutation le plus connu est le test exact de Fisher (1932) que l'on retrouve dans les ouvrages de statistiques de base, à la suite du test du Chi2 d'indépendance [206, 214]. On l'illustre habituellement par un tableau de contingence croisant deux propriétés à deux modalités chacune, donc de quatre cases, avec un eectif très faible dans l'une de cases, et des eectifs un peu plus élevés pour les trois autres, le total n'étant pas très élevé (cf. exemple du tableau 3.1). La question qui se pose est alors de décider si la valeur de l'eectif le plus faible est due à un lien entre les deux propriétés ou au seulhasard. Pour l'établir, on part des eectifs marginaux, comme dans le test du Chi2, mais au lieu de calculer les eectifs théoriques en cas d'indépendance, on fait le compte de toutes les distributions de valeurs conjointes qui auraient pu aboutir aux mêmes eectifs marginaux. Reprenons l'exemple que citent Henri Rouanet, Jean-Marc Bernard et Brigitte le Roux dans leur ouvrage [206] : 5 sujets pour lesquels on aurait relevé les valeurs suivantes de taille et de poids relativement à une taille de 171 cm et un poids de 82 kgs selon le tableau 3.1 :

numéro s1 s2 s3 s4 s5 Taille/Poids + - total

Taille - - + + + + 2 1 3

Poids - - - + + - 0 2 2

Total 2 3 5

Tab. 3.1  Test exact de Fisher : à gauche, les valeurs de 5 sujets pour deux variables, à droite la répartition des 5 sujets selon leurs valeurs.

On remarque dans la partie droite de ce tableau un eectif nul : il n'y a pas de sujets pour lesquels la taille est inférieure à 171 cm (codée '-') et le poids supérieur ou égal à 82 kgs (codé +). Ce qui peut surprendre si on fait l'hypothèse H0 d'indépendance entre les poids et les tailles. Dans le cadre de cette hypothèse nulle, les valeurs des poids peuvent être interchangées sans problème si on ne change pas les tailles61Le nombre d'échantillons diérents obtenus par permutation est

donc 10 (choix des 2 sujets qui auront un '+' parmi les 5, ou ce qui revient au même, des 3 qui auront un '-' parmi les 5),

Dans le tableau 3.2 on a donné les valeurs des poids pour les 10 échantillons, et on a calculé pour chacun le nombre de sujets ayant une petite taille (T='-') et un grand poids (P='+') En première ligne gurent les données réelles. On constate que seulement les 3 premiers échantillons ech1, ech2 et ech3 n'ont aucun sujet de petite taille et de grand poids, alors que 6 échantillons en ont un, le dernier échantillon en ayant deux. Ainsi la probabilité d'avoir si peu de sujets de ce type est de 3/10, bien supérieure au seuil de 5% (et même 10%) en dessous duquel on rejette habituellement l'hypothèse nulle. On ne peut donc rejeter l'hypothèse d'indépendance entre la taille et le poids et on attribue au hasard cet eectif nul. Ce résultat n'est pas étonnant au vu de la faiblesse de l'eectif : en répartissant 5 sujets dans 4 cases, avec des marges équilibrées, on peut s'attendre à obtenir des eectifs nuls plus souvent qu'avec dix fois plus de sujets. L'intérêt de ce petit exemple est de montrer qu'on peut tester l'indépendance62 par simple comptage au

61On pourrait échanger les valeurs des tailles au lieu de celles des poids, cela donnerait le même nombre d'échan-

tillons, et les mêmes échantillons, à la renumérotation des sujets près. On pourrait aussi échanger simultanément les tailles et les poids, cela multiplierait les échantillons, (par 10 dans notre cas) mais chacun serait dupliqué à la renumérotation des sujets près ce même nombre de fois, et on aboutirait au même résultat

62Et pas seulement l'indépendance dans cet exemple, comme le signalent les auteurs, mais également la compa-

Sujet s1 s2 s3 s4 s5

Taille - - + + +

Poids Eectif pour

Échantillon s1 s2 s3 s4 s5 T=- et P=+ ech1 - - - + + 0 ech2 - - + - + 0 ech3 - - + + - 0 ech4 - + - - + 1 ech5 - + - + - 1 ech6 - + + - - 1 ech7 + - - - + 1 ech8 + - - + - 1 ech9 + - + - - 1 ech10 + + - - - 2

Tab. 3.2  En haut la taille xée, en dessous les poids selon les 10 échantillons, à droite le nombre de sujets pour lesquels T='-' et P='+', en gras les données d'origine

lieu d'utiliser des formules complexes valables uniquement dans des conditions spéciques. Ici les eectifs trop petits sont une violation rédhibitoire pour l'application du test du Chi2.

L'art de construire un bon test de permutation

Selon Phillip Good [96], tout test d'hypothèse des statistiques classiques a son équivalent en test de permutation, ce dernier étant dans tous les cas de qualité supérieure ou égale à celui qu'il remplace. Marc Hallin écrit dans le chapitre intitulé "tests sans biais, tests de permutation, tests invariants, tests de rangs" pages 101 à 127 de l'ouvrage [70], que c'est leur absence de biais qui fait leur principal attrait, et que de ce fait, "ils devraient recevoir beaucoup plus d'attention de la part des praticiens". Il existe toutefois une diculté théorique : comment échanger les valeurs sous H0 ? En eet le but d'un test n'est pas de valider H0, mais de la rejeter pour prouver son alternative H1, en utilisant la valeur extrême (ou supposée comme telle) d'une "statistique" calculée sur les données vériant H163. Les permutations ont pour rôle de "rétablir" le hasard

en détruisant le lien dû à H1. Pour pouvoir juger de l'extrémalité de la valeur de la statistique correspondant aux données d'origine, il faut calculer les valeurs pour toutes les permutations. Si cette position extrême est conrmée, elle pourra être attribuée à H1 à condition que les per- mutations n'aient pas cassé d'autres liens dans les données. Et c'est la toute la diculté de ces tests : la construction d'une bonne permutation requiert autant d'ingéniosité que celle d'une bonne expérience (voir la partie 2.1.8 de ce document qui expose les conditions d'une bonne expérience). A cette diculté s'ajoute une diculté pratique due à l'explosion combinatoire du nombre de permutations quand la taille des données augmente. Là encore l'ingéniosité peut per- mettre de réduire le coût informatique. Pour chaque test proposé dans l'ouvrage de Phillip Good [96], la méthode de permutation est décrite en détail ainsi que ses alternatives moins coûteuses

63Dans l'exemple décrit juste avant, la statistique est le nombre de sujets de petite taille et de grand poids,

l'hypothèse nulle H0 est l'indépendance entre taille et poids, l'hypothèse alternative H1 étant que la taille et le poids sont liés positivement, les permutations se faisaient entre les 5 valeurs de la variable "poids" en échangeant seulement des '+' avec des '-', soit 10 permutations au lieu des 120 possibles.

3.2. Les nouveaux tests de validation : Monte-Carlo, bootstrap, jackknife, permutation, randomisation. en temps machine quand elles existent. On peut notamment tirer au hasard des permutations parmi l'ensemble de toutes celles possibles. Cette variante des tests de permutation fait partie des améliorations proposées par l'auteur à la n de son ouvrage et pour Eugène S. Edgington [73] et Bryan E.J. Manly [173], c'est une autre interprétation de ces tests, qu'ils appellent "test de randomisation".

Notons que l'utilisation de ces tirages au hasard impose des précautions supplémentaires. La génération de séquences de nombres par ordinateur pour simuler des tirages au hasard a fait l'objet de nombreux perfectionnements depuis un demi-siècle [176], et des procédures variées ont été dénies pour contrôler la qualité de ce "pseudo-hasard". En cas de doute64 il sut de

faire les tests préconisés an de choisir la fonction de hasard plus appropriée. Mais un autre problème plus dicile est de s'assurer que les permutations que nous tirons au hasard sont bien représentatives de l'ensemble des permutations possibles. Si la permutation a été construite en relation avec une hypothèse complexe et/ou si elle est elle-même complexe, une vérication de la représentativité s'impose à notre avis une fois les tirages eectués. N'ayant pas trouvé, dans les ouvrages traitant de randomisation, de méthodes de contrôle de ce type de qualité, pas plus que dans les articles lus, nous avons tenté d'en construire nous-mêmes dans la partie II, et c'est à la lumière des résultats décevants de nos premiers essais que nous avons pu améliorer notre méthode de randomisation. bootstrap

3.2.6 Conclusion

Les méthodes que nous venons d'exposer permettent à un chercheur en sciences humaines disposant d'un ordinateur et d'une certaine connaissance de l'informatique (allant de l'utilisation approfondie d'un tableur à une petite pratique d'un langage de programmation) d'accompagner les inductions qu'il fait à partir de ses données de toute une panoplie de vérications possibles. Il peut éprouver la valeur de ses estimations ou la stabilité de ses analyses par bootstrap ou jackknife. Il peut éprouver les relations qu'il suppute en créant par des simulations de Monte Carlo des données articielles selon ses hypothèses et en les confrontant à ses propres données ; il peut aussi les éprouver en confrontant ses données à des copies randomisées de celles-ci dans lesquelles les relations ont été supprimées par permutation. Bien sûr, il peut également utiliser les logiciels de traitement des données qui intègrent au fur et à mesure ces nouveaux tests si ses données ou ses hypothèses s'y prêtent. Mais quand il a des données ou des hypothèses très particulières, il peut dorénavant créer lui-même les outils de traitement adaptés à ses données. C'est ce qui se fait depuis un certain temps en écologie [157], mais à notre connaissance, mis à part le bootstrap et le jackknife, ces méthodes ne se sont pas encore généralisées à la psychologie. Ce sont ces raisons qui sont à l'origine de la création d'une méthode à base d'échanges que nous exposons dans la partie II de ce document. Le test de randomisation utilisant cette méthode de permutation a plusieurs buts : traiter des données spéciques (l'exemple traité porte sur des distributions de valeur zipennes, la loi de probabilité d'Estoup-Zipf n'étant prise en compte dans aucun test à notre connaissance), mais également tester des types particuliers de liaisons entre deux variables (les indices de qualité des règles d'association ne disposent pas de tests associés), et échapper au problème des comparaisons multiples [131, 126] (qui rend incertain le calcul des valeurs des tests usuels quand on a une dizaine de variables, et inutilisable quand elles atteignent ou dépassent la centaine)

64"Maurice Clerc invite à "se méer du hasard" dans les pages 71 à 79 de son ouvrage sur "l'optimisation par

essaims particulaires" [53]. Toutefois les procédures d'optimisation sont certainement, de par leur nature, plus sensibles à la qualité du "hasard" que les procédures de randomisation.