• Aucun résultat trouvé

CHAPITRE 1 : METHODOLOGIE D’ENQUETE SUR LES

B. Les tests d’hypothèses non paramétriques et analyse de

1. La présentation du test d’hypothèse

Tester une hypothèse revient à rechercher si une proposition sur une population est compatible avec ce que l’on peut induire d’observations sur les individus de cette population. Les tests s’effectuent suivant une certaine démarche :

- On formule l’hypothèse à tester,

- On choisit un test statistique,

- On se fixe une règle en accord avec les lois statistiques qui conditionne l’acceptation ou le rejet de l’hypothèse,

- On calcule, sur la base de l’échantillon, le test statistique,

- On conclut sur l’acceptation ou le rejet de l’hypothèse. « On appelle hypothèse nulle l’hypothèse à tester, et hypothèse alternative, sa négation » (ARAGON, TRINQUIER-ALCOUFFE, 1979).

En géographie, l’étude d’une relation statistique entre caractères sous-entend que l’on a choisi une hypothèse de travail que l’on cherche à valider. Ainsi, la qualité des résultats dépend simultanément de la pertinence de cette hypothèse et de la pertinence des variables sélectionnées. « Une telle étude est toujours basée sur une confrontation entre :

- la situation observée contenue dans la distribution statistique,

- la situation théorique (mathématique) de liaison ou d’indépendance, qu’on doit calculer et qui va servir de référence » (CHAMUSSY et al., 1997).

Dans les ouvrages de statistiques (DODGE, 1993 ; BOURSIN, DURU, 1994 ; MORINEAU, ALUJA- BARRET, 1998) l’on distingue deux groupes de tests statistiques notamment les tests paramétriques et les tests

non paramétriques. Les premiers ont pour objet de tester certaines hypothèses relatives à un paramètre d’une

variable ; les seconds ne sont pas liés à des conditions sur la distribution de la variable. Au regard de nos données, seuls les derniers tests sont possibles notamment le test du Chi-deux. Les tests paramétriques s’appliquent aux variables quantitatives et les tests non paramétriques quant à eux s’appliquent aux variables qualitatives. Généralement, le test du Chi-deux est utilisé pour analyser les tableaux de contingence et il permet de repérer le caractère statistiquement significatif de l’association entre deux variables nominales.

L’hypothèse est formulée sur la valeur d’un indicateur ou sur la distribution d’une variable dans l’ensemble de la population étudiée, ou sur la représentativité d’un échantillon. Les tests ont pour but de confirmer ou d’infirmer une hypothèse. Cette hypothèse porte sur l’ensemble de la population dont est issu notre échantillon, et pour ce faire « le non-respect de cette hypothèse invalide les conclusions que l’on peut tirer de ces tests [non paramétriques] » (GIARD, 2003).

Il s’agit d’étudier si les données de l’échantillon recueillies sont compatibles ou non avec une hypothèse faite sur la population. Ce qui signifie qu’après examen des résultats de l’échantillon, on va pouvoir rejeter ou non l’hypothèse étudiée, avec une faible marge d’erreur si jamais celle-ci est rejetée. Les tests d’indépendance ont pour objectif de contrôler la dépendance ou l’indépendance dans la population, de deux distributions, en tenant compte de l’observation de dépendance faite sur un échantillon aléatoire.

Les tests statistiques suivent un cheminement logique à savoir : la formulation de l’hypothèse nulle, le choix d’un seuil de signification, le choix et la mise en œuvre du test.

- Formulation de l’hypothèse nulle. Il s’agit de déterminer l’hypothèse qui sera acceptée ou rejetée,

selon le résultat du test. En fonction de la formulation de l’hypothèse, on parle d’hypothèse nulle ou d’hypothèse alternative. Qu’en est-il ? « L’hypothèse nulle (H0) est une hypothèse d’absence de différence ; ce sera par exemple l’hypothèse qu’il n’y a pas de différence en ce qui concerne les ventes du produit X entre les régions A et B. Son contraire sera dénommé hypothèse alternative (Ha) ; c’est l’hypothèse que les ventes de X en région A seront différentes de X en région B. Le test pourra être bi directionnel ou unidirectionnel. Si on émet l’hypothèse que les ventes en région A sont supérieures aux ventes en région B, on effectuera un test unidirectionnel puisque l’on a considéré le sens de la différence » (EVRARD et al., 2003).

- Choix d’un seuil de signification. Le seuil de signification d’un test est évalué en termes de

probabilité, il est exprimé en pourcentage. Le choix du seuil de signification a partie liée avec l’utilisateur, lui seul détermine le niveau de risque qu’il pourrait accepter, les valeurs couramment admises sont de l’ordre de 1% ou de 5%. Le seuil de signification est défini a priori selon l’attitude de l’utilisateur en fonction du risque.

- Choix et mise en œuvre du test. Le choix du test dépend de l’hypothèse à tester et des données à notre

possession. Compte tenu du fait que notre enquête n’est composée que de variables nominales dans une large mesure seul le test de Chi-deux de Pearson, test non paramétrique, pourra être appliqué (Cf. Tableau N° 50). Il est utilisé pour étudier l’adéquation d’une distribution observée à une distribution théorique définie a priori et aussi pour mesurer la relation entre deux variables qualitatives. S’appliquant à la géographie, le test de Chi-deux est un outil de recherche des facteurs de différenciation spatiale, en revanche, il faut garder à l’esprit qu’il ne peut être utilisé dans tous les cas de figure.

La mise en œuvre des tests impose qu’une réflexion ait été menée a priori, sinon l’on s’embarquerait sur une voie périlleuse d’autant plus qu’ « il ne faut pas oublier que, si on fixe un seuil de signification à 5% et qu’on teste 100 hypothèses, 5 en moyenne seront acceptées alors qu’elles sont fausses en réalité) ; il peut être tendancieux de ne citer que les résultats significatifs, sans mentionner le nombre d’essais effectués » (Idem). Retenir une hypothèse de test signifie que les données recueillies sont compatibles avec l’hypothèse soumise au test ; il serait opportun de « dire que l’hypothèse est « non rejetée » plutôt qu’ « acceptée », car rien ne prouve que d’autres hypothèses ne seraient pas également acceptables » (Ibidem ). Très souvent, il arrive que l’on cherche à invalider l’hypothèse nulle.

Le test n’a de pertinence que par rapport à l’interprétation qui en est faite, l’essor des programmes d’ordinateurs de plus en plus puissants donne l’illusion de l’objectivité.

2. Les mesures d’association et les tests d’inférence

Il est d’usage de distinguer les mesures d’association entre deux variables des tests d’inférence. Les mesures d’association courantes sont celles qui s’appliquent à deux variables ayant les mêmes niveaux de mesure, c’est le cas notamment du Coefficient de corrélation de Pearson entre variables métriques.

Les tests d’inférence permettent de mesurer l’effet que peut avoir une variable dépendante sur une variable indépendante en fonction du nombre de groupes liés (appariés) ou non liés (indépendants), ainsi « dans le cas où on peut distinguer entre variable dépendante et indépendante, les tests d’inférence sont liés au nombre d’échantillons (deux échantillons ou plus) aux caractéristiques de ces échantillons appariés ou indépendants, et à la mesure de la variable analysée. Ils peuvent également caractériser le niveau de signification de la liaison (symétrique) entre deux variables traduites par une mesure (ou indice) d’association (par exemple, test sur un coefficient de corrélation) » (Ibidem).

L’analyste, dans le cas de l’analyse bivariée, a comme préoccupation de mettre en évidence l’existence d’une association entre deux variables. Pour ce faire, il va procéder au test. De même, il va mesurer la force de cette association par le biais d’un indicateur d’association qui varie entre 0 et 1 « c’est-à-dire allant d’une association nulle à une association « parfaite » (Ibidem). Il peut également étudier la direction, c’est-à-dire se poser la question de savoir si les variables étudiées varient dans le même sens ou en sens contraire, ou étudier la

forme que prennent les variables (linéaire, monotone…).

2.1Les tests d’inférence

Les résultats du tableau de contingence peuvent être fournis soit en valeurs absolues

(effectifs), soit en pourcentages, pour faciliter l’interprétation et la comparaison. Toutefois, la

signification au sens statistique des résultats qui peut être certifiée par le test de Chi-deux se

fonde uniquement sur les effectifs.

Afin de vérifier qu’il existe une relation entre les variables utilisées dans le tableau de contingence, l’on va s’intéresser au comportement des cellules et, l’on tentera de découvrir un « profil ». À partir du tableau ci-après, nous supposerons qu’il existe une relation parfaite entre les mobilités de tourisme et le lieu de provenance.

Tableau N° 6

Table des fréquences observées

Lieux de provenance

Les mobilités de tourisme

Bassin Est Parisien Bassin Ouest Parisien Totaux Colonnes Court séjour 70 85 155 Long séjour 79 82 161 Totaux Lignes 149 167 316

La lecture du tableau est claire, on lit 149 individus du Bassin Est Parisien pratiquant le court séjour et 167 autres du Bassin Ouest Parisien pratiquant le long séjour « ce qui revient à dire que toutes les fréquences qui ne se trouvent pas sur la diagonale principale de la table (la diagonale principale est constituée des cellules sur la direction « nord-ouest » - « sud-est ») sont nulles » (BORN, 2004). La logique de test du Chi-deux va partir de l’hypothèse inverse : l’on part du principe qu’il n’y a pas de relation entre les variables c’est-à-dire que l’hypothèse est nulle (H0) par conséquent, il y a indépendance. S’il est admis que l’hypothèse est vraie alors les

cellules de la table de fréquences croisées adopteront un schéma typique appelé « comportement théorique ». De quoi est-il question ? Revenons pour cela à la table ci-dessus : si effectivement, il n’y a pas de raison de penser que les mobilités de tourisme n’ont aucun lien avec le Bassin Est Parisien pas plus qu’avec le Bassin Ouest Parisien, alors on doit trouver la même proportion de court séjour (et de long séjour) parmi les Bassins Est et Ouest Parisien. La proportion de court séjour dans l’échantillon est de 155/316 soit 49%, la proportion des longs séjours est : 161/316 soit 51%. On applique ces pourcentages au nombre d’individus en provenance du Bassin Est Parisien et à celui du Bassin Ouest Parisien, ce qui donne la table des fréquences « théoriques » ou « calculées » suivante (arrondies à l’unité).

Tableau N° 7

Table des fréquences calculées (ou théoriques)

Lieux de provenance

Les mobilités de tourisme

Bassin Est Parisien Bassin Ouest Parisien Totaux Colonnes Court séjour 73 82 155 Long séjour 76 85 161 Totaux Lignes 149 167 316

En comparant les deux tableaux, l’on remarque que les totaux marginaux n’ont pas changé, seule la distribution des cellules s’est modifiée.

On conclut que si la table des fréquences observées est proche de celle des fréquences calculées, alors l’on admet que les variables de classement n’ont pas de lien, l’hypothèse d’indépendance est vérifiée. En revanche, si la table des fréquences observées s’écarte de celle des fréquences calculées, le doute est permis et l’hypothèse de dépendance est acceptée.

Il est possible à la lecture d’un tableau de contingence de repérer le degré d’association entre deux variables. Cependant dans le cas de grands tableaux ou de légères différences observées, il est indispensable d’avoir recours à une assistance statistique, le test de Chi-deux permet de lever le voile à ce sujet. Le test de Chi-deux permet de tester l’indépendance des variables dans un tableau de contingence, mais il ne constitue pas un

indicateur de la force de l’association entre les variables, compte tenu du fait qu’il n’est pas normé : « lorsque deux phénomènes apparaissent comme dépendants l’un de l’autre, on mesure généralement grâce à un index la force de cette dépendance. Pour les variables de ratio, on calcule un coefficient de corrélation qui indique pour deux variables à la fois le sens et l’intensité de leur degré d’évolution parallèle » (Idem). En cela, il n’est pas possible de comparer un cas à un autre, d’où le recours aux mesures d’association.

2.2Les mesures d’association

Nous faisons le choix à titre indicatif de ne présenter que les mesures d’association qui peuvent s’appliquer aux variables nominales. Ce sont : le Coefficient de contingence, le Coefficient de Tschuprow, le Coefficient de Cramer et le Coefficient d’association prédictive (lambda).

Tableau N° 8

Principaux tests statistiques paramétriques et non paramétriques

Deux échantillons k échantillons Niveau de

mesure appariés indépendants (3)

(Binaire) appariés indépendants (3) (Multimodal) Mesures d'association Nominal Test de

Mc Nemar Test du Chi-deux Test Q de Cochran

Test du Chi-deux pour k échantillons indépendants

Coefficient Phi Q (Yule) Coefficient de contingence Coefficient de Tschuprow V (Cramer)

Index d’association prédictive

Ordinal Test du signe Test de Wilcoxon Test de la médiane Test U de Mann-Witney Test de Kolmogorov- Smirnov Extension du test de la médiane Test de Friedman Test de Kruskal-Wallis

Coefficient de corrélation des rangs : - Rhô (Spearman) - Tau (Kendall) - Gamma (Goodman et Kruskal) Intervalle Extension du test Test de différence de moyennes (1)

Coefficient point bisérial

Extension du test Analyse de variance (1) (ANOVA)

Coefficient de corrélation de Pearson (1)

Coefficient point multisérial (2) (1) Tests paramétriques.

(2) Il s’agit d’un coefficient d’association entre des données métriques d’une part et ordinales d’autre part.

(3) On peut présenter ces méthodes de façon très différente, bien que peu classique dans les manuels. En effet, on peut considérer pour les échantillons indépendants à une variable nominale à deux modalités, et celui de k échantillons indépendants que le cas de deux échantillons correspond à une variable nominale à deux modalités, et celui de k échantillons indépendants à une variable nominale à k modalités, c’est une variable multimodale. Le test revient alors à étudier l’existence d’une liaison entre la variable étudiée dans le problème et cette variable nominale (binaire : deux échantillons indépendants ; ou multimodale : k échantillons indépendants).

Source : (ÉVRARD et al., op. cit., 1993)

Le Coefficient de contingence : il prend la valeur zéro quand χ2 = zéro, ce qui revient à dire qu’il n’y a aucune association. En revanche, sa borne supérieure est inférieure à 1 ; la valeur maximum de C est 0, 707 dans le cas d’un tableau 2 x 2, et 0, 894 dans le cas d’un tableau 5 x 5… Le Coefficient de Tschuprow inclut le nombre de degrés de liberté du tableau. Il ne peut atteindre 1 que pour les tableaux carrés et il n’est comparable que pour les tableaux de même taille. Le Coefficient de Cramer est un coefficient normé, il peut atteindre 1 quelle que soit la taille du tableau. Enfin le Coefficient lambda s’emploie pour des variables nominales « ce coefficient prend une des deux variables comme pivot. Soit Y le pivot, on va essayer de mesurer si la connaissance de l’appartenance d’une observation à une classe de X permet d’améliorer la « prédiction » d’appartenance à une classe de Y. Cet indice est dissymétrique » (EVRARD et al., 2003).

3. Analyse de variance (ANOVA)

Elle est traditionnellement utilisée dans le cadre de l’analyse de données expérimentales. Elle s’utilise également dans l’analyse de données issues d’observations ou d’enquêtes. L’analyse de variance (ANOVA) a pour but de déterminer si une voire plusieurs variables explicatives en l’occurrence les variables qualitatives ont ou non une influence sur une variable à expliquer. En somme, l’ANOVA permet d’effectuer un test sur les moyennes de deux ou plusieurs populations. Habituellement, l’hypothèse nulle est celle de l’égalité de toutes les moyennes. L’ANOVA réclame une variable dépendante de nature métrique et une ou plusieurs variables indépendantes qui doivent toutes être qualitatives (non métriques).

Elle va répondre à des questions comparables à celles qui sont posées dans le cadre de la régression à savoir s’il existe une relation linéaire entre une variable à expliquer et un ensemble de variables explicatives. En outre, dans le cas où une variable explicative aurait un effet significatif sur la variable à expliquer, quelles seraient les modalités de cette variable explicative qui sont à même de rendre le plus compte de cette influence ? Enfin, dans

le cas de plusieurs variables explicatives, y aurait-il des interactions entre ces variables ? Le test s’appuie essentiellement sur la décomposition de la variance totale de la variable à expliquer en deux branches : une variation entre les modalités, on parle de variance intergroupes et une variation au sein des modalités, encore appelée variance intragroupe. Le test consistera à comparer la variance entre modalités à celle intramodalité.

Il existe deux types d’analyse de variance : l’analyse de variance à 1 facteur (une variable explicative) et l’analyse de variance à 2 facteurs avec ou sans interaction. Dans le cadre de notre analyse, nous nous limiterons à la première analyse.

Toutes les méthodes d’analyse de données qui serviront de base de travail viennent d’être présentées. Le logiciel d’analyse statistique “SPSS” servira à effectuer tous les tests qui seront présentés dans le cadre de notre analyse et les analyses descriptives, quant à elles, sont élaborées par le logiciel statistique “SPAD”12. Ces outils d’approche quantitative nous seront utiles pour la vérification de nos hypothèses de recherche (cf. chapitre 2 – Partie II).

Documents relatifs