Chapitre 4 : Méthodologie de l’enquête et techniques statistiques utilisées
4. Les méthodes statistiques utilisées
4.2. L’analyse de régression logistique : objectifs et règles d’interprétation
Afin d’identifier les déterminants de l’informalité des actifs (salariés et non salariés), nous
avons recours à la régression logistique qui est adaptée à la nature de la variable dépendante
(informalité), qui est qualitative et binaire. Cette méthode permet ainsi d’étudier la relation
entre cette variable dépendante dont les modalités sont : 0 (formel) et 1 (informel) et plusieurs
variables explicatives (variables indépendantes).
L’interprétation des résultats du modèle de régression logistique nécessite la connaissance des
règles suivantes :
- la contribution d’une variable indépendante (ou d’un bloc de variables indépendantes) à
l’explication est significative si la probabilité (test de Wald) de la variable est inférieure à
0,05
61;
- le signe du coefficient de régression indique le sens de la relation (positive ou négative), qui
fait augmenter ou diminuer la probabilité de connaître l’événement ;
- pour chaque catégorie d’une variable nominale et pour chaque variable continue, le rapport
de côte (Odds Ratio) indique combien de fois, plus ou moins de «chance», on a de connaître
l’événement (représenté par la valeur 1 de la variable dépendante) quand on possède telle
caractéristique de la variable indépendante plutôt que la caractéristique de référence ;
- la constante du modèle s’interprète comme « l’effet » de la catégorie de référence ;
- la table de classification renseigne sur la justesse du modèle (à utiliser en faisant attention à
sa pertinence et au point de coupure). Elle indique la proportion de cas dans l’échantillon qui
seraient bien classés si on décidait de classer dans la catégorie (1) tous les cas dont la
probabilité prédite d’appartenir à la catégorie (1) est supérieure à (0,5), compte tenu de leurs
valeurs sur les variables indépendantes qui sont dans le modèle.
61
Cependant, un seuil de 0,10 est généralement toléré afin que des variables moins importantes ne soient pas totalement exclues suite à l’importante association de prédicteurs avec la variable dépendante.
Le schéma 7 ci-après retrace l’enchaînement des différentes phases du travail empirique, de la
définition des objectifs de l’enquête au traitement statistique et économétrique des données
recueillies.
Encadré 5 : L’analyse de régression logistique : définition et champ d’application
L’analyse de régression logistique est une méthode qui permet de modéliser la relation entre une variable qualitative à deux modalités (Y) et un ensemble de p variables qui peuvent être quantitatives ou qualitatives (X1, X2, …, Xp) [Grangé et Lebart, 1993]. Elle permet également de connaître l’effet d’une variable sur la variable à expliquer en tenant compte des liaisons qu’elle entretient avec les autres variables du modèle [Lebart et al, 1995]. Elle est surtout utilisée pour vérifier si des variables indépendantes peuvent prédire une variable dépendante dichotomique (modèle de prédiction).
Ici la variable qualitative à expliquer (variable dépendante) est binaire, elle prend deux modalités : Y=1 et Y=0. Cette forme de modélisation 0/1 est l’équivalent d’une probabilité. On note P = P(Y = 1) la probabilité de succès, donc P(Y = 0) = 1− P. La valeur de Y peut dépendre des valeurs prises par P variables explicatives (variables indépendantes) X
1, . . ., Xp. Les n individus caractérisés par l’ensemble des p variables sont partitionnés en deux groupes (I1 et I2) définis par les modalités de la variable Y.
Formulation mathématique du modèle de régression logistique
Si la probabilité qu’un individu a d’appartenir au premier groupe I1 (Y = 1) dépend des valeurs des variables explicatives (x1, x2, …, xp) observées sur cet individu.
(x) étant le vecteur dont les composantes sont les valeurs des variables explicatives.
Le modèle de régression logistique, qui donne une estimation de cette probabilité, π(x), s’écrit : π(x) = P (I1/ x) = P (y = 1/ x)
Dans le cas des deux groupes, le modèle logistique s’écrit : P (I1/x) = P (x/I1) P (I1) / P (x/I1) P (I1) + P (x/I2) P (I2)
Dans le cas multinomial avec matrices des covariances ∑ égales dans les deux groupes, chacune des deux probabilités conditionnelles s’écrit, pour k = 1, 2 :
P (Ik/x) = (2π)-p/2 ∑ -1/2 exp {-1/2 (x - µk) ∑ -1 (x - µk)}= P (x/I1) P (I1) / P (x/I2) P (I2) = exp {β’x + b}
(x) désigne le vecteur à p+1 composantes (avec x0 =1 et les autres composantes égales à celles de l’ancien x) et le nouveau vecteur de coefficients est désigné par α, de sorte que β’x + b s’écrit α’x.
Le modèle logistique s’écrit alors :
π(x) = exp{α’x}/ 1+ exp{α’x} = exp{∑αjxj}/ 1+ exp{∑αjxj}/
où les αj (composantes du vecteur α) sont les coefficients inconnus du modèle. Ceci peut également s’écrire : π(x)/1- π(x) = exp{α’x} ou encore :
log π(x)/1- π(x) = α’x = ∑αjxj
La fonction F (π(x)) = log π(x)/1- π(x) est la fonction Logit
L’estimation des paramètres du modèle logistique s’effectue généralement par la méthode du maximum de vraisemblance et il existe une série de tests pour valider la régression logistique et les coefficients [Lebart et al, 1995 ; Grangé et Lebart, 1993].
Schéma 7: les phases de l’enquête ménages de Bejaia
Source : composé par nos soins Correction du questionnaire
Pré-test du questionnaire Définition des objectifs de l’enquête
Elaboration du questionnaire d’enquête
Définition de l’échantillon et plan de sondage
Réalisation de l’enquête (560 ménages)
Contrôle et vérification des questionnaires
Validation de 522 questionnaires
Saisie informatique des questionnaires validés
Base de données
Vérification et nettoyage de la base de données
Base de données définitive
Traitement statistique et économétrique des données