L’analyse de régression logistique : objectifs et règles d’interprétation

Chapitre 4 : Méthodologie de l’enquête et techniques statistiques utilisées

4. Les méthodes statistiques utilisées

4.2. L’analyse de régression logistique : objectifs et règles d’interprétation

Afin d’identifier les déterminants de l’informalité des actifs (salariés et non salariés), nous

avons recours à la régression logistique qui est adaptée à la nature de la variable dépendante

(informalité), qui est qualitative et binaire. Cette méthode permet ainsi d’étudier la relation

entre cette variable dépendante dont les modalités sont : 0 (formel) et 1 (informel) et plusieurs

variables explicatives (variables indépendantes).

L’interprétation des résultats du modèle de régression logistique nécessite la connaissance des

règles suivantes :

- la contribution d’une variable indépendante (ou d’un bloc de variables indépendantes) à

l’explication est significative si la probabilité (test de Wald) de la variable est inférieure à

0,05

⁶¹

;

- le signe du coefficient de régression indique le sens de la relation (positive ou négative), qui

fait augmenter ou diminuer la probabilité de connaître l’événement ;

- pour chaque catégorie d’une variable nominale et pour chaque variable continue, le rapport

de côte (Odds Ratio) indique combien de fois, plus ou moins de «chance», on a de connaître

l’événement (représenté par la valeur 1 de la variable dépendante) quand on possède telle

caractéristique de la variable indépendante plutôt que la caractéristique de référence ;

- la constante du modèle s’interprète comme « l’effet » de la catégorie de référence ;

- la table de classification renseigne sur la justesse du modèle (à utiliser en faisant attention à

sa pertinence et au point de coupure). Elle indique la proportion de cas dans l’échantillon qui

seraient bien classés si on décidait de classer dans la catégorie (1) tous les cas dont la

probabilité prédite d’appartenir à la catégorie (1) est supérieure à (0,5), compte tenu de leurs

valeurs sur les variables indépendantes qui sont dans le modèle.

Cependant, un seuil de 0,10 est généralement toléré afin que des variables moins importantes ne soient pas totalement exclues suite à l’importante association de prédicteurs avec la variable dépendante.

Le schéma 7 ci-après retrace l’enchaînement des différentes phases du travail empirique, de la

définition des objectifs de l’enquête au traitement statistique et économétrique des données

recueillies.

Encadré 5 : L’analyse de régression logistique : définition et champ d’application

L’analyse de régression logistique est une méthode qui permet de modéliser la relation entre une variable qualitative à deux modalités (Y) et un ensemble de p variables qui peuvent être quantitatives ou qualitatives (X1, X2, …, Xp) [Grangé et Lebart, 1993]. Elle permet également de connaître l’effet d’une variable sur la variable à expliquer en tenant compte des liaisons qu’elle entretient avec les autres variables du modèle [Lebart et al, 1995]. Elle est surtout utilisée pour vérifier si des variables indépendantes peuvent prédire une variable dépendante dichotomique (modèle de prédiction).

Ici la variable qualitative à expliquer (variable dépendante) est binaire, elle prend deux modalités : Y=1 et Y=0. Cette forme de modélisation 0/1 est l’équivalent d’une probabilité. On note P = P(Y = 1) la probabilité de succès, donc P(Y = 0) = 1− P. La valeur de Y peut dépendre des valeurs prises par P variables explicatives (variables indépendantes) X

1, . . ., Xp. Les n individus caractérisés par l’ensemble des p variables sont partitionnés en deux groupes (I₁ et I₂) définis par les modalités de la variable Y.

Formulation mathématique du modèle de régression logistique

Si la probabilité qu’un individu a d’appartenir au premier groupe I1 (Y = 1) dépend des valeurs des variables explicatives (x1, x2, …, xp) observées sur cet individu.

(x) étant le vecteur dont les composantes sont les valeurs des variables explicatives.

Le modèle de régression logistique, qui donne une estimation de cette probabilité, π(x), s’écrit : π(x) = P (I1/ x) = P (y = 1/ x)

Dans le cas des deux groupes, le modèle logistique s’écrit : P (I1/x) = P (x/I1) P (I1) / P (x/I1) P (I1) + P (x/I₂) P (I₂)

Dans le cas multinomial avec matrices des covariances ∑ égales dans les deux groupes, chacune des deux probabilités conditionnelles s’écrit, pour k = 1, 2 :

P (Ik/x) = (2π)^-p/2 ∑ ^-1/2exp {-1/2 (x - µk) ∑ ^-1 (x - µk)}= P (x/I1) P (I1) / P (x/I2) P (I2) = exp {β’x + b}

(x) désigne le vecteur à p+1 composantes (avec x₀=1 et les autres composantes égales à celles de l’ancien x) et le nouveau vecteur de coefficients est désigné par α, de sorte que β’x + b s’écrit α’x.

Le modèle logistique s’écrit alors :

π(x) = exp{α’x}/ 1+ exp{α’x} = exp{∑αjxj}/ 1+ exp{∑αjxj}/

où les α_j(composantes du vecteur α) sont les coefficients inconnus du modèle. Ceci peut également s’écrire : π(x)/1- π(x) = exp{α’x} ou encore :

log π(x)/1- π(x) = α’x = ∑αjxj

La fonction F (π(x)) = log π(x)/1- π(x) est la fonction Logit

L’estimation des paramètres du modèle logistique s’effectue généralement par la méthode du maximum de vraisemblance et il existe une série de tests pour valider la régression logistique et les coefficients [Lebart et al, 1995 ; Grangé et Lebart, 1993].

Schéma 7: les phases de l’enquête ménages de Bejaia

Source : composé par nos soins Correction du questionnaire

Pré-test du questionnaire Définition des objectifs de l’enquête

Elaboration du questionnaire d’enquête

Définition de l’échantillon et plan de sondage

Réalisation de l’enquête (560 ménages)

Contrôle et vérification des questionnaires

Validation de 522 questionnaires

Saisie informatique des questionnaires validés

Base de données

Vérification et nettoyage de la base de données

Base de données définitive

Traitement statistique et économétrique des données

L’insuffisance de données statistiques (mais aussi d’études académiques) sur le secteur

informel en Algérie nous a conduit à réaliser une enquête représentative au niveau local,

procédé incontournable pour appréhender le secteur informel. Il s’agit d’une enquête type

ménages, qui contrairement à l’enquête type entreprises, permet d’une part de bien cerner les

caractéristiques de l’emploi informel et d’autre part d’appréhender le travail à domicile et la

pluriactivité ; en outre, ce type d’enquête permet à l’instar de l’enquête entreprises de

reconstituer les caractéristiques des entreprises.

L’enquête a été menée dans la wilaya de Bejaia qui fait partie des régions les plus peuplées du

pays et qui abrite un tissu de PME dense et en expansion. Ces PME sont dans leur majorité

des micro-entreprises (92,3%) dont bon nombre appartient au secteur informel comme le

révèle l’enquête et qui opèrent principalement dans les services (54%) et le BTP (22,5%),

deux secteurs réputés pour la présence en leur sein de nombreuses activités informelles.

Grâce au professionnalisme des enquêtrices et à la coopération de la majorité des ménages

enquêtés, l’enquête s’est déroulée globalement dans de bonnes conditions et s’est soldée par

la validation de 522 questionnaires (38 questionnaires, soit 6,7% ont été annulés suite à

l’opération de vérification) qui ont fait aussitôt l’objet de saisie informatique sur le masque de

saisie Access. Ceci a aboutit à l’élaboration d’une base de données fiable que nous avons

exploitée en ayant recours à deux logiciels (SPSS et XLSTAT).

Les principaux résultats issus du traitement statistique et économétrique de cette base de

données sont présentés et analysés dans les chapitres qui suivent. Le chapitre 5 présente,

d’une part, les résultats généraux de l’enquête ainsi que les caractéristiques des actifs salariés

et non salariés de l’enquête et d’autre part les résultats de l’analyse de la mobilité

socioprofessionnelle des actifs. Le chapitre 6 présente les résultats détaillés des deux analyses

effectuées (analyse multidimensionnelle et analyse économétrique) dans le but de vérifier les

hypothèses de départ et enfin le dernier chapitre expose, dans sa première section, une

estimation de la taille du secteur informel et de l’emploi informel sur la base des données de

l’enquête.

Chapitre 5

Caractéristiques générales des entrepreneurs et des

salariés et mobilité socioprofessionnelle

Chapitre 5 : Caractéristiques générales des entrepreneurs et des salariés et mobilité

socioprofessionnelle

L’enquête que nous avons menée auprès de l’échantillon de ménages de la région de Bejaia

nous a permis de recueillir des informations sur les individus occupés (salariés et non salariés)

et leurs ménages mais aussi sur les unités de production. Avant de procéder à l’analyse

multidimensionnelle et économétrique en vue de vérifier les hypothèses de notre recherche, il

est nécessaire de présenter d’abord les caractéristiques générales des sous-échantillons à

analyser. Ainsi, nous présentons dans la première section de ce chapitre les caractéristiques

générales aussi bien des entrepreneurs que des salariés identifiés par l’enquête. Mais avant

cela, nous présentons d’abord dans la même section mais brièvement les résultats généraux de

l’enquête, relatifs aux caractéristiques socio-démographiques de la population totale ainsi que

les caractéristiques générales de la population occupée. La deuxième section est consacrée à

l’analyse de la mobilité socioprofessionnelle des actifs informels (salariés et non salariés)

dont les résultats sont confrontés aux deux modèles de référence en matière de mobilité des

actifs informels (modèle de Fields et modèle de Lopez).

1. Caractéristiques générales des entreprises et des salariés

Dans le document L'économie informelle en Algérie, une approche par enquête auprès des ménages : le cas de Bejaia (Page 98-103)