• Aucun résultat trouvé

L’analyse de régression logistique : objectifs et règles d’interprétation

Chapitre 4 : Méthodologie de l’enquête et techniques statistiques utilisées

4. Les méthodes statistiques utilisées

4.2. L’analyse de régression logistique : objectifs et règles d’interprétation

Afin d’identifier les déterminants de l’informalité des actifs (salariés et non salariés), nous avons recours à la régression logistique qui est adaptée à la nature de la variable dépendante (informalité), qui est qualitative et binaire. Cette méthode permet ainsi d’étudier la relation entre cette variable dépendante dont les modalités sont : 0 (formel) et 1 (informel) et plusieurs variables explicatives (variables indépendantes).

L’interprétation des résultats du modèle de régression logistique nécessite la connaissance des règles suivantes :

- la contribution d’une variable indépendante (ou d’un bloc de variables indépendantes) à l’explication est significative si la probabilité (test de Wald) de la variable est inférieure à 0,05 61 ;

- le signe du coefficient de régression indique le sens de la relation (positive ou négative), qui fait augmenter ou diminuer la probabilité de connaître l’événement ;

- pour chaque catégorie d’une variable nominale et pour chaque variable continue, le rapport de côte (Odds Ratio) indique combien de fois, plus ou moins de «chance», on a de connaître l’événement (représenté par la valeur 1 de la variable dépendante) quand on possède telle caractéristique de la variable indépendante plutôt que la caractéristique de référence ;

- la constante du modèle s’interprète comme « l’effet » de la catégorie de référence ;

- la table de classification renseigne sur la justesse du modèle (à utiliser en faisant attention à sa pertinence et au point de coupure). Elle indique la proportion de cas dans l’échantillon qui seraient bien classés si on décidait de classer dans la catégorie (1) tous les cas dont la probabilité prédite d’appartenir à la catégorie (1) est supérieure à (0,5), compte tenu de leurs valeurs sur les variables indépendantes qui sont dans le modèle.

61

Cependant, un seuil de 0,10 est généralement toléré afin que des variables moins importantes ne soient pas totalement exclues suite à l’importante association de prédicteurs avec la variable dépendante.

Le schéma 7 ci-après retrace l’enchaînement des différentes phases du travail empirique, de la définition des objectifs de l’enquête au traitement statistique et économétrique des données recueillies.

Encadré 5 : L’analyse de régression logistique : définition et champ d’application

L’analyse de régression logistique est une méthode qui permet de modéliser la relation entre une variable qualitative à deux modalités (Y) et un ensemble de p variables qui peuvent être quantitatives ou qualitatives (X1, X2, …, Xp) [Grangé et Lebart, 1993]. Elle permet également de connaître l’effet d’une variable sur la variable à expliquer en tenant compte des liaisons qu’elle entretient avec les autres variables du modèle [Lebart et al, 1995]. Elle est surtout utilisée pour vérifier si des variables indépendantes peuvent prédire une variable dépendante dichotomique (modèle de prédiction).

Ici la variable qualitative à expliquer (variable dépendante) est binaire, elle prend deux modalités : Y=1 et Y=0. Cette forme de modélisation 0/1 est l’équivalent d’une probabilité. On note P = P(Y = 1) la probabilité de succès, donc P(Y = 0) = 1− P. La valeur de Y peut dépendre des valeurs prises par P variables explicatives (variables indépendantes) X

1, . . ., Xp. Les n individus caractérisés par l’ensemble des p variables sont partitionnés en deux groupes (I1 et I2) définis par les modalités de la variable Y.

Formulation mathématique du modèle de régression logistique

Si la probabilité qu’un individu a d’appartenir au premier groupe I1 (Y = 1) dépend des valeurs des variables explicatives (x1, x2, …, xp) observées sur cet individu.

(x) étant le vecteur dont les composantes sont les valeurs des variables explicatives.

Le modèle de régression logistique, qui donne une estimation de cette probabilité, π(x), s’écrit :

π(x) = P (I1/ x) = P (y = 1/ x)

Dans le cas des deux groupes, le modèle logistique s’écrit : P (I1/x) = P (x/I1) P (I1) / P (x/I1) P (I1) + P (x/I2) P (I2)

Dans le cas multinomial avec matrices des covariances ∑ égales dans les deux groupes, chacune des deux probabilités conditionnelles s’écrit, pour k = 1, 2 :

P (Ik/x) = (2π)-p/2-1/2 exp {-1/2 (x - µk) ∑-1 (x - µk)}=

P (x/I1) P (I1) / P (x/I2) P (I2) = exp {β’x + b}

(x) désigne le vecteur à p+1 composantes (avec x0 =1 et les autres composantes égales à celles de l’ancien x) et le nouveau vecteur de coefficients est désigné par α, de sorte que β’x + b s’écrit

α’x.

Le modèle logistique s’écrit alors :

π(x) = exp{α’x}/ 1+ exp{α’x} = exp{∑αjxj}/ 1+ exp{∑αjxj}/

où les αj (composantes du vecteur α) sont les coefficients inconnus du modèle. Ceci peut également s’écrire : π(x)/1- π(x) = exp{α’x} ou encore :

log π(x)/1- π(x) = α’x = ∑αjxj

La fonction F (π(x)) = log π(x)/1- π(x) est la fonction Logit

L’estimation des paramètres du modèle logistique s’effectue généralement par la méthode du maximum de vraisemblance et il existe une série de tests pour valider la régression logistique et les coefficients [Lebart et al, 1995 ; Grangé et Lebart, 1993].

Schéma 7: les phases de l’enquête ménages de Bejaia

Source : composé par nos soins

Correction du questionnaire Pré-test du questionnaire Définition des objectifs de l’enquête

Elaboration du questionnaire d’enquête

Définition de l’échantillon et plan de sondage

Réalisation de l’enquête (560 ménages)

Contrôle et vérification des questionnaires

Validation de 522 questionnaires

Saisie informatique des questionnaires validés

Base de données

Vérification et nettoyage de la base de données

Base de données définitive

Traitement statistique et économétrique des données

L’insuffisance de données statistiques (mais aussi d’études académiques) sur le secteur informel en Algérie nous a conduit à réaliser une enquête représentative au niveau local, procédé incontournable pour appréhender le secteur informel. Il s’agit d’une enquête type ménages, qui contrairement à l’enquête type entreprises, permet d’une part de bien cerner les caractéristiques de l’emploi informel et d’autre part d’appréhender le travail à domicile et la pluriactivité ; en outre, ce type d’enquête permet à l’instar de l’enquête entreprises de reconstituer les caractéristiques des entreprises.

L’enquête a été menée dans la wilaya de Bejaia qui fait partie des régions les plus peuplées du pays et qui abrite un tissu de PME dense et en expansion. Ces PME sont dans leur majorité des micro-entreprises (92,3%) dont bon nombre appartient au secteur informel comme le révèle l’enquête et qui opèrent principalement dans les services (54%) et le BTP (22,5%), deux secteurs réputés pour la présence en leur sein de nombreuses activités informelles. Grâce au professionnalisme des enquêtrices et à la coopération de la majorité des ménages enquêtés, l’enquête s’est déroulée globalement dans de bonnes conditions et s’est soldée par la validation de 522 questionnaires (38 questionnaires, soit 6,7% ont été annulés suite à l’opération de vérification) qui ont fait aussitôt l’objet de saisie informatique sur le masque de saisie Access. Ceci a aboutit à l’élaboration d’une base de données fiable que nous avons exploitée en ayant recours à deux logiciels (SPSS et XLSTAT).

Les principaux résultats issus du traitement statistique et économétrique de cette base de données sont présentés et analysés dans les chapitres qui suivent. Le chapitre 5 présente, d’une part, les résultats généraux de l’enquête ainsi que les caractéristiques des actifs salariés et non salariés de l’enquête et d’autre part les résultats de l’analyse de la mobilité socioprofessionnelle des actifs. Le chapitre 6 présente les résultats détaillés des deux analyses effectuées (analyse multidimensionnelle et analyse économétrique) dans le but de vérifier les hypothèses de départ et enfin le dernier chapitre expose, dans sa première section, une estimation de la taille du secteur informel et de l’emploi informel sur la base des données de l’enquête.

Chapitre 5

Caractéristiques générales des entrepreneurs et des

salariés et mobilité socioprofessionnelle

Chapitre 5 : Caractéristiques générales des entrepreneurs et des salariés et mobilité socioprofessionnelle

L’enquête que nous avons menée auprès de l’échantillon de ménages de la région de Bejaia nous a permis de recueillir des informations sur les individus occupés (salariés et non salariés) et leurs ménages mais aussi sur les unités de production. Avant de procéder à l’analyse multidimensionnelle et économétrique en vue de vérifier les hypothèses de notre recherche, il est nécessaire de présenter d’abord les caractéristiques générales des sous-échantillons à analyser. Ainsi, nous présentons dans la première section de ce chapitre les caractéristiques générales aussi bien des entrepreneurs que des salariés identifiés par l’enquête. Mais avant cela, nous présentons d’abord dans la même section mais brièvement les résultats généraux de l’enquête, relatifs aux caractéristiques socio-démographiques de la population totale ainsi que les caractéristiques générales de la population occupée. La deuxième section est consacrée à l’analyse de la mobilité socioprofessionnelle des actifs informels (salariés et non salariés) dont les résultats sont confrontés aux deux modèles de référence en matière de mobilité des actifs informels (modèle de Fields et modèle de Lopez).