• Aucun résultat trouvé

Analyse des données 2 : consolidation et application à l’analyse du marché du travail et du secteur informel au Việt Nam

N/A
N/A
Protected

Academic year: 2021

Partager "Analyse des données 2 : consolidation et application à l’analyse du marché du travail et du secteur informel au Việt Nam"

Copied!
84
0
0

Texte intégral

(1)

Atelier 1

Analyse des données 2 : consolidation et application

à l’analyse du marché du travail et du secteur informel

au Việt Nam

Ludovic Lebart, Marie Piron, Mireille Razafindrakoto,

François Roubaud et Jean-Pierre Cling

(2)
(3)

au Việt Nam

Ludovic Lebart, Marie Piron, Mireille Razafindrakoto,

François Roubaud et Jean-Pierre Cling

Introduction 158

Journée 1, lundi 14 juillet

Objectifs et contexte 169

Concept et definition 171

Les données disponibles 173

Mise en forme et structuration de l’information 175

Journée 2, mardi 15 juillet

Analyse des données 177

Journée 3, mercredi matin 16 juillet

Analyse des données (suite) 181

Journée 4, jeudi 17 juillet

Résultats et interprétation des données 183

Journée 5, vendredi 18 juillet

Présentation des groupes de travail 193

Synthèse et capitalisation 198

Objectif et démarche 198

Acquis méthodologiques 198

Résultats analytiques 199

Annexes

Annexe 1 – Liste des variables 200

Annexe 2 – Présentation des projets 205

Annexe 3 – Présentation de l’enquête VHLSS 221 Annexe 4 – VHLSS 2004 : Presentation of the survey 234

(4)

Dans le prolongement de deux des ateliers proposés en 2007 (« Méthodes exploratoires multidimensionnelles », Ludovic Lebart et Marie Piron, et « Les enquêtes auprès des ménages », équipe IRD-DIAL), nous proposons cette année une application des méthodes d’analyse des données présentées en 2007 pour l’étude du marché du travail et du rôle du secteur informel au Việt Nam. Cet atelier mobilise ainsi des données vietnamiennes disponibles (l’enquête VHLSS 2004) qui ont été collectées par l’OGS en et s’appuie sur les analyses menées dans le cadre du projet IRD-DIAL/OGS.

Introduction

Les enquêtes font appel dans un premier temps aux méthodes de la statistique fondées sur la théorie des sondages et des échantillons représentatifs. Elles font également appel aux méthodes de collecte d’informations auprès d’individus (ou autres unités statistiques). Ces informations peuvent être factuelles ou subjectives, qualitatives ou quantitatives. Enfin, les enquêtes font intervenir dans la phase de traitement des données une vaste panoplie d’outils statistiques pour lesquelles les méthodes d’analyse de données jouent un rôle important. Celles-ci restent néanmoins sous-utilisées, et l’objet de cet atelier est précisément d’en montrer l’utilité dans le cadre d’applications pratiques.

La stratégie à adopter dépend bien évidemment de la formulation claire et précise des objectifs. Ceux-ci orientent les choix à faire dans la mise en œuvre de l’enquête proprement dite, c’est-à-dire de la collecte de données et dans le traitement statistique. Traditionnellement, le dépouillement repose sur la mise en œuvre des techniques simples, éprouvées, faciles à interpréter. Ce sont les tris, les tableaux croisés, c’est-à-dire les calculs de pourcentages d’individus pour chaque modalité d’une variable nominale (variable qualitatives comme le sexe, la région ou la profession) et des calculs de moyennes pour les variables numériques (comme l’âge, les dépenses). Ce sont aussi la construction d’indicateurs tels que des ratios, le croisement de variables nominales… Des méthodes statistiques plus élaborées et plus spécialisées telles que la régression, l’analyse de la variance et l’analyse discriminante viennent parfois compléter ces premiers résultats dans une seconde phase.

La méthodologie proposée ici va au delà des dépouillements traditionnels. Elle repose sur les techniques d’analyse de données (analyse en composantes principales, analyse des corres-pondances simples et multiples, classification ascendante hiérarchique, classification autour de centres mobiles,…). Ces techniques interviennent dès

les premières phases du traitement des données et constituent des outils d’exploration à la mesure des vastes recueils de données. Cette méthodologie permet de contrôler par des représentations visuelles la plupart des étapes de travail, d’accéder à des informations inaccessibles par une exploitation. L’ensemble des opérations vise à donner un point de vue global, sans a priori, sur de vastes ensembles d’information, de façon à en extraire des formes caractéristiques, des structures, des régularités, des patterns. Elle permet ainsi d’objectiver et de structurer les disparités au sein de la population étudiée au-delà de la simple distribution ou de la dispersion d’une variable autour de sa tendance centrale. Elle s’efforce de faire apparaître des groupes homogènes et contrastés, de positionner les variables, les individus, les groupes d’individus les uns par rapport aux autres. Il n’y a pas d’individus, de ménages, de consommateurs, de producteurs moyens, mais une grande diversité qu’il faut décrire et comprendre.

Nous rappellerons, durant cet atelier, les principes des méthodes statistiques exploratoires et les principes de la démarche interactive qui donne lieu à la méthodologie présentée lors de l’Université d’été en Sciences Sociales en 2007.

Nous insisterons toutefois, dans la première partie de ce document, sur la structuration de l’information c’est-à-dire le passage de l’enquête à la mise en forme des données en vue de l’exploitation et à la notion de “Description par Thème”.

Puis dans la seconde partie, nous présenterons une étude d’analyse du marché du travail et des entreprises individuelles au Việt Nam qui s’appuie sur l’enquête VHLSS (Vietnamese Household Living Standard Surveys) de 2004.

L’objectif ultime de cet atelier est la mise en pratique de cette méthodologie sur une application en grandeur réelle (pratique des outils, analyses et interprétation).

Partie I. Structuration des données

et stratégie d’analyse

La stratégie d’analyse de données d’enquête est un processus itératif qui se déroule en trois grandes phases :

– la préparation du tableau de données qui comporte la mise en forme des données, et notamment le codage des variables, et la structuration des données selon les thèmes de l’enquête ;

– l’enchaînement des méthodes factorielles et de classification en utilisant leur complémentarité. Dans le cadre de données d’enquêtes socio-économiques, on aura essentiellement recours à l’analyse des correspondances multiples particulièrement adapté à l’analyse de questionnaires ou encore à l’analyse en

(5)

composantes principales pour un groupe de variables continues constituant un thème ;

– l’interprétation et la critique des résultats qui impose presque systématiquement un retour sur les données soit pour modifier le codage ou pour une meilleure identification des thèmes ou pour éliminer certains effets de certaines variables. La stratégie proposée repose sur le fait que les questions apparaissant dans une enquête peuvent en général être regroupées selon plusieurs thèmes correspondant à différents modules de l’enquête. On procède ensuite à un enchaînement canonique de méthodes utilisant leur complémentarité et la distinction entre éléments actifs et éléments supplémentaires. Cette distinction a des conséquences importantes non seulement pour l’interprétation des résultats mais aussi pour structurer l’ensemble des données et définir un modèle thématique de base.

1. Mise en forme des données

Les techniques d’analyse de données imposent une maîtrise du processus de construction du tableau de données. Les enquêtes peuvent être de structures plus ou moins complexes selon, l’existence éventuelle de plusieurs niveaux d’observation, de dimensions temporelles ou spatiales.

1.1 Du questionnaire au tableau de données

Les données d’enquêtes doivent être mises sous forme de (grands) tableaux rectangulaires, que l’on notera souvent : X. Les lignes (i=1,…,n) du tableau représentent les n individus statistiques correspondant aux sujets enquêtés (ménages, entreprises, personnes), et les colonnes (j=1,…p) représentent les p variables correspondant aux questions et dont les réponses peuvent être des mesures, des caractéristiques, des rangs ou des notes. (schéma en bas de page)

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables : – les variables qualitatives comme le sexe, la

profession, le diplôme, la région, dont les valeurs sont des modalités qu’il faut codifier pour que les opérations algébriques aient un sens. La distribution d’une variable qualitative est donnée par les pourcentages ou encore fréquences (pourcentage d’homme et de femme par exemple).

On distingue les variables nominales pour lesquelles il n’existe pas d’ordre entre les modalités (sexe, activité par exemple), les variables ordinales dont les modalités sont ordonnées (par exemple, les questions d’opinion dont les réponses “tout-à-fait”,”plutôt”, “peu”, “pas du tout” satisfait). Comme cas particulier de variables nominales, les variables logiques possèdent deux modalités (oui/non ou présence/absence) que l’on retrouve par exemple pour la codification de questions à réponses multiples.

– les variables quantitatives dont les valeurs sont prises sur une échelle numérique et sur lesquelles sont effectuées des opérations algébriques telles que la somme, le calcul de moyenne par exemple. La distribution d’une variable quantitative est donnée par les calculs des indicateurs de tendance centrale comme la moyenne, la médiane, le mode et des indicateurs de dispersion comme la variance, l’écart-type, les quantiles.

On distingue les variables continues, comme l’âge, le revenu, la taille par exemple et les variables discrètes comme la taille du ménage, le nombre d’enfants qui possèdent peu de valeurs possibles. Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs. Ces variables, directement issues du questionnaire, constituent les variables de base à partir desquelles il est souvent utile, pour les besoins de l’étude, de construire des variables dérivées. Celles-ci sont des indicateurs répondant à un objectif précis (combinaison de deux variables nominales, ratios tels que le taux d’occupation du logement qui est le rapport du nombre de personnes d’un ménage par le nombre de pièces du logement).

4

Questionnaire Tableau de données

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables :

– les variables qualitatives comme le sexe, la profession, le diplôme, la région, dont les valeurs sont des modalités qu‟il faut codifier pour que les opérations algébriques aient un sens. La distribution d‟une variable qualitative est donnée par les pourcentages ou encore fréquences (pourcentage d‟homme et de femme par exemple).

On distingue les variables nominales pour lesquelles il n‟existe pas d‟ordre entre les modalités (sexe, activité par exemple), les variables ordinales dont les modalités sont ordonnées (par exemple, les questions d‟opinion dont les réponses "tout-à-fait","plutôt", "peu", "pas du tout" satisfait). Comme cas particulier de variables nominales, les variables logiques possèdent deux modalités (oui/non ou présence/absence) que l‟on retrouve par exemple pour la codification de questions à réponses multiples.

– les variables quantitatives dont les valeurs sont prises sur une échelle numérique et sur lesquelles sont effectuées des opérations algébriques telles que la somme, le calcul de moyenne par exemple. La distribution d‟une variable quantitative est donnée par les calculs des indicateurs de tendance centrale comme la moyenne, la médiane, le mode et des indicateurs de dispersion comme la variance, l‟écart-type, les quantiles.

On distingue les variables continues, comme l‟âge, le revenu, la taille par exemple et les variables discrètes comme la taille du ménage, le nombre d‟enfants qui possèdent peu de valeurs possibles. Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs.

Ces variables, directement issues du questionnaire, constituent les variables de base à partir desquelles il est souvent utile, pour les besoins de l‟étude, de construire des variables dérivées. Celles-ci sont des indicateurs répondant à un objectif précis (combinaison de deux variables nominales, ratios tels que le taux d‟occupation du logement qui est le rapport du nombre de personnes d‟un ménage par le nombre de pièces du logement).

Les questions ouvertes renvoient à des réponses libres dont le contenu (valeur) est un texte. C‟est le cas des questions "pourquoi?" qui peuvent expliciter une question fermée ou encore de questions dont on ne veut pas appauvrir la réponse par des items réducteurs. Ces questions peuvent être a posteriori fermées et ramenées alors à des variables nominales avec la constitution d‟une liste d‟items soigneusement constituée. Mais souvent, le fait de laisser libre la réponse est motivé par le désir de s‟affranchir d‟une batterie d‟items et d‟exploiter les réponses telles quelles. Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l‟analyse des correspondances.

Indiv. n question 1 question 2 question j question p 1 j p 1 i n xij valeur de la variable j prise par l'individu i

X =

(n,p) Indiv. i question 1 question 2 question j question p Indiv. 2 question 1 question 2 question j question p Indiv. 1 question 1 question 2 question j question p

...

...

Base de données

Tableau de données

4

Questionnaire Tableau de données

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables :

– les variables qualitatives comme le sexe, la profession, le diplôme, la région, dont les valeurs sont des modalités qu‟il faut codifier pour que les opérations algébriques aient un sens. La distribution d‟une variable qualitative est donnée par les pourcentages ou encore fréquences (pourcentage d‟homme et de femme par exemple).

On distingue les variables nominales pour lesquelles il n‟existe pas d‟ordre entre les modalités (sexe, activité par exemple), les variables ordinales dont les modalités sont ordonnées (par exemple, les questions d‟opinion dont les réponses "tout-à-fait","plutôt", "peu", "pas du tout" satisfait). Comme cas particulier de variables nominales, les variables logiques possèdent deux modalités (oui/non ou présence/absence) que l‟on retrouve par exemple pour la codification de questions à réponses multiples.

– les variables quantitatives dont les valeurs sont prises sur une échelle numérique et sur lesquelles sont effectuées des opérations algébriques telles que la somme, le calcul de moyenne par exemple. La distribution d‟une variable quantitative est donnée par les calculs des indicateurs de tendance centrale comme la moyenne, la médiane, le mode et des indicateurs de dispersion comme la variance, l‟écart-type, les quantiles.

On distingue les variables continues, comme l‟âge, le revenu, la taille par exemple et les variables discrètes comme la taille du ménage, le nombre d‟enfants qui possèdent peu de valeurs possibles. Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs.

Ces variables, directement issues du questionnaire, constituent les variables de base à partir desquelles il est souvent utile, pour les besoins de l‟étude, de construire des variables dérivées. Celles-ci sont des indicateurs répondant à un objectif précis (combinaison de deux variables nominales, ratios tels que le taux d‟occupation du logement qui est le rapport du nombre de personnes d‟un ménage par le nombre de pièces du logement).

Les questions ouvertes renvoient à des réponses libres dont le contenu (valeur) est un texte. C‟est le cas des questions "pourquoi?" qui peuvent expliciter une question fermée ou encore de questions dont on ne veut pas appauvrir la réponse par des items réducteurs. Ces questions peuvent être a posteriori fermées et ramenées alors à des variables nominales avec la constitution d‟une liste d‟items soigneusement constituée. Mais souvent, le fait de laisser libre la réponse est motivé par le désir de s‟affranchir d‟une batterie d‟items et d‟exploiter les réponses telles quelles. Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l‟analyse des correspondances.

Indiv. n question 1 question 2 question j question p 1 j p 1 i n xij valeur de la variable j prise par l'individu i

X =

(n,p) Indiv. i question 1 question 2 question j question p Indiv. 2 question 1 question 2 question j question p Indiv. 1 question 1 question 2 question j question p

...

...

(6)

160 Les Journées de Tam Đảo 2008

Les questions ouvertes renvoient à des réponses libres dont le contenu (valeur) est un texte. C’est le cas des questions “pourquoi ?” qui peuvent expliciter une question fermée ou encore de questions dont on ne veut pas appauvrir la réponse par des items réducteurs. Ces questions peuvent être a posteriori fermées et ramenées alors à des variables nominales avec la constitution d’une liste d’items soigneusement constituée. Mais souvent, le fait de laisser libre la réponse est motivé par le désir de s’affranchir d’une batterie d’items et d’exploiter les réponses telles quelles. Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l’analyse des correspondances.

Construire un tableau de données issues d’enquête correspond à faire le choix des lignes c’est-à-dire de l’unité statistique dont l’ensemble constitue la population d’étude (des variables et des valeurs qui répondront au mieux à l’objectif fixé par l’étude).

1.2 Cas d’enquêtes à structure complexe

Il est courant que des enquêtes révèlent en fait une structure plus complexe et qu’au sein d’un même questionnaire soient collectées des informations concernant des types d’unités d’observation différentes et possédant leur propre jeu de caractéristiques. Ce sont des enquêtes à plusieurs niveaux d’observation. D’autres enquêtes, comme les panels, font l’objet de passages répétés. D’autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D’autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d’observation

Prenons par l’exemple d’une enquête Habitat : des logements sont observés (statut, type, matériaux de construction, équipements,…) et au sein de ceux-ci sont enquêtés tous les ménages (caractéristiques socio-économiques du chef de ménage) et tous les membres de ces ménages (caractéristiques socio-économiques). La structure de l’information est hiérarchique et se présente sous la forme suivante :

Structure hiérarchique de l’information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

L’intérêt d’une telle enquête est de mettre en relation les trois niveaux d’observation. On peut procéder : – soit par affectation (ou en désagrégation) en

répétant l’information des logements (respective-ment sur les ménages) autant de fois qu’il y a de personnes dans le logement (respectivement le ménages) :

– soit par agrégation en sommant l’information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d’être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d’étude est le ménage, on désagrège l’information du logement et l’on agrège celle des membres au niveau du ménage.

5

Construire un tableau de données issues d‟enquête, c‟est donc faire le choix des lignes dire de l‟unité statistique dont l‟ensemble constitue la population d‟étude, des colonnes c‟est-à-dire des variables et des valeurs qui répondront au mieux à l‟objectif fixé par l‟étude.

1.2 Cas d’enquêtes à structure complexe

Il est courant que des enquêtes révèlent en fait une structure plus complexe et qu‟au sein d‟un même questionnaire soient collectées des informations concernant des types d‟unités d‟observation différentes et possédant leur propre jeu de caractéristiques. Ce sont des enquêtes à plusieurs niveaux d‟observation. D‟autres enquêtes, comme les panels, font l‟objet de passages répétés. D‟autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D‟autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d‟observation

Prenons par l‟exemple d‟une enquête Habitat : des logements sont observés (statut, type, matériaux de construction, équipements, …) et au sein de ceux-ci sont enquêtés tous les ménages (caractéristiques socio-économiques du chef de ménage) et tous les membres de ces ménages (caractéristiques socio-économiques).

La structure de l‟information est hiérarchique et se présente sous la forme suivante :

Housing Household

Member

Structure hiérarchique de l‟information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

Housing Household Member 1 . . p 1 . . m 1 . .. . n

Id.HS var. Housing Id.HH var. Household Id.MB var. Member

Tableaux de données correspondant à chacun des trois niveaux d‟observation

L‟intérêt d‟une telle enquête est de mettre en relation les trois niveaux d‟observation. On peut procéder :

– soit par affectation (ou en désagrégation) en répétant l‟information des logements (respectivement sur les ménages) autant de fois qu‟il y a de personnes dans le logement (respectivement le ménages) :

5

même questionnaire soient collectées des informations concernant des types d‟unités d‟observation différentes et possédant leur propre jeu de caractéristiques. Ce sont des enquêtes à plusieurs niveaux d‟observation. D‟autres enquêtes, comme les panels, font l‟objet de passages répétés. D‟autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D‟autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d‟observation

Prenons par l‟exemple d‟une enquête Habitat : des logements sont observés (statut, type, matériaux de construction, équipements, …) et au sein de ceux-ci sont enquêtés tous les ménages (caractéristiques socio-économiques du chef de ménage) et tous les membres de ces ménages (caractéristiques socio-économiques).

La structure de l‟information est hiérarchique et se présente sous la forme suivante :

Housing Household

Member

Structure hiérarchique de l‟information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

Housing Household Member 1 . . p 1 . . m 1 . .. . n

Id.HS var. Housing Id.HH var. Household Id.MB var. Member

Tableaux de données correspondant à chacun des trois niveaux d‟observation

L‟intérêt d‟une telle enquête est de mettre en relation les trois niveaux d‟observation. On peut procéder :

– soit par affectation (ou en désagrégation) en répétant l‟information des logements (respectivement sur les ménages) autant de fois qu‟il y a de personnes dans le logement (respectivement le ménages) :

Tableaux de données correspondant à chacun des trois niveaux d’observation

6

var. Housing var. Household var. Member

Id. HS HH MB 1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 .... p m n population Members

Tableau de données au niveau des membres du ménage

– soit par agrégation en sommant l‟information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d‟être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d‟étude est le ménage, on désagrège l‟information du logement et l‟on agrège celle des membres au niveau du ménage.

1 . . p

Id.HS var. Housing var. Household var. Member

population Housings

Aggregate var. Tableau de données au niveau des logements 1 1 2 1 2 2 ... p m var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var. Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

Tableau de données au niveau des membres du ménage

6

var. Housing var. Household var. Member

Id. HS HH MB 1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 .... p m n population Members

Tableau de données au niveau des membres du ménage

– soit par agrégation en sommant l‟information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d‟être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d‟étude est le ménage, on désagrège l‟information du logement et l‟on agrège celle des membres au niveau du ménage.

1 . . p

Id.HS var. Housing var. Household var. Member

population Housings

Aggregate var. Tableau de données au niveau des logements 1 1 2 1 2 2 ... p m var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var. Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

(7)

161 Analyse des données 2

Face à une structure hiérarchique de l’information, on dispose ainsi autant de populations statistiques qu’il y a de niveaux d’observation.

b) Enquêtes à passages répétés

Dans le cadre d’enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d’observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d’un passage à l’autre ;

- la périodicité des passages d’enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

La structure des données d’un tel dispositif peut être représentée de la manière suivante :

Ce cas de figure se ramène à une analyse d’enquête classique où nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période. - Les échantillons sont indépendants (populations I1

et I2), et l’ensemble des variables, J, est identique On dispose du tableau de données suivant :

Cette situation permet surtout l’émergence d’une tendance globale de l’évolution et d’en saisir les caractéristiques.

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

Deux tableaux de données sont possibles : L’échantillon est renouvelé toutes les deux périodes.

Différents cas de figures sont posées pour la construction du tableau de données :

- L’échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

6

var. Housing var. Household var. Member

Id. HS HH MB 1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 .... p m n population Members

Tableau de données au niveau des membres du ménage

– soit par agrégation en sommant l‟information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d‟être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d‟étude est le ménage, on désagrège l‟information du logement et l‟on agrège celle des membres au niveau du ménage.

1 . . p

Id.HS var. Housing var. Household var. Member

population Housings

Aggregate var. Tableau de données au niveau des logements 1 1 2 1 2 2 ... p m var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var. Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

Tableau de données au niveau du ménage

7

La structure des données d‟un tel dispositif peut être représentée de la manière suivante :

Période 1 Période 2 J et J1 J et J2 Population I1 Population I PopulationI2

L‟échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L‟échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Ce cas de figure se ramène à une analyse d‟enquête classique où nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période.

Les échantillons sont indépendants (populations I1 et I2), et l‟ensemble des variables, J, est identique

On dispose du tableau de données suivant : J

Période 1 I1

Période 2 I2

Cette situation permet surtout l‟émergence d‟une tendance globale de l‟évolution et d‟en saisir les caractéristiques.

7

La structure des données d‟un tel dispositif peut être représentée de la manière suivante :

Période 1 Période 2 J et J1 J et J2 Population I1 Population I PopulationI2

L‟échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L‟échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Ce cas de figure se ramène à une analyse d‟enquête classique où nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période.

Les échantillons sont indépendants (populations I1 et I2), et l‟ensemble des variables, J, est identique

On dispose du tableau de données suivant : J

Période 1 I1

Période 2 I2

Cette situation permet surtout l‟émergence d‟une tendance globale de l‟évolution et d‟en saisir les caractéristiques. 7 Population I1 Population I PopulationI2

L’échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L’échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Ce cas de figure se ramène à une analyse d’enquête classique où nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période.

Les échantillons sont indépendants (populations I1 et I2), et l’ensemble des variables, J, est identique

On dispose du tableau de données suivant :

J

Période 1 I1

Période 2 I2

Cette situation permet surtout l’émergence d’une tendance globale de l’évolution et d’en saisir les caractéristiques.

8

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La maîtrise du codage, et de sa part d’arbitraire, est fondamentale pour le praticien de l’analyse des données. Nous avons vu que la constitution du tableau de données nécessite implicitement une première codification. Mais selon la nature de la variable et surtout selon la stratégie d’analyse et la méthode utilisée, une recodification s’impose.

Rappelons que l’analyse des correspondances multiples est destinée à un ensemble de variables qualitatives et nécessite un découpage des variables quantitatives en classe si celles-ci interviennent en éléments actifs.

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Cette étape de codification dans le processus d’exploitation est sans doute la plus délicate et la plus fondamentale pour une cohérence des résultats. On pourra être amené à modifier le découpage d’une variable nominale. Lorsque l’on cherche ainsi à découper une variable en classes, on est confronté à plusieurs problèmes : combien de classes choisir et comment les choisir ? Où placer les bornes des classes d’une variable continue ?

Néanmoins, il est difficile de présenter des techniques de codage car il s’agit justement d’opérations empiriques qui dépendent trop de la discipline qui les met en œuvre, et trop du problème traité. Nous pouvons juste rappeler, dans le cadre de traitement de données d’enquêtes socio-économiques, les quelques règles liées au codage disjonctif complet. Certains principes,

8

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La maîtrise du codage, et de sa part d’arbitraire, est fondamentale pour le praticien de l’analyse des données. Nous avons vu que la constitution du tableau de données nécessite implicitement une première codification. Mais selon la nature de la variable et surtout selon la stratégie d’analyse et la méthode utilisée, une recodification s’impose.

Rappelons que l’analyse des correspondances multiples est destinée à un ensemble de variables qualitatives et nécessite un découpage des variables quantitatives en classe si celles-ci interviennent en éléments actifs.

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Cette étape de codification dans le processus d’exploitation est sans doute la plus délicate et la plus fondamentale pour une cohérence des résultats. On pourra être amené à modifier le découpage d’une variable nominale. Lorsque l’on cherche ainsi à découper une variable en classes, on est confronté à plusieurs problèmes : combien de classes choisir et comment les choisir ? Où placer les bornes des classes d’une variable continue ?

Néanmoins, il est difficile de présenter des techniques de codage car il s’agit justement d’opérations empiriques qui dépendent trop de la discipline qui les met en œuvre, et trop du problème traité. Nous pouvons juste rappeler, dans le cadre de traitement de données d’enquêtes socio-économiques, les quelques règles liées au codage disjonctif complet. Certains principes,

8

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La maîtrise du codage, et de sa part d’arbitraire, est fondamentale pour le praticien de l’analyse des données. Nous avons vu que la constitution du tableau de données nécessite implicitement une première codification. Mais selon la nature de la variable et surtout selon la stratégie d’analyse et la méthode utilisée, une recodification s’impose.

Rappelons que l’analyse des correspondances multiples est destinée à un ensemble de variables qualitatives et nécessite un découpage des variables quantitatives en classe si celles-ci interviennent en éléments actifs.

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Cette étape de codification dans le processus d’exploitation est sans doute la plus délicate et la plus fondamentale pour une cohérence des résultats. On pourra être amené à modifier le découpage d’une variable nominale. Lorsque l’on cherche ainsi à découper une variable en classes, on est confronté à plusieurs problèmes : combien de classes choisir et comment les choisir ? Où placer les bornes des classes d’une variable continue ?

Néanmoins, il est difficile de présenter des techniques de codage car il s’agit justement d’opérations empiriques qui dépendent trop de la discipline qui les met en œuvre, et trop du problème traité. Nous pouvons juste rappeler, dans le cadre de traitement de données d’enquêtes socio-économiques, les quelques règles liées au codage disjonctif complet. Certains principes,

(8)

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La maîtrise du codage, et de sa part d’arbitraire, est fondamentale pour le praticien de l’analyse des données. Nous avons vu que la constitution du tableau de données nécessite implicitement une première codification. Mais selon la nature de la variable et surtout selon la stratégie d’analyse et la méthode utilisée, une recodification s’impose.

Rappelons que l’analyse des correspondances multi-ples est destinée à un ensemble de variables qualitatives et nécessite un découpage des variables quantitatives en classe si celles-ci interviennent en éléments actifs. La consultation de la distribution de chacune des varia-bles (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Cette étape de codification dans le processus d’exploitation est sans doute la plus délicate et la plus fondamentale pour une cohérence des résultats. On pourra être amené à modifier le découpage d’une variable nominale. Lorsque l’on cherche ainsi à découper une variable en classes, on est confronté à plusieurs problèmes : combien de classes choisir et comment les choisir ? Où placer les bornes des classes d’une variable continue ?

Néanmoins, il est difficile de présenter des techniques de codage car il s’agit justement d’opérations empiriques qui dépendent trop de la discipline qui les met en œuvre, et trop du problème traité. Nous pouvons juste rappeler, dans le cadre de traitement de données d’enquêtes socio-économiques, les quelques règles liées au codage disjonctif complet. Certains principes, déduits des propriétés de l’analyse des correspondances multiples, peuvent être utilisés pour guider la phase de recodage :

– constituer des modalités d’effectifs semblables : on évite ainsi des modalités de faible effectif dont la part d’inertie est importante. En effet, il arrive que les modalités rares, qui concernent peu d’individus, construisent à elles seules les premiers facteurs de l’analyse. Ceux-ci décrivent donc des phénomènes marginaux et il est souvent plus intéressant de dégager des phénomènes plus généraux. Pour le découpage en classe des variables continues, on pourra s’appuyer sur des seuils fournis par l’examen de l’histogramme ;

– découper les variables de manière à avoir un nombre semblable de modalités : une variable contribue d’autant plus à la formation des axes qu’elle possède davantage de modalités. Pour que les variables puissent intervenir de la même manière, il est préférable que les variables soient découpées en un nombre semblable de modalités lorsque cela est possible ;

– et un nombre limité de modalités : ce que l’on croit gagner en information par un découpage fin n’est pas forcément traduit dans l’analyse (surtout si l’effectif de l’échantillon est faible). Un tel découpage crée de nombreuses modalités d’effectif faible ce qui, nous avons vu, est source d’instabilité pour l’analyse des correspondances multiples.

Afin de lire l’information principale sur graphiques utilisant les premiers axes principaux, il est donc conseillé de construire des variables n’ayant pas trop de modalités mais suffisamment malgré tout pour ne pas regrouper des situations variées dans une même catégorie. Pour donner un ordre de grandeur, un découpage entre 4 à 8 modalités est convenable.

Il s’agit par conséquent de trouver un compromis entre un découpage techniquement acceptable selon ces principes et un découpage qui exhibe au mieux l’information à retenir. On ne peut donc avoir recours à des algorithmes aveugles pour élaborer un découpage satisfaisant. On retiendra par exemple une modalité de faible effectif si celle-ci est importante pour l’étude. De même pour sélectionner les bornes des classes d’une variable continue, on respectera un ou plusieurs seuils naturels dans le contexte de l’étude ou significatifs après examen de l’histogramme (le découpage en classes d’amplitudes égales est parfois inapproprié).

En pratique, il est conseillé d’adopter dans un premier temps un découpage relativement fin des variables. Des facteurs triviaux peuvent suggérer ensuite d’autres regroupements sur les classes : par exemple deux modalités d’une même variable qui sont toujours proches sur les plans factoriels, peuvent être regroupées en une même catégorie. Le principe de l’équivalence distributionnelle (cf. Document atelier 1 - Actes 2007) assure que ces regroupements ne peuvent bouleverser les résultats.

Ces principes sont moins stricts pour une variable supplémentaire. N’intervenant pas dans la formation des facteurs ou des classes, on a parfois intérêt à effectuer un découpage fin pour les variables supplémentaires.

2. La « Description par thème »

Les phénomènes que l’on cherche à décrire sont généralement complexes car multidimensionnels. Ils peuvent difficilement être représentés par les variables prises une à une mais sont généralement définis par la combinaison de ces variables. Celles-ci doivent répondre à une cohérence dans leur contenu vis-à-vis de l’information recherchée. L’intérêt du contenu réside dans les liaisons, redondances ou exclusions, existant entre ces variables. Elles forment ainsi un groupe homogène relatif, en général, à un même thème de l’enquête. Par conséquent, le choix

(9)

de ces variables et donc du thème est fondamental et impose une problématique bien définie.

L’idée consiste donc à travailler au niveau des thèmes et non au niveau des variables. Il est important d’obtenir une description des individus d’un seul point de vue. On se restreint donc à prendre en compte, par analyse, un seul thème jouant un rôle actif dans la construction des facteurs ou de la typologie. Le choix du thème et donc des variables actives définit ainsi un “modèle thématique”. Sur ce modèle descriptif, on positionne ensuite en supplémentaire toute l’information disponible sur ces mêmes individus. Cette information est alors susceptible d’aider à interpréter et à définir les axes ou les classes obtenus à partir des seules variables actives.

Aussi, bien que la notion de modèle en analyse de données puisse sembler sans objet (il est dangereux de tester sur des données un modèle découvert sur ces mêmes données), la simple distinction entre variables actives et variables supplémentaires est déjà un modèle. Il est analogue à celui de la régression multiple ou de l’analyse discriminante dont il constitue une variante descriptive.

2.1 Usage du modèle thématique

Il faut considérer qu’une analyse exploratoire fixée fournit un point de vue sur les données, point de vue déterminé par le choix du thème c’est-à-dire celui des éléments actifs. De ce choix résulte un modèle thématique défini par un plan factoriel ou une typologie. Il constitue une grille de référence prête à accueillir différents tissages apportés par les autres thèmes de l’enquête mis en supplémentaires.

Dans le domaine des enquêtes de type socio-économique traitant d’un ou de plusieurs thèmes (opinions, attitude, comportement, etc.), les individus enquêtés sont généralement identifiés par une série de variables socio-économiques relatives au thème « signalétique ». La démarche souvent adoptée est de prendre comme variables actives les éléments de ce thème. L’analyse proprement dite (c’est-à-dire le calcul du plan factoriel à partir de ces seules variables actives) permet de construire

une grille socio-économique qui servira principalement à accueillir, comme éléments supplémentaires, les autres caractéristiques des individus enquêtés. La configuration de la grille obtenue doit être la plus stable possible.

On pourra utiliser des méthodes de ré-échantillonnage pour éprouver cette stabilité.

Il est possible, si le questionnaire s’y prête, d’envisager l’élaboration de plusieurs types de grilles privilégiant chacune certains aspects des caractéristiques des individus. En effet des variables supplémentaires,

qui formeraient un groupe homogène définissant un autre thème, peuvent devenir les variables actives d’une nouvelle analyse. Dans cette analyse les anciennes variables actives deviennent supplémentaires.

Ainsi pour une enquête d’opinion par exemple, on peut adopter deux démarches selon les objectifs de l’étude. On peut décrire les mêmes individus en fonction de : – leurs caractéristiques socio-économiques :

on obtient une typologie des comportements socio-économiques de la population. En mettant en supplémentaire les variables relatives au thème même de l’enquête, on a une connaissance des opinions des groupes d’individus structurés par leurs caractéristiques socio-économiques ;

– leurs opinions : on obtient les profils des différents modes d’opinion de la population. Les variables supplémentaires relatives au signalétique permet-tent d’associer à ces profils les attributs socio-économiques qui les caractérisent.

Ces deux approches conduisent à deux typologies différentes des mêmes individus. Selon les objectifs fixés pour étudier la population, on orientera l’angle de prise de vue sur un thème spécifique.

2.2 Construction d’un modèle socio-économique

Sur l’exemple ci-dessous, la population est décrite par les principales variables du signalétique (âge, sexe, statut matrimonial, activité) faisant apparaître classiquement le “cycle de vie”.

On positionne en tant que variables supplémentaires des questions d’opinions relatives à la famille. Le profil qui définit le début du cycle de vie (jeunes, célibataires, étudiants) est formé de répondants qui pensent que les conditions de vie s’améliorent et que la famille n’est pas le seul endroit où l’on se sent bien. Puis lorsque l’on avance dans le cycle de vie (actifs, mariés, divorcés, …), les personnes pensent que la société n’a pas besoin d’être transformée. Les personnes qui caractérisent la fin du cycle de vie pensent que la famille est le seul endroit où l’on se sent bien, que les conditions de vie à venir ne changeront pas et ne savent pas si la société doit être transformée.

11 2.2 Construction d‟un modèle socio-économique

Sur l‟exemple ci-dessous, la population est décrite par les principales variables du signalétique (âge, sexe, statut matrimonial, activité) faisant apparaître classiquement le "cycle de vie". On positionne en tant que variables supplémentaires des questions d‟opinions relatives à la famille. Le profil qui définit le début du cycle de vie (jeunes, célibataires, étudiants) est formé de répondants qui pensent que les conditions de vie s‟améliorent et que la famille n‟est pas le seul endroit où l‟on se sent bien. Puis lorsque l‟on avance dans le cycle de vie (actifs, mariés, divorcés, …), les personnes pensent que la société n‟a pas besoin d‟être transformée. Les personnes qui caractérisent la fin du cycle de vie pensent que la famille est le seul endroit où l‟on se sent bien, que les conditions de vie à venir ne changeront pas et ne savent pas si la société doit être transformée.

F1

F2

intermédiaire

variables "opinion" supplémentaires

F1 F2 étud. célib. concubin. hom. fem. marié actif sans prof. veuf retrait. âge début fin intermédiaire

variables socio-économiques actives

chôm. divor.

cond. vie : nsp transf. société:nsp

famille : oui cond. vie: pareil non satisf. santé

famille non

cond. vie améliorer transf. société:non mar. dissout si accord

fin

début Grille socio-économique

2.3 Construction d‟une grille d‟opinion

L‟échantillon est cette fois décrit en fonction des associations structurelles entre les différentes opinions émises sur la famille et le mariage. Les attributs socio-économiques des mêmes individus sont positionnés en éléments supplémentaires. Quatre types d‟opinions ressortent : les "modernistes" bien représentés parmi les jeunes, étudiants, locataires ; les "insatisfaits" qui n‟ont pas de caractéristiques socio-économiques bien typées ; les "traditionalistes" bien caractérisés par les personnes âgées, à la retraite et les personnes mariées ; enfin les personnes qui n‟ont pas d‟opinion sont plutôt des femmes âgées et veuves. Les femmes ainsi que les divorcés ou les personnes qui vivent en concubinage sont plus favorables à la dissolution d‟un mariage en cas de problèmes graves.

(10)

2.3 Construction d’une grille d’opinion

L’échantillon est cette fois décrit en fonction des associations structurelles entre les différentes opinions émises sur la famille et le mariage. Les attributs socio-économiques des mêmes individus sont positionnés en éléments supplémentaires. Quatre types d’opinions ressortent : les “modernistes” bien représentés parmi les jeunes, étudiants, locataires ; les “insatisfaits” qui n’ont pas de caractéristiques socio-économiques bien typées ; les “traditionalistes” bien caractérisés par les personnes âgées, à la retraite et les personnes mariées ; enfin les personnes qui n’ont pas d’opinion sont plutôt des femmes âgées et veuves. Les femmes ainsi que les divorcés ou les personnes qui vivent en concubinage sont plus favorables à la dissolution d’un mariage en cas de problèmes graves.

2.4 Dualité entre actif et supplémentaire

La figure suivante montre comment les variables socio-économiques considérées successivement comme éléments actifs ou supplémentaires, conduisent à des résultats complémentaires.

3. Enchaînement des méthodes

La stratégie d’exploitation des données d’enquête repose, dès les premières phases du traitement, sur l’enchaînement des méthodes factorielles et de classification. La complémentarité entre ces deux techniques d’analyse se justifie pleinement pour une exploration approfondie de très grands tableaux de données individuelles, tels que ceux produits par les enquêtes. L’analyse factorielle particulièrement bien adaptée à cette situation, et notamment l’analyse des correspondances multiples, ne suffit pas toujours à fournir une vue exhaustive des données et il arrive parfois que les résultats soient trop complexes pour être interprétés facilement. La configuration des points obtenus demande une synthèse plus poussée. Les techniques de classification viennent alors compléter et nuancer des analyses factorielles préalables. L’usage conjoint de ces techniques s’opère de la façon suivante :

étape 1 : Analyse factorielle et choix d’un thème “actif”

L’analyse factorielle est utilisée comme une étape préalable indispensable à la classification pour deux raisons : d’une part elle permet d’organiser et de dégager les structures de la base d’information en sélectionnant les relations déterminantes entre les variables d’origine et en hiérarchisant l’information, d’autre part elle va servir de support à la classification. Par ailleurs, il faut choisir un thème, c’est-à-dire une batterie homogène de variables actives, c’est adopter un point de vue particulier pour la description. On peut décrire les individus du point de vue de leurs caractéristiques de base, mais aussi à partir d’un thème particulier selon l’enquête par exemple les habitudes de consommation, les opinions politiques, etc. Ce choix nécessite une justification. Les autres variables sont positionnées en éléments supplémentaires.

étape 2 : Classification mixte à partir des facteurs

Effectuer une classification des individus sur un ensemble de p variables ou sur l’ensemble des p facteurs est équivalent. On considère dans les deux cas tout l’espace multidimensionnel. Mais on peut aussi ne prendre en

12

variables "opinion" actives

F1 F2

cond vie:amélior famille:non mar. dissout si accord transf. société pas satisf. cadre de vie cond. vie:détérior mar. indissoluble famille:oui

cond. vie:semblabletrès satisf cadre vie

cond. vie:nsp transf. soc.:nsp

"modernistes"

"insatisfaits"

"ne sait pas"

"traditionalistes" variables socio-économique s supplémentaires F1 F2 "modernistes" "insatisfaits"

"ne sait pas"

"traditionalistes" fem. hom. étudiant chômeur âge retraité veuf concub. div. marié

Construction et illustration d‟une grille "opinion" 2.4 Dualité entre actif et supplémentaire

La figure suivante montre comment les variables socio-économiques considérées successivement comme éléments actifs ou supplémentaires, conduisent à des résultats complémentaires.

variables d'opinion supplémentaires

Description socio-économique variables socio-économiques supplémentaires F1 F2 fem. hom. âge retraité veuve div. marié

variables socio-économiques actives

F1 F2 hom. fem. marié veuf retrait. âge divor.

Description des opinions

variables socio-économiques activesVariables d'opinion actives Variables d'opinion supplémentaires

Grille d'opinion Grille socio-économique

Dualité entre actif et supplémentaire 3. Enchaînement des méthodes

La stratégie d‟exploitation des données d‟enquête repose, dès les premières phases du traitement, sur l‟enchaînement des méthodes factorielles et de classification. La complémentarité entre ces deux techniques d‟analyse se justifie pleinement pour une exploration approfondie de très grands tableaux de données individuelles, tels que ceux produits par les enquêtes. L‟analyse factorielle particulièrement bien adaptée à cette situation, et notamment l‟analyse des correspondances multiples, ne suffit pas toujours à fournir une vue exhaustive des données et il arrive parfois que les résultats soient trop complexes pour être interprétés facilement. La configuration des points obtenus demande une synthèse plus poussée. Les techniques de classification viennent alors compléter et nuancer des analyses factorielles préalables. L‟usage conjoint de ces techniques s‟opère de la façon suivante :

étape 1 : Analyse factorielle et choix d‟un thème "actif" Construction et illustration d’une grille “opinion”

12

variables "opinion" actives

F1 F2

cond vie:amélior famille:non mar. dissout si accord transf. société pas satisf. cadre de vie cond. vie:détérior mar. indissoluble famille:oui

cond. vie:semblabletrès satisf cadre vie

cond. vie:nsp transf. soc.:nsp

"modernistes"

"insatisfaits"

"ne sait pas"

"traditionalistes" variables socio-économique s supplémentaires F1 F2 "modernistes" "insatisfaits"

"ne sait pas"

"traditionalistes" fem. hom. étudiant chômeur âge retraité veuf concub. div. marié

Construction et illustration d‟une grille "opinion" 2.4 Dualité entre actif et supplémentaire

La figure suivante montre comment les variables socio-économiques considérées successivement comme éléments actifs ou supplémentaires, conduisent à des résultats complémentaires.

variables d'opinion supplémentaires

Description socio-économique variables socio-économiques supplémentaires F1 F2 fem. hom. âge retraité veuve div. marié

variables socio-économiques actives

F1 F2 hom. fem. marié veuf retrait. âge divor.

Description des opinions

variables socio-économiques activesVariables d'opinion actives Variables d'opinion supplémentaires

Grille d'opinion Grille socio-économique

Dualité entre actif et supplémentaire 3. Enchaînement des méthodes

La stratégie d‟exploitation des données d‟enquête repose, dès les premières phases du traitement, sur l‟enchaînement des méthodes factorielles et de classification. La complémentarité entre ces deux techniques d‟analyse se justifie pleinement pour une exploration approfondie de très grands tableaux de données individuelles, tels que ceux produits par les enquêtes. L‟analyse factorielle particulièrement bien adaptée à cette situation, et notamment l‟analyse des correspondances multiples, ne suffit pas toujours à fournir une vue exhaustive des données et il arrive parfois que les résultats soient trop complexes pour être interprétés facilement. La configuration des points obtenus demande une synthèse plus poussée. Les techniques de classification viennent alors compléter et nuancer des analyses factorielles préalables. L‟usage conjoint de ces techniques s‟opère de la façon suivante :

étape 1 : Analyse factorielle et choix d‟un thème "actif" Dualité entre actif et supplémentaire

(11)

compte qu’un sous-espace factoriel de dimensions q (q < p) et réaliser une classification sur les q premiers facteurs. Cela présente l’avantage d’une part d’éliminer des fluctuations aléatoires qui constituent en général l’essentiel de la variance recueillie dans les directions des p-q axes de rangs élevés (variations non systématiques contenues dans les données) et d’autre part la classification - 13 -est réalisée sur un tableau de plus petite dimension (ce qui offre des avantages d’un point de vue algorithmique).

étape 3 : Interprétation des classes

Une fois les individus regroupés en classes, il est facile d’obtenir une description automatique de ces classes par de simples comparaisons de pourcentages ou de moyennes. On calcule, pour les variables numériques comme pour les variables nominales, des statistiques d’écarts entre les valeurs internes à la classe et les valeurs globales. En convertissant ces statistiques en « valeurs-test », on obtient finalement pour chaque classe les modalités ou les variables les plus caractéristiques ayant ou non participé à la formation de ces classes. Les « valeurs-test » sont des paramètres analogues à des « t de Student » qui permettent de juger rapidement de la signification d’une liaison statistique.

étape 4 : Positionnement des classes dans le plan factoriel.

Chaque analyse factorielle est donc complétée par des classifications, avec description automatique des classes par des caractérisations statistiques à partir des variables d’origine. Mais la construction de classes opère parfois un découpage arbitraire d’un espace continu. L’analyse des correspondances permet alors de visualiser les positions relatives des classes dans l’espace, et aussi de mettre en évidence certaines variations continues dans cet espace qui auraient pu être masquées par la discontinuité des classes. Il est donc intéressant de projeter les centres de gravité des classes d’individus obtenues au sein des variables ou des modalités actives sur le premier plan factoriel. Cette aide visuelle permet ainsi d’apprécier les distances entre les classes. Par ailleurs, la position de chaque individu repéré par le numéro de sa classe permet de représenter la densité et la dispersion des classes dans le plan.

étape 5 : Interprétation, critique et retour aux données et au codage

Interpréter les résultats obtenus, c’est trouver la signification des représentations obtenues, évaluer leur validité et les insérer dans un contexte et dans un corps d’hypothèses. Il n’est pas rare que les résultats

obtenus suggèrent de nouveaux codages des données (regroupements de catégories par exemple), et même de nouvelles hypothèses à partir de la critique du recueil de données lui-même

Partie II. Application au cas vietnamien.

Analyse du marché du travail et des

« household business » (entreprises

individuelles) : objectifs, concepts,

données et pistes de réflexion

1. Cadrage général et rappel des objectifs

De manière générale, l’objectif de l’analyse du marché du travail et du rôle du secteur informel est de : – mieux comprendre le fonctionnement du marché

du travail ;

– saisir la dynamique des entreprises ;

– avoir un diagnostic clair des difficultés rencontrées par les chefs d’unité de production (household business) et de ceux qui y travaillent : leur demande spécifique en termes de politiques publiques ; – mieux comprendre le rôle et les liens entre le

secteur informel et le reste de l’économie.

De façon plus détaillée, pour analyser le marché du travail, on s’intéresse en particulier à quatre notions : population active, emploi, chômage, sous-emploi. Pourquoi s’intéresser à ces catégories analytiques ?

14 analyse factorielle • •• • •• • • • • • • • • • • • • • • •

représentation des n individus

* * * * * * * représentation des p variables ou modalités n individus q facteurs analyse factorielle

positionnement des classes dans le plan factoriel

* * * * * * * 1 3 4 5 2 classification

à partir les facteurs

2 1 3

4 5

Utilisation conjointe de l‟analyse factorielle et de la classification

P

ARTIE

II

:

A

PPLICATION AU CAS

V

IETNAMIEN

.

A

NALYSE DU MARCHE DU TRAVAIL ET DES

«

HOUSEHOLD BUSINESS

»

(

ENTREPRISES INDIVIDUELLES

) :

OBJECTIFS

,

CONCEPTS

,

DONNEES ET PISTES DE REFLEXION

1. Cadrage général et rappel des objectifs

De manière générale, l‟objectif de l‟analyse du marché du travail et du rôle du secteur informel est de :

– mieux comprendre le fonctionnement du marché du travail ; – saisir la dynamique des entreprises ;

– avoir un diagnostic clair des difficultés rencontrées par les chefs d‟unité de production (household business) et de ceux qui y travaillent : leur demande spécifique en termes de politiques public ;

– mieux comprendre le rôle et les liens entre le secteur informel et le reste de l‟économie.

De façon plus détaillée, pour analyser le marché du travail ; on s‟intéresse en particulier à trois notions : population active, emploi, chômage, sous-emploi. Pourquoi s‟intéresser à ces catégories analytiques ? On peut citer cinq types d‟objectifs :

a.- La planification macro-économique ou la conduite des politiques

Exemple : le taux de chômage est souvent utilisé comme un indicateur de performance macro d‟un pays (cf. le carré magique : croissance, inflation, chômage, déficit(s))

b.- La mesure de l‟offre de travail

Quantification d‟un facteur de production essentiel mis en œuvre pour créer de la valeur ajoutée (cf. fonction de production : Y=F(K,L))

c.- La définition des politiques d‟emploi

- les politiques de promotion ou de création des emplois

Utilisation conjointe de l’analyse factorielle et de la classification

Figure

Tableau de données au niveau des membres du ménage
Tableau de données au niveau du ménage
Graphique 1. Représentation par ellipses : revenus des ménages (variables actives)
Graphique 2. Espace des performances économiques des UP (ACM : axe 1 et 2)
+7

Références

Documents relatifs

lOO Sur les prérogatives que garde l'ordinaire diocésain envers les sœurs des instituts reconnus par Rome , cfr A. 101 Rappelons que les membres de ces instituts

The purpose of this paper is two-fold: on the one hand, we want to generalize PT to non-discrete outcomes (Section 1 ), and on the other hand we want to show how by incorporating

• L’ACP (Hotelling, 1933) a pour objectif de réduire le nombre de données, souvent très élevé, d’un tableau de données représenté, algébriquement, comme une matrice

78 , 92 Though this anionic cyclo-P 3 complex was not obtained directly from P 4 activation, its reactivity provided inspiration for the study of the reaction chemistry of the

Dans une première analyse, le tableau principal, I x Jl, croise, avec Jl, l'ensemble I des 1193 individus; en supplément, est l'ensemble Isp des espèces, dont chacune est définie

Comme le précise cette leçon, d'un ensemble I de n points muni de distances, il existe une représentation unique dans un espace muni d'une forme quadratique de distance.. Dans le

Dans certains cas M pourra s'expliciter sous forme d'un opérateur intégral (métrique plus faible que celle de L 2 ( T ) )... sur le processus transformé M X si celui-ci

,±i p.t \pt. Cette propriété fondamentale explique la stabilité des représentations obtenues : Le découpage en communes ou en quartiers dans la région parisienne est souvent