• Aucun résultat trouvé

i. Nos données : des Courants Commerciaux au pseudo-panel

Dans le document Effets masqués en analyse prédictive (Page 180-183)

D. Méthodes de modélisation des effets d’âge et de cohorte

D.2. i. Nos données : des Courants Commerciaux au pseudo-panel

Le questionnaire utilisé est extrait d’une étude européenne menée consécutivement à l’achat d’un véhicule automobile par un particulier. Cette étude, appelée « Courants Commerciaux», est menée à la demande d’un consortium de constructeurs pour comprendre les comportements d’achat des consommateurs. Par extraction ont été éliminés les véhicules professionnels.

Nous analysons ici les données concernant les consommateurs français et allemands sur une période de 11 ans allant de 1994 à 2004. Le nombre de personnes sondées varie entre 13537 et 18316 d’individus pour les données françaises, comme indiqué dans le tableau D.2.1. ci-dessous, ce qui correspond à un taux d’échantillonnage très élevé lors de l’enquête.

Dans toutes les études de modélisation sur le thème de l’analyse âge-période-cohorte, l’erreur de mesure potentielle liée à la qualité du recueil des données est considérée comme négligeable. Pourtant il faudra prendre quelques précautions concernant les premières et les dernières cohortes pour lesquelles, comme nous le verrons plus loin, seul un nombre limité de points d’observation est disponible.

Période Effectifs 1 994 15 589 1 995 13 527 1 996 14 291 1 997 13 862 1 998 14 750 1 999 14 659 2 000 16 560 2 001 16 749 2 002 18 316 2 003 17 278 2 004 17 169 Total 172 750

Tableau D.2.1. Effectifs de l’enquête Courants Commerciaux par année (France)

Cette enquête recueille la marque et le type de la voiture précédente et de la voiture nouvellement acquise. Ces données nous permettent de déduire pour chaque individu s’il a ré-acheté un véhicule de la même marque ou s’il en a changé lors de son achat. Nous en déduisons ensuite les taux de ré-achat pour chaque triplet de valeurs des variables âge - période (année d’observation) - cohorte (année de naissance).

Cette opération nous fournit 671 observations. En effet, l’âge varie entre 20 et 80 ans (61 âges différents). Cette tranche d’âge recense la plupart des rachats d’automobiles neuves, les rachats étant très peu fréquents avant 20 ans ou après 80 ans. Pour chacune des 11 périodes, de 1994 à 2004, on obtient donc ainsi 61 observations (nombre d’âges différents). Or, comme on le verra en détail par la suite, pour chaque couple âge - période, ne correspond par multi-colinéarité parfaite qu’une et unique cohorte. Par conséquent, la table contient 671 observations correspondant à chacun des triplets de valeurs des variables (âge, période, cohorte). Les cohortes varient elles, de 1914 (1994-80) à 1984 (2004-20).

Cette agrégation permet de constituer ce que l’on nomme un pseudo-panel. Cette technique consiste à suivre un comportement moyen au travers d’enquêtes successives, plutôt que d’analyser un vrai panel dans lequel les données auraient été recueillies auprès d’un même groupe de personnes ne variant pas au cours du temps. Comme indiqué par Bonier (1999), « suivre le comportement moyen d’une cohorte revient à suivre le comportement d’un ménage représentatif de la cohorte : en utilisant les données moyennes pour chaque cohorte, (…) on a alors des données temporelles qui permettent de suivre des cohortes comme on

suivrait des ménages dans un véritable panel. » Dans notre cas, il aurait été difficile d’utiliser de réelles données de panel, étant donné que l’achat automobile n’est pas communément renouvelé chaque année. Cependant, les données ne sont pas forcément moins bonnes que celles issues d’un panel car elles permettent d’éviter deux inconvénients des panels : l’attrition du panel et les phénomènes d’apprentissage des individus du panel.

Les démographes reportent traditionnellement des données de pseudo-panel dans un diagramme âge-période aussi appelé « diagramme de Lexis». La multicolinéarité parfaite entre ces trois variables permet en effet de les représenter simultanément dans un même plan. Ce n’est pas d’ailleurs la seule façon de représenter ces trois axes dans un seul plan. Vandescrick (2001) expose deux autres modes de représentation possibles et explique par ce biais l’origine d’une mauvaise dénomination qui a attribué à Lexis la paternité d’un diagramme qu’il avait en réalité emprunté à Zeuner (1869).

50 62% 53% 58% 58% 55% 54% 55% 53% 57% 53% 53% 1954 49 58% 59% 55% 57% 53% 55% 53% 56% 51% 53% 54% 1955 48 56% 51% 57% 55% 53% 54% 54% 56% 49% 50% 54% 1956 47 56% 54% 51% 53% 56% 58% 53% 53% 52% 51% 48% 1957 46 57% 44% 52% 53% 52% 50% 51% 52% 56% 56% 52% 1958 45 57% 52% 47% 49% 52% 53% 54% 49% 50% 52% 53% 1959 44 54% 53% 47% 60% 50% 45% 52% 55% 48% 51% 49% 1960 43 50% 51% 45% 54% 50% 43% 50% 44% 52% 52% 45% 1961 42 51% 50% 46% 52% 43% 46% 52% 45% 48% 45% 46% 1962 41 48% 52% 49% 42% 50% 48% 47% 47% 48% 45% 45% 1963 40 50% 49% 45% 49% 51% 50% 45% 48% 49% 45% 43% 1964 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Age Période Cohorte

Tableau D.2.2. Extrait du diagramme de Lexis de la base de données Fidélité Automobile

Dans le diagramme du tableau D.2.2. ci-dessus, les âges se lisent en ligne et les périodes en colonne, et qui permet de lire les données de cohorte « en diagonale à 45°». L’extrait ci-dessus du diagramme de Lexis de nos données nous permet par exemple de lire les taux de fidélité durant l’année 1994 pour les âges de 40 à 50 ans dans la première colonne (colonne

grisée en foncé sur l’extrait) pour voir que pour cette année les taux de fidélité entre les personnes de 40 et 50 ans diffèrent en valeur absolue de 14% (62% à 50 ans et 48% à 41 ans).

S’agissant des cohortes, la lecture est un peu plus inhabituelle. Si l’on considère la case concernant les personnes de 40 ans en 1996 (dernière ligne, troisième colonne), on peut déduire rapidement que ces personnes sont de la cohorte 1956 (en calculant 1996-40). Si l’on cherche à suivre l’évolution de cette cohorte dans le temps, il suffit de prendre en compte le fait que l’année suivante, en 1997, ces personnes auront 41 ans. Sur le diagramme, on s’est donc déplacé à la fois d’une case vers la droite et vers le haut, pour progresser « en diagonale ». En suivant cette diagonale jusqu’aux personnes ayant 46 ans en 2002, on peut suivre cette cohorte 1956 sur toute notre fenêtre d’observation (diagonale grisée en clair sur l’extrait) pour voir qu’au sein de cette cohorte, le taux de fidélité a progressé de 9% en valeur absolue durant les neuf années d’observation (de 45% à 54%).

Le nombre de cohortes (entre 1914 et 1984) est donc égal au nombre de diagonales d’une telle table à savoir 71 (11+61-1). Ainsi, on obtient au maximum 11 observations (nombre maximum de périodes) et ce pour les cohortes allant de 1924 (1914 + 11-1) à 1974 (1984 – 11 + 1) alors que les autres cohortes, à savoir les dix plus anciennes et les dix plus récentes, ne sont observées que sur certaines périodes. Ainsi pour les cohortes nées de 1914 à 1924, le nombre d’observations s’incrémente de 1 à 11 observations, et il en est de même en redescendant pour les cohortes nées de l’année 1974 à l’année 1984. Si le nombre d’observations est en-dessous de cinq observations au sein d’une cohorte, les résultats sont à manipuler avec précaution. En effet, ces cohortes ne sont observées que pour un nombre restreint d’âges différents ce qui les expose à un risque de biais. Par la suite, les résultats pour les cohortes allant de 1914 à 1918 et de 1980 à 1984 seront inclus dans les analyses mais pour éviter tout risque de biais, ils seront à interpréter avec précaution, et nous nous concentrons donc sur une interprétation sur la période allant des cohortes 1919 à 1979.

Dans le document Effets masqués en analyse prédictive (Page 180-183)