• Aucun résultat trouvé

Fusion statistique de données d'enquêtes : dernières avancées pour les mesures d'audience

N/A
N/A
Protected

Academic year: 2022

Partager "Fusion statistique de données d'enquêtes : dernières avancées pour les mesures d'audience"

Copied!
41
0
0

Texte intégral

(1)

F USION STATISTIQUE DE DONNÉES D ' ENQUÊTES

DERNIÈRES AVANCÉES POUR LES MESURES D

'

AUDIENCE

Lorie Dudoignon

Lyon, 25 novembre 2018

(2)

Contexte

Etats des lieux

Internet Global 1

ère

Génération

Internet Global 2

ème

Génération

(3)

Accélération de l’adoption de nouvelles technologies

Source : Médiamétrie – La Référence des Equipements Multimédia -Home Devices; 3

• En moins de 10 ans plus de 70% des foyers français possèdent au moins un smartphone

• Plus de 40 ans pour atteindre un tel niveau d’équipement pour la

télévision

(4)

Contexte

Multiplication des accès Internet

Source : Médiamétrie – Observatoire des Usages Internet; 4

30,0%

40,0%

50,0%

60,0%

70,0%

80,0%

90,0%

100,0%

Via Ordinateur Via tablette Via Téléphone Mobile Au Domicile

Accès Internet - Individus 11+

Janvier-Mars 2016 Janvier-Mars 2017 Janvier-Mars 2018

+0,7% par an +1,9% par an +4,1% par an +0,3% par an

(5)

Multiplication des accès Internet

Sources : Médiamétrie – Observatoire des Usages Internet & Web Observatoire 5

-10% +6% +16%

18-24 ans

+12% +27%

15 ans et + En 5 ans

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

80,0%

90,0%

100,0%

2013-T1 2013-T2 2013-T3 2013-T4 2014-T1 2014-T2 2014-T3 2014-T4 2015-T1 2015-T2 2015-T3 2015-T4 2016-T1 2016-T2 2016-T3 2016-T4 2017-T1 2017-T2 2017-T3 2017-T4 2018-T1 2018-T2

Internautes Dernier Mois

Ordinautes DM 18-24 ans Mobinautes DM 18-24 ans Tablonautes DM 18-24 ans Ordinautes DM 15+

Mobinautes DM 15+

Tablonautes DM 15+

(6)

Les mesures d’audiences Internet

6

Etats des lieux

Mesure Ordinateur Mesure Mobile Mesure Tablette

(7)

Les mesures d’audiences Internet

7

Mesure Ordinateur

Panel

18.000 individus

• Panel Mediametrie//Netratings

• Mesure 2+ :

• Grappage foyer

• Meter Netsight de Nielsen + Déclaration

(8)

Les mesures d’audiences Internet

8

Etats des lieux

Mesure Mobile

Panel

10.000 individus

• Panel Mediametrie

• Naissance en 2010 : Logs opérateurs

• 2016 : Meter Reality Mine

• Mesure 11+

• Individu

(9)

Les mesures d’audiences Internet

9

Mesure Tablette

Panel 5.000 individus

• Panel Mediametrie

• Naissance en 2012

• 2014

• Mesure 2+

• Grappage foyer

• Mesure Proxy + Appli de déclaration

(10)

Les mesures d’audiences Internet

10

Etats des lieux

Mesure Ordinateur

Panel

18.000 individus

Mesure Mobile

Panel

10.000 individus

Mesure Tablette

Panel 5.000 individus

Panel-up (hybride)

Site- centric

Panel-up (hybride)

Site- centric

• Site-Centric

• Marqueur Site / Appli

• Nombre de visites

• Hybridation Panel-up

• Site-Centric = Information auxiliaire

• Calage du nombre de visites

Références :

Dudoignon, L. & Zydorczak, L. Enquête et données exhaustives : un nouveau défi pour les mesures d’audience, Colloque Francophone sur les Sondages, Rennes, 2012.

(11)

Internet Global

11

Internet Global Fusion Mesure Ordinateur

Panel

18.000 individus

Mesure Mobile

Panel

10.000 individus

Mesure Tablette

Panel 5.000 individus

Panel-up (hybride)

Site- centric

Panel-up (hybride)

Site- centric

(12)

Approche simple du type donneur - receveur

Internet Global 1èregénération (2013-2017)

• Les variables A sont renseignées dans les 2 bases. Variables de pont

• Les variables B sont spécifiques à la base receveuse.

• Les variables C sont spécifiques à la base donneuse. Variables à transférer

Individus Variables A Variables B Variables C 1

i ?

N

Individus Variables A Variables C 1

J

K

Base receveuse Base donneuse

Références :

Fisher, N. (2004), Fusion statistique de fichiers de données, Thèse de doctorat, Montpellier

(13)

Approche simple du type donneur - receveur

Individus Variables A Variables B Variables C 1

i

N

Individus Variables A Variables C 1

J

K

Base receveuse Base donneuse

• Pour chaque individu i receveur :

• Trouver un donneur j qui lui « ressemble »

• Transférer les données de j à i (pour les variables C).

• Pour déterminer si deux individus se ressemblent, toutes les variables communes A peuvent être utilisées

• Un même donneur peut être utilisé pour plusieurs receveurs.

(14)

3 fusions + 1 hub

14

Internet Global 1èregénération (2013-2017)

Panel Médiamétrie

NetRatings

Panel Mobile

Panel Tablette

HUB

Fusions Calage

Donneurs Receveurs

Internet Global

• HUB

• 10.000 interviews / an

• Questionnaire d’Habitude d’Ecoute auto-administré

• Habitudes par écran au global

• Habitudes par écran x sites

(15)

3 fusions + 1 hub

Panel Médiamétrie

NetRatings

Panel Mobile

Panel Tablette

HUB

Fusions

Donneurs Receveurs

• Approche Donneur Receveur

• Contrainte sur le nombre de réplication d’un même donneur

• « Distance scorée » sur les habitudes d’écoute

• Score(Visiteur, Visiteur) > Score(Non visiteur, Non visiteur) Fusions

15

(16)

3 fusions + 1 hub

16

Internet Global 1èregénération (2013-2017)

HUB

Calage Receveurs

Internet Global

Calage

• Redressement Ridge

• Tolérance sur les marges issues des enquêtes donneuses

Références :

Beaumont, J.-F. and Bocci, C. (2008), Another look at ridge calibration, Metron-International Journal of Statistics, LXVI, 5–20.

(17)

3 fusions + 1 hub

17

Panel Médiamétrie

NetRatings

Panel Mobile

Panel Tablette

HUB

Fusions Calage

Donneurs Receveurs

Internet Global

Résultats par écran Etude de référence

HUB mis à jour 2 fois par an

(18)

Une panélisation « à la carte »

18

Internet Global 2èmegénération

16 000

panélistes ordinateur

9 000

panélistes mobile

5 000

panélistes tablette

4 650

panélistes bi/tri mesurés

Objectifs fin 2018

(19)

Mise en œuvre

19

Fusion

(20)

Mise en œuvre

20

Internet Global 2èmegénération

Fusion

Hybride

Hybride

(21)

Mise en œuvre

21

Fusion

Fusion Hybride

Hybride

(22)

Fusion = Distance + Jumelage

22

Internet Global 2èmegénération

Source A

Taille nA

Poids individu i = w(ai)

Source B

Taille nB

Poids individu j = w(bj)

Dij

Base fusionnée

Couple (ai,bj) Poids w(ai,bj)

Fusion

Distance + Jumelage

(23)

Jumelage sous contraintes

23

• Minimiser le coût du jumelage

• Z=∑ ∑nB × ,

nA j=1 i=1

• Sous les contraintes de conservation des poids

• ∑nA ,

i=1

• ∑nB ,

j=1

• Conserver les résultats des 2 sources

• Conserver le « bénéfice » de l’hybridation Conserver les poids

Objectifs :

(24)

Jumelage sous contraintes

24

Internet Global 2èmegénération

• Minimiser le coût du transport

• Z=∑ ∑nB × ,

nA j=1 i=1

• Sous les contraintes Offres et Demandes

• ∑nA ,

i=1

• ∑nB ,

j=1

Un problème de transport !

Source 1 Quantité X1

Source i Quantité Xj

Source M Quantité XM

Destination 1 Quantité Y1

Destination j Quantité Yj

Destination N Quantité YN

. . .

. . .

. . .

. . .

C

ij

Références :

Mansi, S.G. (2011), A Study on Transportation Problem, Transshipment Problem, Assignment Problem and Supply Chain, Thèse de doctorat, Rajkot

Hypothèse :

Offre = Demande

Nombre de couple ≤ N + M -1

(25)

Jumelage sous contraintes

25

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 50

Destination 2 3 8 7 40

Destination 3 4 5 2 60

Offre 50 65 35

Solution Source 1 Source 2 Source 3 Reste

Destination 1 50

Destination 2 40

Destination 3 60

Reste 50 65 35

(26)

Jumelage sous contraintes

26

Internet Global 2èmegénération

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 50

Destination 2 3 8 7 40

Destination 3 4 5 2 60

Offre 50 65 35

Solution Source 1 Source 2 Source 3 Reste

Destination 1 35 15

Destination 2 40

Destination 3 60

Reste 50 65 0

(27)

Jumelage sous contraintes

27

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 15

Destination 2 3 8 7 40

Destination 3 4 5 2 60

Offre 50 65 0

Solution Source 1 Source 2 Source 3 Reste

Destination 1 35 15

Destination 2 40 0

Destination 3 60

Reste 10 65 0

(28)

Jumelage sous contraintes

28

Internet Global 2èmegénération

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 15

Destination 2 3 8 7 0

Destination 3 4 5 2 60

Offre 10 65 0

Solution Source 1 Source 2 Source 3 Reste

Destination 1 15 35 0

Destination 2 40 0

Destination 3 60

Reste 10 50 0

(29)

Jumelage sous contraintes

29

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 0

Destination 2 3 8 7 0

Destination 3 4 5 2 60

Offre 10 50 0

Solution Source 1 Source 2 Source 3 Reste

Destination 1 15 35 0

Destination 2 40 0

Destination 3 10 50

Reste 0 50 0

(30)

Jumelage sous contraintes

30

Internet Global 2èmegénération

• Exemple d’algorithme « simple » : Least Cost Method

Un problème de transport !

Coûts Source 1 Source 2 Source 3 Demande

Destination 1 6 4 1 0

Destination 2 3 8 7 0

Destination 3 4 5 2 50

Offre 0 50 0

Solution Source 1 Source 2 Source 3 Reste

Destination 1 15 35 0

Destination 2 40 0

Destination 3 10 50 0

Reste 0 0 0

(31)

Jumelage sous contraintes

31

• MODI (MOdified DIstribution method)

• Une solution initiale non optimale qui respecte les contraintes

• Pour chaque couple non utilisé

Gain potentiel sur le coût total

Gain le plus important Poids max

Baisse du poids des autres couples pour équilibrer Un problème de transport !

(32)

Jumelage sous contraintes

32

Internet Global 2èmegénération

• Optimisation linéaire R

Contrainte du problème de transport = solutions entières

Suppression de cette contrainte Gain important dans les temps de calcul

3 packages testés : IpSolveAPI, Rglpk, Rsymphony Un problème de transport !

(33)

Jumelage sous contraintes

33

• Distribution des distances

Comparaisons des solutions

Internet Global 1èregénération Optimisation linéaire R - Rglpk MODI

~40 min ~10 min

(34)

Distance

34

Internet Global 2èmegénération

• Transformation procustèenne

Rapprocher le + possible 2 nuages

En conservant les relations entre les points

• Sur la base des communs

Transformations optimales

Translation, homothétie, rotation, symétrie

• Utiliser la partie du panel pour laquelle la mesure est complète

Références :

Borg I., Groenen P., Modern Multidimensional Scaling, Theory and Applications, 2005.

Objectifs :

(35)

Distance

35

Exclusifs tablette

Bi-équipés & Bi-mesurés Référence complète Illustration sur le panel Mobile - Tablette

Bi-équipés & Mono-mesurés

Pour lesquels une fusion est nécessaire

Exclusifs mobile

(36)

Distance

Internet Global 2èmegénération

t t t t t

t t t

t

t t t

t

t

t t

t t t T

T T

T

t panéliste mesuré uniquement sur tablette

T panéliste mesuré sur tablette ET mobile

m panéliste mesuré uniquement sur mobile

M panéliste mesuré sur tablette ET mobile

m

m m

m m

m m

m M

M M

M m

m

m m

m m m

m m

Illustration sur le panel Mobile - Tablette

ACP

ACP

36

(37)

Distance

T m

m m

m

m

m m M m

M M

M m

m

m m

m

m m

m m t

t

t t

t t

t t

t

t t t t

t

t

t

t t t

T

T T

t t t t t

t t t

t

t t t

t

t

t t

t t t

T

T T

T

m

m m

m m

m m

m M

M M

M m

m

m m

m m m

m m

Transformation procustéenne

Illustration sur le panel Mobile - Tablette

Package R MCMCpack

37

(38)

Distance

Internet Global 2èmegénération

T m

m m

m

m

m m M m

M M

M m

m

m m

m

m m

m m t

t

t t

t t

t t

t

t t t t

t

t

t

t t t

T

T T

Distance

Dij 0 Illustration sur le panel Mobile - Tablette

M

T

38

(39)

Quelques détails pratiques

39

Fusion

Fusion Hybride

Hybride

Stratification

• Le poids d’une même strate doit être identique dans les 2 sources avant fusion

• En particulier sur l’équipement :

• Le poids des bi-équipés ordinateur-mobile doit être le même au sein du panel ordinateur et du panel mobilité

• Pour les étapes de fusion, le traitement des strates peut être parallélisé

(40)

Quelques détails pratiques

40

Internet Global 2èmegénération

Fusion

Fusion Hybride

Hybride

R sur le serveur SAS

• Utilisation de package R pour les fusions

• Chaînes de traitement historiques sous SAS

• Exécution du code R via la PROC IML de SAS

(41)

Merci pour votre attention

Références

Documents relatifs

On

 Autorise m on(mes) enfant (s) à se déplacer à pieds ou en bus en cas de sorties organisées par l’Accueil de Loisirs Sans Hébergement durant les mercredis,

Il est question à travers cette étude de faire un diaporama de la gouvernance de la forêt Boucher dans la ville de Gatineau, en s’intéressant particulièrement

En classe de Seconde, vous avez étudié les fonctions anes, les fonctions polynomiales du second degré, la fonction inverse, les fonctions homographiques et en particulier la

Les défis de mise au point d ’ une telle machine sont importants dans le domaine de l ’ op- tique et de l ’ électronique pour le rendu 3D d ’ une image de grande qualité et dans

Dans ma préface, j'imagine que Marianne s'adresse à moi, mais pas à moi en tant que Henri Pena-Ruiz, mais à tous les citoyens, à toutes les citoyennes qu'elle unit, non

Les données de panel, ou données croisées, possèdent les deux dimensions précédentes et rapportent les valeurs des variables considérées relevées pour un

§ Analyse grammaticale + sens des mots (calcul) à formule logique (plusieurs si ambiguïté). § Prise en compte des glissements de sens (joker fourni par