F USION STATISTIQUE DE DONNÉES D ' ENQUÊTES
DERNIÈRES AVANCÉES POUR LES MESURES D
'
AUDIENCELorie Dudoignon
Lyon, 25 novembre 2018
• Contexte
• Etats des lieux
• Internet Global 1
èreGénération
• Internet Global 2
èmeGénération
Accélération de l’adoption de nouvelles technologies
Source : Médiamétrie – La Référence des Equipements Multimédia -Home Devices; 3
• En moins de 10 ans plus de 70% des foyers français possèdent au moins un smartphone
• Plus de 40 ans pour atteindre un tel niveau d’équipement pour la
télévision
Contexte
Multiplication des accès Internet
Source : Médiamétrie – Observatoire des Usages Internet; 4
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
Via Ordinateur Via tablette Via Téléphone Mobile Au Domicile
Accès Internet - Individus 11+
Janvier-Mars 2016 Janvier-Mars 2017 Janvier-Mars 2018
+0,7% par an +1,9% par an +4,1% par an +0,3% par an
Multiplication des accès Internet
Sources : Médiamétrie – Observatoire des Usages Internet & Web Observatoire 5
-10% +6% +16%
18-24 ans
+12% +27%
15 ans et + En 5 ans
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
2013-T1 2013-T2 2013-T3 2013-T4 2014-T1 2014-T2 2014-T3 2014-T4 2015-T1 2015-T2 2015-T3 2015-T4 2016-T1 2016-T2 2016-T3 2016-T4 2017-T1 2017-T2 2017-T3 2017-T4 2018-T1 2018-T2
Internautes Dernier Mois
Ordinautes DM 18-24 ans Mobinautes DM 18-24 ans Tablonautes DM 18-24 ans Ordinautes DM 15+
Mobinautes DM 15+
Tablonautes DM 15+
Les mesures d’audiences Internet
6
Etats des lieux
Mesure Ordinateur Mesure Mobile Mesure Tablette
Les mesures d’audiences Internet
7
Mesure Ordinateur
Panel
18.000 individus
• Panel Mediametrie//Netratings
• Mesure 2+ :
• Grappage foyer
• Meter Netsight de Nielsen + Déclaration
Les mesures d’audiences Internet
8
Etats des lieux
Mesure Mobile
Panel
10.000 individus
• Panel Mediametrie
• Naissance en 2010 : Logs opérateurs
• 2016 : Meter Reality Mine
• Mesure 11+
• Individu
Les mesures d’audiences Internet
9
Mesure Tablette
Panel 5.000 individus
• Panel Mediametrie
• Naissance en 2012
• 2014
• Mesure 2+
• Grappage foyer
• Mesure Proxy + Appli de déclaration
Les mesures d’audiences Internet
10
Etats des lieux
Mesure Ordinateur
Panel
18.000 individus
Mesure Mobile
Panel
10.000 individus
Mesure Tablette
Panel 5.000 individus
Panel-up (hybride)
Site- centric
Panel-up (hybride)
Site- centric
• Site-Centric
• Marqueur Site / Appli
• Nombre de visites
• Hybridation Panel-up
• Site-Centric = Information auxiliaire
• Calage du nombre de visites
Références :
Dudoignon, L. & Zydorczak, L. Enquête et données exhaustives : un nouveau défi pour les mesures d’audience, Colloque Francophone sur les Sondages, Rennes, 2012.
Internet Global
11
Internet Global Fusion Mesure Ordinateur
Panel
18.000 individus
Mesure Mobile
Panel
10.000 individus
Mesure Tablette
Panel 5.000 individus
Panel-up (hybride)
Site- centric
Panel-up (hybride)
Site- centric
Approche simple du type donneur - receveur
Internet Global 1èregénération (2013-2017)
• Les variables A sont renseignées dans les 2 bases. Variables de pont
• Les variables B sont spécifiques à la base receveuse.
• Les variables C sont spécifiques à la base donneuse. Variables à transférer
Individus Variables A Variables B Variables C 1
i ?
N
Individus Variables A Variables C 1
J
K
Base receveuse Base donneuse
Références :
Fisher, N. (2004), Fusion statistique de fichiers de données, Thèse de doctorat, Montpellier
Approche simple du type donneur - receveur
Individus Variables A Variables B Variables C 1
i
N
Individus Variables A Variables C 1
J
K
Base receveuse Base donneuse
• Pour chaque individu i receveur :
• Trouver un donneur j qui lui « ressemble »
• Transférer les données de j à i (pour les variables C).
• Pour déterminer si deux individus se ressemblent, toutes les variables communes A peuvent être utilisées
• Un même donneur peut être utilisé pour plusieurs receveurs.
3 fusions + 1 hub
14
Internet Global 1èregénération (2013-2017)
Panel Médiamétrie
NetRatings
Panel Mobile
Panel Tablette
HUB
Fusions Calage
Donneurs Receveurs
Internet Global
• HUB
• 10.000 interviews / an
• Questionnaire d’Habitude d’Ecoute auto-administré
• Habitudes par écran au global
• Habitudes par écran x sites
3 fusions + 1 hub
Panel Médiamétrie
NetRatings
Panel Mobile
Panel Tablette
HUB
Fusions
Donneurs Receveurs
• Approche Donneur Receveur
• Contrainte sur le nombre de réplication d’un même donneur
• « Distance scorée » sur les habitudes d’écoute
• Score(Visiteur, Visiteur) > Score(Non visiteur, Non visiteur) Fusions
15
3 fusions + 1 hub
16
Internet Global 1èregénération (2013-2017)
HUB
Calage Receveurs
Internet Global
Calage
• Redressement Ridge
• Tolérance sur les marges issues des enquêtes donneuses
Références :
Beaumont, J.-F. and Bocci, C. (2008), Another look at ridge calibration, Metron-International Journal of Statistics, LXVI, 5–20.
3 fusions + 1 hub
17
Panel Médiamétrie
NetRatings
Panel Mobile
Panel Tablette
HUB
Fusions Calage
Donneurs Receveurs
Internet Global
• Résultats par écran ≠ Etude de référence
• HUB mis à jour 2 fois par an
Une panélisation « à la carte »
18
Internet Global 2èmegénération
16 000
panélistes ordinateur
9 000
panélistes mobile
5 000
panélistes tablette
4 650
panélistes bi/tri mesurés
Objectifs fin 2018
Mise en œuvre
19
Fusion
Mise en œuvre
20
Internet Global 2èmegénération
Fusion
Hybride
Hybride
Mise en œuvre
21
Fusion
Fusion Hybride
Hybride
Fusion = Distance + Jumelage
22
Internet Global 2èmegénération
Source A
Taille nA
Poids individu i = w(ai)
Source B
Taille nB
Poids individu j = w(bj)
Dij
Base fusionnée
Couple (ai,bj) Poids w(ai,bj)
Fusion
Distance + Jumelage
Jumelage sous contraintes
23
• Minimiser le coût du jumelage
• Z=∑ ∑nB × ,
nA j=1 i=1
• Sous les contraintes de conservation des poids
• ∑nA ,
i=1
• ∑nB ,
j=1
• Conserver les résultats des 2 sources
• Conserver le « bénéfice » de l’hybridation Conserver les poids
Objectifs :
Jumelage sous contraintes
24
Internet Global 2èmegénération
• Minimiser le coût du transport
• Z=∑ ∑nB × ,
nA j=1 i=1
• Sous les contraintes Offres et Demandes
• ∑nA ,
i=1
• ∑nB ,
j=1
Un problème de transport !
Source 1 Quantité X1
Source i Quantité Xj
Source M Quantité XM
Destination 1 Quantité Y1
Destination j Quantité Yj
Destination N Quantité YN
. . .
. . .
. . .
. . .
C
ijRéférences :
Mansi, S.G. (2011), A Study on Transportation Problem, Transshipment Problem, Assignment Problem and Supply Chain, Thèse de doctorat, Rajkot
Hypothèse :
Offre = Demande
Nombre de couple ≤ N + M -1
Jumelage sous contraintes
25
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 50
Destination 2 3 8 7 40
Destination 3 4 5 2 60
Offre 50 65 35
Solution Source 1 Source 2 Source 3 Reste
Destination 1 50
Destination 2 40
Destination 3 60
Reste 50 65 35
Jumelage sous contraintes
26
Internet Global 2èmegénération
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 50
Destination 2 3 8 7 40
Destination 3 4 5 2 60
Offre 50 65 35
Solution Source 1 Source 2 Source 3 Reste
Destination 1 35 15
Destination 2 40
Destination 3 60
Reste 50 65 0
Jumelage sous contraintes
27
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 15
Destination 2 3 8 7 40
Destination 3 4 5 2 60
Offre 50 65 0
Solution Source 1 Source 2 Source 3 Reste
Destination 1 35 15
Destination 2 40 0
Destination 3 60
Reste 10 65 0
Jumelage sous contraintes
28
Internet Global 2èmegénération
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 15
Destination 2 3 8 7 0
Destination 3 4 5 2 60
Offre 10 65 0
Solution Source 1 Source 2 Source 3 Reste
Destination 1 15 35 0
Destination 2 40 0
Destination 3 60
Reste 10 50 0
Jumelage sous contraintes
29
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 0
Destination 2 3 8 7 0
Destination 3 4 5 2 60
Offre 10 50 0
Solution Source 1 Source 2 Source 3 Reste
Destination 1 15 35 0
Destination 2 40 0
Destination 3 10 50
Reste 0 50 0
Jumelage sous contraintes
30
Internet Global 2èmegénération
• Exemple d’algorithme « simple » : Least Cost Method
Un problème de transport !
Coûts Source 1 Source 2 Source 3 Demande
Destination 1 6 4 1 0
Destination 2 3 8 7 0
Destination 3 4 5 2 50
Offre 0 50 0
Solution Source 1 Source 2 Source 3 Reste
Destination 1 15 35 0
Destination 2 40 0
Destination 3 10 50 0
Reste 0 0 0
Jumelage sous contraintes
31
• MODI (MOdified DIstribution method)
• Une solution initiale non optimale qui respecte les contraintes
• Pour chaque couple non utilisé
• Gain potentiel sur le coût total
• Gain le plus important Poids max
• Baisse du poids des autres couples pour équilibrer Un problème de transport !
Jumelage sous contraintes
32
Internet Global 2èmegénération
• Optimisation linéaire R
• Contrainte du problème de transport = solutions entières
• Suppression de cette contrainte Gain important dans les temps de calcul
• 3 packages testés : IpSolveAPI, Rglpk, Rsymphony Un problème de transport !
Jumelage sous contraintes
33
• Distribution des distances
Comparaisons des solutions
Internet Global 1èregénération Optimisation linéaire R - Rglpk MODI
~40 min ~10 min
Distance
34
Internet Global 2èmegénération
• Transformation procustèenne
• Rapprocher le + possible 2 nuages
• En conservant les relations entre les points
• Sur la base des communs
• Transformations optimales
• Translation, homothétie, rotation, symétrie
• Utiliser la partie du panel pour laquelle la mesure est complète
Références :
Borg I., Groenen P., Modern Multidimensional Scaling, Theory and Applications, 2005.
Objectifs :
Distance
35
Exclusifs tablette
Bi-équipés & Bi-mesurés Référence complète Illustration sur le panel Mobile - Tablette
Bi-équipés & Mono-mesurés
Pour lesquels une fusion est nécessaire
Exclusifs mobile
Distance
Internet Global 2èmegénération
t t t t t
t t t
t
t t t
t
t
t t
t t t T
T T
T
• t panéliste mesuré uniquement sur tablette
• T panéliste mesuré sur tablette ET mobile
• m panéliste mesuré uniquement sur mobile
• M panéliste mesuré sur tablette ET mobile
m
m m
m m
m m
m M
M M
M m
m
m m
m m m
m m
Illustration sur le panel Mobile - Tablette
ACP
ACP
36
Distance
T m
m m
m
m
m m M m
M M
M m
m
m m
m
m m
m m t
t
t t
t t
t t
t
t t t t
t
t
t
t t t
T
T T
t t t t t
t t t
t
t t t
t
t
t t
t t t
T
T T
T
m
m m
m m
m m
m M
M M
M m
m
m m
m m m
m m
Transformation procustéenne
Illustration sur le panel Mobile - Tablette
• Package R MCMCpack
37
Distance
Internet Global 2èmegénération
T m
m m
m
m
m m M m
M M
M m
m
m m
m
m m
m m t
t
t t
t t
t t
t
t t t t
t
t
t
t t t
T
T T
Distance
Dij 0 Illustration sur le panel Mobile - Tablette
M
T
38
Quelques détails pratiques
39
Fusion
Fusion Hybride
Hybride
Stratification
• Le poids d’une même strate doit être identique dans les 2 sources avant fusion
• En particulier sur l’équipement :
• Le poids des bi-équipés ordinateur-mobile doit être le même au sein du panel ordinateur et du panel mobilité
• Pour les étapes de fusion, le traitement des strates peut être parallélisé
Quelques détails pratiques
40
Internet Global 2èmegénération
Fusion
Fusion Hybride
Hybride
R sur le serveur SAS
• Utilisation de package R pour les fusions
• Chaînes de traitement historiques sous SAS
• Exécution du code R via la PROC IML de SAS