• Aucun résultat trouvé

L’acquisition de données en transport – les enquêtes web

Chapitre 2 REVUE DE LITTÉRATURE

2.5 L’acquisition de données en transport – les enquêtes web

Le développement des nouvelles technologies de l’information a ouvert un monde de possibilités concernant la réalisation d’enquêtes. L’approche web aurait un meilleur taux de réponse que les

approches traditionnelles accompagnées de réponses plus candides, des retours de questionnaire plus rapides et un univers plus vaste (Thach, 1995). Une autre recherche plus vaste basée sur cinq études a révélé que le délai moyen de réponse était 7.53 jours pour les formulaires courriel contre 11.81 jours pour les formulaires courrier; les taux de réponse quant à eux ont été favorables aux envois postaux qui ont recueilli 50.56 % contre 44.66 % (Sheehan et McMillan, 1999).

Les conclusions d’une étude réalisée à grande échelle en Suède auprès de plus de 45 000 personnes en 2006, étaient à l’effet que les profils des répondants web et papier étaient similaires; ils se distinguaient principalement au niveau du niveau de scolarité et du revenu (Ekman et coll., 2006). Les questions ouvertes, où le répondant est invité à remplir une boîte de texte, ont enregistré un niveau de détails plus important dans les enquêtes courriel (Kiernan et coll., 2005; Paolo et coll., 2000). Les formules web ont cependant un historique de biais au niveau des déclarations des répondants. Par exemple, selon un article de ComScore en 200120, les gens déclarant avoir fait des achats sur internet surestiment le total de leur achat de 55 % (Andrews et coll., 2003).

D’autres avantages sont notés au niveau du coût, de la communication directe désynchronisée (la personne échantillonnée participe à l’enquête au moment où elle est volontaire et disposée) et du courriel qui est envoyé sans intermédiaire (Sproull, 1986). L’enquête web enlève également des biais liés à l’intervieweur et de codage où les informations papier sont copiées manuellement du papier vers une base de données (Van Selm et Jankowski, 2006). L’estimation de la qualité des données dépend cependant du sujet, de l’objectif de l’enquête, de la méthode de réalisation et des conclusions des auteurs (Eysenbach, 2004). Devant l’intérêt de cette approche, une clarification de ses limites et de la méthodologie à adopter s’avère nécessaire.

2.5.1 LES TYPES D’ENQUÊTES

Les enquêtes électroniques sont divisées en deux classes : le formulaire en format papier électronique téléchargeable ou le questionnaire en ligne; les premières datent de 1986 et les secondes de 1990 (Andrews et coll., 2003). Cinq éléments méthodologiques importants ont été

20 L’article « ComScore networks study reveals inaccuracies in consumers’ ability to accurately recall their on-line buying behavior and offers

répertoriés pour améliorer les résultats d’une enquête web : (1) le design, (2) la confidentialité des données, (3) l’échantillonnage, (4) la distribution et la gestion des réponses ainsi que (5) la mise en œuvre du sondage (incluant une phase de prétest). La maitrise de ces éléments permet d’obtenir un échantillon plus représentatif en rejoignant des populations plus réfractaires à répondre à une enquête web (Andrews et coll., 2003; Van Selm et Jankowski, 2006).

2.5.2 L’ÉCHANTILLONNAGE

Les enquêtes web sont davantage recommandées pour des analyses portant sur des échantillons de type non probabilistes (Kaye et Johnson, 1999; Van Selm et Jankowski, 2006). L’échantillonnage dit « boule de neige », « par réseau » ou « Respondant Driving Sampling (RDS/WebRDS) », est de nature non probabiliste et est issu d’un premier échantillon dit de convenance (Gile et Handcock, 2010) qui agit comme sujet et comme semence. Il est entre autres utilisé pour rejoindre des groupes difficiles d’approches tels que les toxicomanes (Faugier et Sargeant, 1997) où les chercheurs vont tenter une infiltration tentaculaire à l’aide de diffuseurs d’enquête dans le milieu fermé. Selon l’approche, l’envoi de courriels permet d’espérer un nombre de répondants plus élevé que l’échantillon initial; Benfield en 2006 a obtenu 189 réponses à partir de l’envoi de 60 courriels à parents et amis dans un délai d’un mois (Benfield et Szlemko, 2006).

Pour augmenter le niveau de représentativité d’un échantillon web « boule de neige », il est suggéré de procéder par choix aléatoire d’adresses courriel tirées d’une base de données externe ou segmenter par strates afin de distinguer un sous-groupe de la population (Babbie, 1990; Kaye et Johnson, 1999). La structure du réseau social, les traits caractéristiques des individus dans le réseau et la dynamique de recrutement sont garants de la précision des estimations découlant des données (Goel et Salganik, 2010). Par contre, la dépendance entre la semence initiale s’amoindrit à mesure où une génération s’ajoute (Thompson, 2006) ce qui est connu comme la chaîne de Markov où l’état futur dépend de l’état présent et non de tout le processus (Jedrzejewski, 2009). Dans une étude sur les fumeurs, Etter en 1999 a comparé les résultats obtenus à l’aide de sa liste d’envoi et de celle de deuxième génération; les gens ayant reçu la première invitation étaient invités à transmettre le questionnaire à leurs connaissances. Cette technique a permis de doubler le nombre de réponses. Un biais modéré a été noté entre le profil des répondants du premier et le second envoi (Etter et Perneger, 2000).

Certaines recherches, dont le sujet et l’outil d’échantillonnage étaient les réseaux sociaux, ont proposé des méthodes pour pondérer l’échantillon issu des méthodes simples nommées Bread first search (BFS) et la marche aléatoire simple (Random Walk : RW). La Figure 2.5-1 présente comment la sélection de l’échantillon est réalisée à partir d’un nœud. Le biais systématique de cette approche (Gjoka et coll., 2010) peut être amoindri en se basant sur le niveau de popularité des participants tel que leur nombre de contacts (Goel et Salganik, 2010). Des modèles ont été développés afin de réaliser des inférences statistiques si l’échantillon ne représente pas très bien la population (Thompson, 2006).

La littérature est cependant muette sur l’échantillonnage obtenu par le biais des réseaux où ces derniers jouent le rôle de véhicule publicitaire par le biais des « posts » des utilisateurs. Pourtant, les enquêtes réalisées mensuellement auprès de 1 000 adultes québécois par le Cefrio révélaient qu’en mars 2011, 28,9 % des Québécois consultaient quotidiennement du contenu sur les réseaux sociaux (38,2 % de 75,7 %). Au total, c’est 73,3 % des internautes québécois, en mars 2011, qui utilisent les médias sociaux (Cefrio, 2011). Dans une enquête plus large, Nielsen a établi que 22 % du temps consacré à internet était sur les médias sociaux où Facebook rejoint 54 % de la population et compte 6 heures d’utilisation moyenne mensuelle par utilisateur (Nielsen, 2010). Il est important de noter que, comparativement à d’autres méthodes d’enquête, telle que l’observation, le sujet est volontaire; l’autosélection présente un impact important sur la qualité des données (Bethlehem, 2010). Dans certains domaines, tel qu’en politique, les militants seront forts motivés afin d’influencer les résultats; les volontaires interpellés par le sondage possèdent vraisemblablement des opinions plus marquées que celles de l’ensemble de la population (Asher, 2004; Kaye et Johnson, 1999).

Figure 2.5-1 Méthodes d'échantillonnage web