• Aucun résultat trouvé

Les données mobiles et le tourisme

Dans le document RAPPORT FINAL– DECEMBRE 2020 (Page 87-92)

2. CADRAGE

2.4 E XPLICITER LE CADRE METHODOLOGIQUE

2.4.3 Les données mobilisées

2.4.3.1 Les données mobiles et le tourisme

Le développement des technologies de l'information et de la communication donne accès à de nouvelles sources de données et ouvre le champ des concepts et des méthodes de recherche utilisés dans le tourisme (Raun, Ahas et Tiru, 2016). Ces technologies permettent un suivi très précis des individus mobiles et donc, des touristes (Stock, Coëffé et Violier, 2017). Selon une récente étude portant sur une revue de littérature, entre 2007 et 2016, la recherche sur le tou-risme utilisant les big data a augmenté régulièrement avec un point de croissance évident en 2015. Trois grandes catégories de sources de données ont été identifiées : les données générées par les utilisateurs (47 %), les données générées par les appareils (36 %) et les données de tran-saction (17 %) (Li et al., 2018). La moitié des recherches portant sur le tourisme et utilisant les big data, utilisent donc des données provenant des médias sociaux, notamment Flickr (Kubo et al., 2020). Les données générées par les appareils sont développées et utilisées pour suivre les mou-vements des touristes, ce qui fournit une quantité importante de données de grande qualité.

Parmi cette catégorie de sources de données, les données GPS sont les plus fréquemment utili-sées (21%) tandis que les données de la téléphonie mobile ne représentent que 4% (Li et al., 2018). Les données mobiles constituent un nouvel outil de plus en plus populaire pour suivre le comportement des touristes bien que, par rapport aux données GPS, leur application en soit encore à ses débuts et porte principalement sur l'applicabilité des données et le comportement des touristes en se concentrant sur les flux touristiques, les distances de déplacement, la seg-mentation des visiteurs réguliers et la fidélité des touristes à leur destination (Raun, Ahas et Tiru, 2016 ; Li et al., 2018). R. Ahas et ses collaborateurs (2007 et 2008) sont les pionniers de l'utilisa-tion des données d'itinérance mobile dans la recherche sur le tourisme. Ils ont étudié la saison-nalité des espaces touristiques en Estonie puis, de manière plus globale, l’applicabilité de ces données au secteur du tourisme (Ahas et al., 2007 ; Ahas et al., 2008). En outre, des recherches ont été menées pour évaluer la faisabilité de l'utilisation des données mobiles de manière globale dans le contexte du tourisme. En 2014, Eurostat a réalisé une étude de faisabilité sur l'utilisation des données de positionnement mobile pour générer des statistiques sur les flux touristiques, et pour examiner les forces et les faiblesses liées à l'accès, à la cohérence, au coût, et aux défis technologiques et méthodologiques inhérents à l'utilisation de cette nouvelle source de données (Eurostat, 2014). L'étude montre que les opportunités liées aux données mobiles sont clairement identifiées pour le secteur du tourisme car leurs propriétés correspondent à la nature des activités touristiques. Néanmoins, les implications pour les statistiques du tourisme à l'échelle européenne sont encore limitées du fait que les réglementations actuelles en termes d'accès varient très lar-gement entre les États membres. G. Cousin et F. Hillaireau (2018) ont, quant à eux, testé la validation des données mobiles sur les nuitées et les arrivées des touristes étrangers en vue de remplacer les données de trafic disponibles par mode de transport. Les deux études ont conclu que les données mobiles ne peuvent pas remplacer les statistiques officielles existantes car elles ne permettent pas encore de tenir compte de certaines spécificités telles que la répartition au sein des différents types de logement. Néanmoins, elles constituent une opportunité non négli-geable pour compléter l’information statistique disponible (Eurostat, 2014 ; Cousin et Hillaireau, 2018). De manière générale, la fiabilité des données mobiles pour les estimations en matière de tourisme a été démontrée. La qualité et l'exhaustivité de ces données ne sont pas inférieures à

celles d'autres méthodes alternatives telles que les enquêtes, tandis que la couverture qu'elles offrent est supérieure car elles incluent des données sur l'hébergement de manière globale en considérant toutes formes d’hébergement confondues en ce compris, les hébergements pour lesquels il n’existe pas de statistiques actuellement (Eurostat, 2014 ; Baggio et Scaglione, 2017).

a) Les limites générales liées aux données mobiles

A-M. Raimond et al. (2012) ont réalisé une taxonomie des imperfections liées aux données mo-biles sur base de quatre catégories. Premièrement, l’incomplétude ou l’absence d’information tel qu’un évènement non enregistré ou un dysfonctionnement lors de la collecte. L’incomplétude englobe par exemple le fait que tous les touristes ne disposent pas nécessairement d’un télé-phone portable (Ahas et al., 2008) ou que certains éteignent leur portable la nuit. Néanmoins, les touristes sans portable sont peu nombreux. En 2019, deux tiers de la population mondiale étaient abonnés à des services mobiles. En Europe, 85 % de la population disposait d'un téléphone en 2017 (GSMA, 2020). Il y a donc peu de touristes qui n'ont pas de téléphone portable. Par ailleurs, le fait que les portables soient éteints la nuit est moins problématique car généralement, ils sont rallumés au réveil. Il peut également s’agir de connexions sporadiques37 ou d’interruptions de réception (Cousin et Hillaireau, 2018). Deuxièmement, l’imprécision ou la difficulté à exprimer clai-rement et précisément un état de la réalité comme le fait que la position des individus soit connue à l’échelle de la cellule dont la taille peut fortement varier. Troisièmement, l’incertitude ou le doute sur la validité d’une information comme par exemple sur l’itinéraire d’un individu, sur sa nationalité qui porte sur la nature de la carte SIM et non sur son possesseur ou encore sur l’extrapolation des données. Enfin, la granularité spatio-temporelle du processus de collecte de données où il faut distinguer granularité temporelle de spatiale. La première fait référence à la cadence des enregistrements qui est aléatoire car dépendante des pratiques de communication (transactions) et de la mobilité des individus (changements de zone de localisation) (Raimond et al., 2012). La seconde fait référence à la granularité spatiale et donc à la localisation du téléphone, elle est dépendante de la structure du réseau dont l’emprise spatiale varie fortement selon que l’utilisateur soit en milieu urbain ou rural. De plus, la structure du réseau ne coïncide pas avec les unités géographiques administratives. Le passage vers une unité géographique traditionnelle, souvent nécessaire, introduit des approximations (Raimond et al., 2012 ; Sakarovitch et al., 2018). De plus, Ahas et al. (2007) ont mis en évidence le fait que les zones frontalières présentent un taux relativement élevé de biais dus à l’itinérance transfrontalière. En d’autres termes, à proximité des frontières, les téléphones sont souvent automatiquement commutés sur le réseau d’un pays voi-sin même si le propriétaire reste dans son pays d’origine. Ce biais est néanmoins limité lorsqu’on étudie les nuitées.

Plusieurs problèmes d’accès aux données ont été mis en évidence. Au vu de la concurrence qui existe entre les opérateurs et pour des raisons de respect de la vie privée des clients, ceux-ci souhaitent garder certains aspects confidentiels tels que les caractéristiques socio-démogra-phiques de leurs clients ou encore la couverture locale du réseau (Ahas et al., 2008). Ces élé-ments sont néanmoins nécessaires pour comprendre les biais de représentativité des données (Sakarovitch et al., 2018).

37 Les connexions sporadiques sont des connexions effectuées par les touristes étrangers. Les opérateurs concluent des accords de préférence avec les opérateurs des pays étrangers. Il arrive parfois que le portable du touriste effectue une connexion sur un autre réseau que celui avec lequel un accord de préférence a été passé. Le touriste n’apparait donc pas dans les chiffres utilisés pour calculer la part de marché ce qui peut conduire à une surestimation du

b) La méthodologie développée avec l’opérateur mobile Proximus

Aucune étude n’a encore utilisé les données mobiles pour localiser et quantifier les nuitées tou-ristiques à partir de requêtes développées avec un opérateur mobile. Ces données permettent à la fois de considérer les nuitées liées aux plateformes d’échanges de logements, celles issues des hébergements non-marchands et intègrent les données des hébergements officiels. Une seule source de données permet donc de comptabiliser les nuitées touristiques. Les données de localisation des téléphones mobiles ont été fournies par Proximus sur la base du nombre de clients actifs. Cet opérateur belge est le leader du marché avec une part de marché de 41% en 2018 (SPF Economie, 2018).

La plupart des recherches utilisant les données mobiles se basent sur les Call Detail Records (CDR) ou enregistrements détaillés des appels reprenant les lieux et moments des appels. Or, il existe une source beaucoup plus complète de données, le système d’exploration du réseau, qui enregistre chacune des activités de signal, y compris celles non facturables. Le réseau capte à la fois les données 2G, 3G et 4G pour les transactions liées aux appels téléphoniques, SMS et connexions internet et les appareils en mouvement qui effectuent une mise à jour de la position à chaque fois qu’ils passent d’une zone de localisation38 à une autre. Un téléphone portable en mode inactif n’émet pas de signaux vers le réseau quand il passe d’une cellule à une autre sauf s’il change de zone de localisation. Avec l’opérateur Proximus, les signaux issus du réseau sont 10 fois plus nombreux que ceux obtenus via les appels (CDR) et fournissent des détails spatio-temporels beaucoup plus précis, la position du téléphone étant connue à l’échelle de la cellule lors de chaque transaction. Cette position est captée au minimum toutes les trois heures voire toutes les heures pour les connexions de données actives. En pratique, la fréquence d’enregis-trement des transactions est beaucoup plus régulière, surtout avec les smartphones (De-busschere et al., 2016).

Le réseau mobile est subdivisé en un ensemble de cellules qui correspondent à la zone couverte par une antenne. Les cellules ayant le même azimut (direction du lobe principal de l’antenne) forment les Technology Agnostic Cell Sector ou secteurs cellulaires indépendants de la techno-logie sous-jacente. Les microcellules qui couvrent une petite zone telle qu’une partie de rue sont donc regroupées avec leur « TACS – mère » simplifiant ainsi le modèle du réseau mobile qui présente la forme d’un diagramme de Voronoï39 où chaque polygone représente la zone d’in-fluence de l’antenne (Figure 11) (Debusschere et al., 2016). En Wallonie, le réseau de l'opérateur Proximus correspond à un diagramme de Voronoï formé par près de 4000 TACS densément répartis en zone urbaine mais beaucoup moins densément en zone rurale et qui se caractérisent donc par des tailles très variables variant de 1,3 ha à 47 km² (Figure 12).

38 Une zone de localisation est un regroupement logique de cellules qui dépend de la génération (2G, 3G ou 4G).

39 Il s’agit de la subdivision de la Wallonie en zones (les TACS) sur base de la distance jusqu’aux points centraux c’est-à-dire les antennes. Chaque point à l’intérieur du TACS est plus proche de l’antenne du TACS que des autres an-tennes.

Figure 11. Macro-TACS et regroupement des petites cellules avec leurs TACS mères

Un script a été développé et testé pour repérer les nuitées des touristes belges (Wallons et Fla-mands/Bruxellois) et étrangers (Français, Néerlandais et autres), pour les deux périodes étudiées à savoir juillet – août 2018 et octobre – novembre 2018 caractérisées par des profils de touristes différents. Pour ce faire, nous avons identifié les lieux d’hébergement les plus probables au ca-ractère touristique. L’extraction des données liées aux touristes a été réalisée sur base d’une définition que nous avons construite avec le partenaire mobile, Proximus. Cette définition repose sur l’idée que selon l’approche géographique, le tourisme s’analyse comme un enjeu spatial fon-damental, celui de se déplacer dans un lieu autre et sur la définition de l’Organisation Mondiale du Tourisme qui définit un touriste comme étant une personne qui voyage et réside en dehors de son lieu de résidence habituel durant moins d’un an pour des raisons autres que l’exercice d’une activité rémunérée par le territoire visité (Stock, Coëffé et Violier, 2017). Sur ces bases, il est ressorti la définition suivante : « Est considérée comme touriste, toute personne localisée à plus de 20 km de son lieu de vie le plus probable à condition qu’elle n’ait pas été localisée au minimum 3 fois de manière discontinue au supposé lieu d’hébergement au cours des 30 derniers jours ».

Le lieu de vie le plus probable (Most Likely Living Place) est défini à partir de la localisation les 100 jours précédents et les 60 jours suivants. De la sorte, sont exclus les déménagements, les tra-vailleurs réguliers et les étudiants étrangers. L’unité d’analyse est le TACS (Technology Agnostic Cell Sector) qui correspond, pour rappel, à la zone d’influence de l’antenne. Chaque point à l'intérieur d'un polygone se trouve plus près de cette antenne que des autres antennes. Le lieu d’hébergement le plus probable (Most Likely Lodging Place) est ensuite calculé pour les touristes en regardant la série d'heures autour de 4 heures du matin par unité d’analyse pour chaque téléphone portable.

Figure 12. Découpage de la Wallonie en TACS sur base de la distribution des antennes Proximus en juillet-août 2018

En plus des limites générales rencontrées par les données mobiles et présentées ci-dessus, cer-taines limites propres aux données Proximus, ont été identifiées. Premièrement, la définition de touriste développée avec l’opérateur mobile intègre différentes catégories de personnes (les pa-tients hospitalisés, les routiers, les noctambules…) qui n’entrent pas dans la définition officielle d’un touriste. C’est pourquoi, une comparaison avec d’autres bases de données est prévue afin d’estimer la part que chacune de ces catégories représente. Deuxièmement, les données ne sont disponibles que si plus de 30 touristes dépendants de l’opérateur sont présents dans le TACS au cours des deux mois. Cette règle, conforme au RGPD, garantit de la sorte une agrégation et anonymisation des données. Elle est peu contraignante lorsqu’on étudie les catégories générales mais plus on affine l’origine, plus la règle est d’application (Tableau 10).

Tableau 10. Proportion de TACS conformes à la règle des 30 du RGPD

Catégories Juillet – août 2018 Octobre – novembre 2018

Belges

Sans distinction

d’origine 98% 96,5%

En distinguant les Wallons des

Bruxel-lois et Flamands

94% 89%

Internationaux

Sans distinction

d’origine 97,7% 96,9%

En distinguant les Français, les Néer-landais et les autres

nationalités

76,1% 71%

Troisièmement, les données sont extrapolées ce qui génère un biais de surestimation. Les nombres d’arrivées et de nuitées des touristes belges et étrangers pendant les deux périodes d’analyse sont extrapolés à partir de la part de marché de l’opérateur à l’échelle de l’arrondisse-ment de résidence pour les belges et du pays pour les étrangers. Ensuite, nous ne disposons que des données des TACS dont le centroïde se situe en Wallonie. C’est pourquoi, certaines communes proches de la frontière linguistique ne sont pas complètement couvertes par des po-lygones. De manière générale, il existe un biais lié aux zones frontalières comme déjà mentionné.

Il est néanmoins possible de limiter ce biais. La littérature propose notamment de multiplier les données du TACS par la surface qu’il couvre dans la zone d’étude. De la sorte, pour connaître, par exemple, les nuitées de la commune de Namur, si un TACS X se trouve à la frontière et couvre 20% du territoire de Namur, les données seront multipliées par cette proportion pour réduire le biais. Par ailleurs, conformément au respect de la vie privée, nous n’avons accès à aucune infor-mation relative au profil socio-démographique des clients Proximus. Enfin, la définition dévelop-pée avec l’opérateur mobile est plus large, car basée sur une distance de 20 km par rapport au lieu de résidence, que celle du CWT qui se base sur la commune de résidence et les communes limitrophes à celle-ci.

2.4.3.2 Les données cadastrales

Dans le document RAPPORT FINAL– DECEMBRE 2020 (Page 87-92)