C’est le cas lorsque le signal GPS est temporairement ou totalement absent et que les autres
sources dites objectives ne permettent pas l’identification.
Lorsque ces zones subsistent, il est prévu d’en discuter avec le volontaire en lui
présen-tant les annotations corrigées ainsi que la visualisation de sa trajectoire afin d’essayer
d’iden-tifier la scène.
Le recours à la visualisation des trajectoires des volontaires peut poser des problèmes liés
au respect de la vie privée. La section suivante est dédiée à cette problématique ainsi qu’à la
sécurité des données.
3.2.4 Les problématiques de sécurité et du respect de la vie privée
La seconde problématique de la collecte porte sur la sécurité des données et le respect
de la vie privée des volontaires qui participent. Nous présentons les risques encourus afin de
mieux cibler les solutions à apporter.
3.2.4.1 L’identification des risques
Le choix d’effectuer les enregistrements sur des smartphones dans des situations
quo-tidiennes réelles entraîne le risque de perte, vol ou dégradation de l’appareil. Dans ces
conditions, les données collectées et présentes sur l’appareil peuvent être récupérées par
de tierces personnes. Ainsi, il paraît important de déterminer le niveau de confidentialité de
ces données pour pouvoir mieux les protéger.
Nous avons identifié les sources dont le contenu ne doit pas être divulgué :
— les échantillons sonores : le principal danger de la collecte du son est l’extraction du
contenu des conversations ;
— les chaînes de caractères : les identifiants des appareils alentours (antennes-relais,
bornes Bluetooth, bornes Wi-Fi), numéros de téléphone ou noms des applications
uti-lisées sont autant d’éléments sensibles ;
— les coordonnées de localisation : les coordonnées géographiques fournies par le GPS
du smartphone ou celles des antennes-relais ou bornes Wi-Fi sont des éléments très
sensibles.
Au-delà de la période temporaire de stockage des données sur le smartphone, les risques
concernent également le transfert des données et la sauvegarde sur le serveur distant pour la
durée du traitement. Ainsi, les mêmes risques d’accès par de tierces personnes sont à
consi-dérer. Également, puisque le processus d’évaluation des annotations prévoit une phase où
les coordonnées géographiques sont décryptées, les expérimentateurs ont accès au contenu
des trajectoires suivies. Ainsi, il est important de protéger les volontaires contre la
divulga-tion du contenu de leurs données et de leur identité, suivant le respect de leur vie privée.
3.2.4.2 Les solutions proposées
Nous évoquons les solutions proposées suivant l’ordre logique du parcours des données :
du stockage sur le smartphone jusqu’à celui sur le serveur, en passant par le transfert. La
pre-mière mesure proposée consiste à traiter à la volée les données des sources préalablement
identifiées pour en éliminer le contenu brut et n’en garder qu’une représentation, qui ne
permet pas d’en extraire le contenu jugé sensible :
— échantillons sonores : des descripteurs sont calculés à la volée et le signal brut n’est pas
conservé ; ces descripteurs sont calculés sur des durées suffisamment longues pour
ne pas permettre la reconstitution inverse du signal ou l’extraction du contenu de la
parole ;
— chaînes de caractères : les chaînes sont combinées à un identifiant unique par
uti-lisateur et ensuite cryptées au moyen d’une fonction de hachage et de l’algorithme
SHA-256
6;
— coordonnées de localisation : elles sont translatées avant d’être sauvegardées.
La deuxième mesure consiste à effacer les données du téléphone au-delà de 48 heures
après la date de leur collecte.
Concernant le transfert des données, nous envisageons un mode filaireviaune liaison
USB et un mode sans fil viaune connexion Internet. Le transfert filaire n’est effectué que
vers une machine identifiée du laboratoire. Celle-ci est protégée par accès physique
(l’ac-cès au laboratoire est réglementé) et logique (l’utilisation est protégée par mot de passe). Le
transfert sans fil est effectué au moyen d’une fonctionnalité intégrée à l’application de
col-lecte. Celle-ci utilise le protocole SCP (Secure Copy Protocol, ou protocole de copie sécurisé)
qui crypte les données et les transmet au serveur distant qui les transfère à son tour vers une
machine du réseau interne du laboratoire, inaccessible depuis l’extérieur.
La sécurité des données sur le serveur de stockage est assurée par la double protection
physique et logique des machines dans le laboratoire. Par ailleurs, après l’évaluation des
annotations, les coordonnées géographiques sont à nouveau translatées et l’ensemble des
données est sauvegardé anonymement, de sorte qu’on ne puisse plus identifier le volontaire
qui les a produites.
3.2.5 Le protocole de collecte général
En guise de bilan de la section sur les problématiques de la collecte, nous présentons
le protocole général pour la collecte de données. C’est également l’occasion de décrire les
traitements qui n’ont pas été mentionnés tels que la mise en forme des fichiers transférés,
la synchronisation des données des différentes sources et l’indexation des fichiers pour la
sauvegarde. Le protocole peut être résumé par le schéma de la figure 3.3 dont les principales
étapes sont les suivantes :
1. Accueil et information du participant : le volontaire est informé de la finalité de la
col-lecte, des détails du traitement, des données collectées et, en particulier, des données
sensibles et des mesures mises en place pour protéger ces données ; également, on
ins-talle l’application sur le smartphone du participant et on l’informe du fonctionnement
de l’application (suivant le document en Annexe (page 165)), des scènes d’intérêt et du
comportement attendu pour les annotations ;
2. Collecte des données : on note en particulier les mesures de cryptage et d’effacement
des données qui sont effectuées pendant cette étape ;
3. transfert des données : il est effectué suivant les deux modes sécurisés présentés ;
4. post-traitement : l’étape consiste d’abord en la mise en forme des données ; des
dis-continuités temporaires dans les données collectées sont recherchées, causées par des
6. Algorithme de la famille SHA-2 qui retourne un résultat d’une longueur fixe de 256 bits.dysfonctionnements éventuels de l’application ; la synchronisation des données
sui-vant les sources est effectuée, grâce aux indications temporelles associées aux
don-nées, suivant l’hypothèse d’une horloge commune aux différentes sources ; un fichier
d’indexation des données est créé, qui contient des informations générales sur les
types de données disponibles, la durée de l’enregistrement, le chemin des fichiers ;
c’est aussi l’étape d’évaluation des annotations ;
5. sauvegarde de longue durée : les données sont rendues anonymes pour être
sauvegar-dées.
Liaison USB Réseau Machine A Machine B Smartphone Machine A' Internet Vie privée•Extraction attributs sonores •Hachage caractères •Translation coordonnées
Collecte
Sécurité
•Effacement données ap.48h
Sécurité
• Wifi avec protocole SCP • Liaison filaire laboratoire
(USB et réseau) Transfert Réseau Vie privée • Translation inversée pendant post-traitement • Dissociation identité et données
Post-traitement Transfert et stockage
Sécurité
• Réseau et accès machine protégés
Sécurité
• Accès machine protégés
Accueil
Information générale
• Finalité • Traiements • Données collectées
• Données sensibles et mesures de protection
Introduction à RecordMe
• Fonctionnement • Contextes à annoter • Comportement attendu
Dans le document
Reconnaissance de scènes multimodale embarquée
(Page 72-75)