• Aucun résultat trouvé

Chapitre 7 : Équilibre entre vie privée et utilité dans les systèmes de recommandation

7.1 Systèmes de recommandation et vie privée

Parmi les innovations dans les systèmes de recommandation, nous pouvons citer les distributeurs de contenus audiovisuels, tels que Netflix, dont les services payants sont

122

accessibles par la diffusion en ligne sur différentes plateformes (ordinateurs, consoles de jeux vidéo, appareils mobiles, téléviseurs intelligents). Vu sa réputation, 151.5 millions d’abonnés en 201916, la compagnie investit des efforts considérables afin d’améliorer ses

systèmes de recommandation et essaie d’atteindre un niveau de prédiction qui permettrait « de connaître l'émission parfaitement exacte pour chaque abonné et débuter la lecture au moment où celui-ci lance Netflix » (Amatriain & Basilico, 2016). En effet, l'historique des activités de visionnement, les habitudes de consommation de l'utilisateur (type d'appareil, moment de la journée, intensité de l'utilisation) et même les choix qui n'ont pas satisfait l'utilisateur font partie des données que recueille et analyse le système de recommandation de Netflix (Gomez-Uribe et Hunt, 2015).

En revanche, des chercheurs ont noté que les services offerts par Netflix deviennent un enjeu pour la vie privée, car ces derniers permettent l'accès en temps réel aux réactions des consommateurs devant les contenus visionnés (Keating, 2012). En septembre 2009 (Koren, 2009), l'équipe BellKor 's Pragmatic Chaos gagnait la compétition internationale organisée par Netflix pour avoir réussi à améliorer de 10,06 % l'efficacité de Cinematch, son système de recommandation17. À l’aide d’une attaque par inférence utilisant Internet Movie DataBase (IMDB) comme informations auxiliaires, une dé-anonymisation a été

possible pour un nombre important d’enregistrements d’abonnés chez Netflix, bien qu’aucun identifiant n’ait été utilisé (Narayanan & Shmatikov, 2008). Les variables dont au moins une fonction des valeurs est connue sont alors appelées variables auxiliaires. Ce type d’information peut être donné par un recensement ou tout simplement par la base de sondage. On peut citer comme exemple d’information auxiliaire: le total d’un attribut sur la population, des sous-totaux selon des sous-populations, des proportions, des moyennes, des variances, les valeurs d’un caractère sur toutes les unités de la base de sondage. La notion d’information auxiliaire englobe donc toute donnée issue de recensements. En comparant les renseignements auxiliaires obtenus par les attaquants et les données publiées, le modèle pourrait soit réidentifier un utilisateur, soit dire qu’il ne figure pas dans les données diffusées. Dans le même contexte, un reportage a annoncé le 28 décembre 2009

16https://www.cnn.com/2019/07/17/media/netflix-earnings-2019-second-quarter/index.html consulté le

30/sep/2019

123

que Netflix avait été poursuivi pour atteinte à la vie privée. Malgré ceci, la base d'abonnés de Netflix augmente d’une façon fulgurante tous les jours.

La technologie qui consiste à extraire les données et de les partager en ligne est en plein essor. Par conséquent, l’exploration des méthodes pour assurer l’équilibre entre la vie privée et l’utilité des données est un défi permanent (F. Zhang, et al., 2014).

Dans la littérature, des études scientifiques ont largement abordé les modèles de protection de vie privée (Ye, et al., 2017; F. Zhang, et al., 2018; Q. Zhang, et al., 2017). Celles-ci ont tenté de classer les champs de l’enregistrement entre données non sensibles (loisir, travail) et données sensibles (nom, code postal, date de naissance, sexe) dans des ensembles appelés quasi identificateurs (quasi identifié). Par exemple, K-Anonymity (Sweeney, 2002) a proposé un modèle innovateur expliquant la vie privée en rendant difficile de distinguer un individu de l’autre. Ce processus d’anonymisation ou le retrait des identificateurs directs consiste à généraliser la valeur de ces champs quasi- identificateurs afin de rassembler les enregistrements en groupes dans lesquels les enregistrements sont indiscernables les uns par rapport aux autres. Le mécanisme d’anonymisation s’applique généralement sur les données avant de les publier. Toutefois, cette classification est heuristique et dépend de la perception de vie privée de chaque

utilisateur. K-Anonymity, L-Diversity (Machanavajjhala, et al., 2006) et T-Closeness (N.

Li, et al., 2007) ont offert une protection plus forte en tenant compte de la diversité et de la distribution des attributs des individus. Ils tentent ainsi de définir et d’étendre la protection de la vie privée sous différents aspects, mais il n’existait pas de définition officielle universelle de la vie privée avant l’apparition de la confidentialité différentielle (Dwork, 2008), qui offre un cadre théorique pour protéger la vie privée dans les bases de données statistiques.

De plus, des études antérieures ont proposé des modèles de protection de vie privée fondés sur le chiffrement (Bos, et al., 2017; Raisaro, et al., 2018; Wu, et al., 2018), mais généralement, ces méthodes ne sont pas très pratiques si on tient compte du temps de calcul.

Cependant, ce traitement qui tente de rendre l’enregistrement de l’utilisateur anonyme implique une modification des données, ce qui conduit à une diminution de son

124

utilité. Par conséquent, un compromis entre la protection des renseignements personnels et l’utilité des données collectées est requis.

Dans ce contexte, des travaux ont proposé un modèle d’utilité pour le traitement des données adapté à un environnement de « Fog computing » (Cappiello, et al., 2018). Cependant, il ne donne qu’une définition abstraite de l’utilité et n’est pas efficace dans la pratique. Dans une autre étude, les auteurs ont proposé une méthode d’anonymisation pour améliorer l’utilité des données pour la classification (Han, et al., 2017), tandis que pour l’évaluation de l’utilité, ils l’évaluent en fonction du rendement de la classification, qui ne s’applique pas à tous les scénarios.

Dans le domaine des systèmes de recommandation, les données des utilisateurs sont reliées à leurs activités d’achats, à leurs préférences personnelles, à leurs historiques de navigation, et à leurs informations qui peuvent être sensibles. Idéalement, les fournisseurs comme Netflix devraient accorder une importance à la vie privée des utilisateurs autant qu’à l’utilité des données diffusées. Ainsi, nous nous intéressons dans ce chapitre à la protection de la vie privée tout en assurant l’utilité des données.