• Aucun résultat trouvé

L’ajout de la propriété de confidentialité différentielle n’est pas gage de succès. Il faut également trou- ver une façon de sélectionner α de manière à obtenir une utilité élevée des données tout en conservant le risque de réidentification faible. Pour obtenir le meilleur α, la sélection se fera graphiquement en opposant le risque de réidentification et l’utilité des données tel que proposé par Duncan et al. (2001). Pour mesurer le risque, on utilise la même mesure que dans les chapitres précédents, soit le pourcen- tage de véritable réidentification.

proposé dans le chapitre 1 pour combiner les jeux de données partiellement synthétiques n’est pas valide avec différentes valeurs de α. Pour ce faire, on utilise la même technique qu’au chapitre pré- cédent, c’est-à-dire qu’on effectue plusieurs réplications d’une procédure et on regarde si la variance observée est la même que la variance calculée avec la formule TP.

On propose l’alternative suivante pour trouver le meilleur α : on fait deux graphiques afin de comparer l’erreur relative des coefficients et l’erreur relative de la variance. Dans les deux cas, on évaluera le risque avec le pourcentage de véritable réidentification.

4.3.1 Vérification de la formule TP avec des α différents

L’ajout du paramètre α lors de la génération des jeux de données partiellement synthétiques augmente la variabilité dans les valeurs synthétiques obtenues. En effet, cette variation est causée par le fait que plus α est grand, plus la distribution pour effectuer le tirage ressemble à une distribution uniforme. Le choix de la valeur va varier d’un jeu synthétique à l’autre sans que les arbres obtenus n’aient d’impact. L’hypothèse de départ est que plus le paramètre α augmente, plus l’estimation de la variance sera biaisée. On vérifie comment réagit la variance de la moyenne de Y lorsque cette variable est synthétisée dans le jeu de données simulé suivant :

X ∼ N2  0 0 ! , 10 7 7 10 !  Y = X1+ X2+ 

où  ∼ N (0, 9) et où la variable Y est arrondie à l’entier le plus près. On fait un total de 3 000 ré- plications au cours desquelles on crée 5 jeux synthétiques de taille n = 300. Les jeux synthétiques sont créés à partir d’un certain α fixe lors des réplications. Les résultats obtenus sont présentés dans le tableau 4.1. Dans ce tableau, on a la variance espérée, la variance obtenue avec la formule TP et

l’erreur relative pour les différentes valeurs de α. On remarque que plus α augmente, plus l’erreur relative augmente. On obtient des estimations biaisées de la variance avec la formule TP. On a éga-

lement testé avec une autre matrice de covariances pour voir l’impact de celle-ci dans le calcul de la formule. Les résultats sont également dans le tableau 4.1. L’erreur relative est plus petite initialement, mais plus α augmente, plus l’erreur relative augmente. Cette erreur atteint 63.3% avec α = 100. Dans le cas où le nombre d’observations est de 10 000 et toujours avec 5 jeux synthétiques, on obtient les résultats moyens des 5 000 réplications dans le tableau 4.2. Ce tableau contient encore une fois la variance espérée, la variance calculée (TP) et l’erreur relative.

Les résultats ne sont guère mieux puisque les erreurs relatives grimpent à 96%. La formule ne s’ap- plique pas pour évaluer la variance de la moyenne d’une variable synthétisée lorsqu’on utilise 5 jeux synthétiques. Cette fois, on teste avec 25 jeux synthétiques en espérant que l’erreur relative soit plus

Matrice cov. Valeur de α Variance espérée TP Erreur relative var=10, cov=7 1 0.1546 0.1652 6.9% var=10, cov=7 2 0.1667 0.1821 9.2% var=10, cov=7 10 0.3151 0.2638 16.3% var=10, cov=7 100 0.7659 0.3884 49.3% var=1, cov=0.7 1 0.0485 0.0487 0.4% var=1, cov=0.7 10 0.0846 0.0737 12.9% var=1, cov=0.7 100 0.3319 0.1219 63.3%

Tableau 4.1 – Tableau montrant le biais lorsqu’on synthétise avec des valeurs de α élevées pour différentes matrices de covariances.

Valeur de α Variance espérée TP Erreur relative

1 0.0097 0.0062 36.1%

2 0.0219 0.0078 64.4%

10 0.1612 0.0145 91.0%

100 0.5375 0.0225 95.8%

Tableau 4.2 – Tableau montrant le biais avec un grand jeu de données (n=10 000) lorsqu’on synthétise avec des valeurs de α élevées.

petite. Le nombre d’observations est diminué à 300 puisque l’utilisation du Dirichlet-Multinomiale ralentie considérablement la génération des jeux synthétiques et ce, malgré l’utilisation de calcul pa- rallèle lors des réplications. Les résultats obtenus après 2 000 réplications sont dans le tableau 4.3 et permettent de conclure que malgré un grand nombre de jeux de données synthétiques, l’erreur relative reste élevée lorsque α est grand puisque celle-ci vaut 55.1%.

Valeur de α Variance observée TP Erreur relative

1 0.1538 0.1557 1.2%

10 0.2616 0.2281 12.8%

100 0.7234 0.3249 55.1%

Tableau 4.3 – Tableau montrant le biais avec un grand nombre de jeux de données synthétiques et avec des valeurs de α élevées.

Dans un dernier cas, on a regardé les variances associées aux coefficients de régression comme dans l’article de Caiola et Reiter (2010) au chapitre 2. On reprend les mêmes simulations que précédem- ment, avec n = 10 000 et k = 5. Les résultats obtenus après les 3 000 réplications sont présentés dans le tableau 4.4 où TP ireprésente l’estimation de la variance obtenue pour la variable i et variance de

Xireprésente la variance lors des réplications.

Les résultats permettent de conclure que la formule ne s’applique pas, car on surévalue la variance de beaucoup. Cette conclusion était prévisible puisque la formule ne fonctionne pas toujours dans le cas où α vaut 0 (résultat du chapitre 3) et on augmente la variabilité lorsque α augmente.

Valeur de α Variance X1 TP 1 ER1 Variance X2 TP 2 ER2

1 0.00026 0.00068 161.5% 0.00026 0.00068 161.5% 10 0.00054 0.00268 396.3% 0.00055 0.00268 387.3% 100 0.00078 0.00443 467.9% 0.00076 0.00444 484.2%

Tableau 4.4 – Tableau montrant les variances des coefficients de régressions obtenues avec différentes valeurs de α.

Documents relatifs