Génération de données synthétiques pour des variables continues : étude de différentes méthodes utilisant les copules

(1)

Génération de données synthétiques pour des

variables continues

Étude de différentes méthodes utilisant les copules

Mémoire Laurence Desbois-Bédard Maîtrise en statistique Maître ès sciences (M. Sc.) Québec, Canada © Laurence Desbois-Bédard, 2017

(2)

Génération de données synthétiques pour des

variables continues

Étude de différentes méthodes utilisant les copules

Mémoire

Laurence Desbois-Bédard

Sous la direction de:

Anne-Sophie Charest, directrice de recherche Louis-Paul Rivest, codirecteur de recherche

(3)

Résumé

L’intérêt des agences statistiques à permettre l’accès aux microdonnées d’enquête est gran-dissant. À cette fin, plusieurs méthodes permettant de publier les microdonnées tout en pro-tégeant la confidentialité des répondants ont été proposées ; ce mémoire se penche sur l’une d’entre-elles : la génération de données synthétiques. Deux approches sont présentées, GADP et C-GADP, et une nouvelle est proposée. La méthode GADP suppose que les variables des données originales et synthétiques sont de loi normale, alors que la méthode C-GADP suppose qu’elles sont jointes par une copule normale. La nouvelle méthode est basée sur les modèles de copules en vigne. Ces modèles sont employés dans l’espoir de mieux modéliser les liens entre les variables. Les trois approches sont évaluées selon les concepts d’utilité et de risque. L’utilité de données confidentielles s’apprécie selon la similitude qu’elles ont avec les données originales et le risque, par la possibilité d’une violation de la confidentialité des répondants. Le risque peut survenir par identification ou par inférence. Seul le risque d’inférence est possible dans le cadre de ce mémoire. Précisément, l’utilité est évaluée avec quelques mesures faites à partir d’analyses spécifiques et une mesure globale basée sur les scores de propension calculés avec une régression logistique. Quant au risque, il est évalué avec une prévision basée sur la distance.

(4)

Abstract

Statistical agencies face a growing demand for releasing microdata to the public. To this end, many techniques have been proposed for publishing microdata while providing confidentiality : synthetic data generation in particular. This thesis focuses on such technique by presenting two existing methods, GAPD and C-GADP, as well as suggesting one based on vine copula models. GADP assumes that the variables of original and synthetic data are normally distributed, while C-GADP assumes that they have a normal copula distribution. Vine copula models are proposed due to their flexibility. These three methods are then assessed according to utility and risk. Data utility depends on maintaining certain similarities between the original and confidential data, while risk can be observed in two types : reidentification and inference. This work will focus on the utility examined with different analysis-specific measures, a global measure based on propensity scores and the risk of inference evaluated with a distance-based prediction.

(5)

Table des matières

Résumé iii

Abstract iv

Table des matières v

Liste des tableaux vii

Liste des figures viii

Remerciements x

Introduction 1

1 Copules 5

1.1 Définitions . . . 5

1.2 Variables aléatoires et copules . . . 7

1.3 Transformation . . . 8

1.4 Quelques copules populaires . . . 9

1.5 Dépendance . . . 10

1.6 Ajustement sur des données . . . 11

2 Copules en vigne 14 2.1 Décomposition en vigne . . . 15

2.2 Simulation de données . . . 18

2.3 Ajustement sur des données . . . 19

2.4 Exemple : données Suède . . . 21

3 Génération de données synthétiques 27 3.1 Données partiellement synthétiques . . . 28

3.2 Données entièrement synthétiques . . . 31

3.3 Exemple : données Suède . . . 32

4 Évaluation des données synthétiques 34 4.1 Évaluation du risque . . . 34

4.2 Évaluation de l’utilité . . . 38

5 Comparaison des méthodes de génération de données synthétiques 42 5.1 Données Suède . . . 42

(6)

5.2 Données Uranium . . . 49

Conclusion 53 Bibliographie 55 A Critère d’Akaike 57 B Distributions Gamma et Fisher généralisées 58 C Aire sous la courbe ROC 59 D Compléments sur l’exemple Suède 60 D.1 Présentation des données originales . . . 60

D.2 Modèles en vigne . . . 62

D.3 Visualisation des données synthétiques . . . 63

E Compléments sur l’exemple Uranium 69 E.1 Présentation des données originales . . . 69

E.2 Modèles en vigne D et C . . . 70

E.3 Visualisation des données synthétiques . . . 71

F Code informatique 77 F.1 Génération de données synthétiques . . . 77

F.2 Évaluation de l’utilité et du risque . . . 83

F.3 Varia . . . 90

(7)

Liste des tableaux

1.1 Quelques copules archimédiennes populaires . . . 10 2.1 Paramètres des distributions marginales (gamma généralisé B) des données Suède 21 2.2 Modèle initial et ses paramètres estimés avec la pseudo-vraisemblance globale . 25 2.3 Modèle ayant l’AIC le plus bas et ses paramètres estimés avec la

pseudo-vraisemblance globale . . . 25 4.1 Données originales et synthétiques . . . 37 4.2 Exemple pour illustrer les mesures de risque P et R - Distance entre les données

originales et synthétiques et mesures de risque . . . 38 5.1 Mesure d’utilité globale U - Moyenne des somme des scores de propension et

son écart-type . . . 46 5.2 Mesure d’utilité globale U - somme des scores de propension . . . 52 D.1 Variables étudiées sur 284 municipalités en Suède . . . 60 D.2 Modèle permettant de générer les données entièrement synthétiques de l’exemple

Suède . . . 62 D.3 Modèle permettant de générer les données partiellement synthétiques de l’exemple

Suède . . . 62 E.1 Modèle permettant de générer les données partiellement synthétiques de l’exemple

Uranium . . . 70 E.2 Modèle permettant de générer les données entièrement synthétiques de l’exemple

(8)

Liste des figures

0.1 Visualisation des données Suède à l’aide d’histogrammes, de nuages de points

et des corrélations de Pearson et de Kendall . . . 3 0.2 Visualisation des données Uranium à l’aide d’histogrammes, de nuages de points

et de corrélations (de Pearson et de Kendall) . . . 4 1.1 Illustration des définitions de concordance et de discordance . . . 11 2.1 Représentation graphique d’une décomposition faite par une vigne C et une

vigne D . . . 16 2.2 Visualisation des données transformées avec la fonction de répartition

empi-rique (1.3) à l’aide des nuages de points et des courbes de niveaux . . . 23 2.3 Représentation graphique de la décomposition (vigne C) du modèle initial et

des copules choisies par l’estimation séquentielle . . . 24 5.1 Moyenne des mesures de risque P et R sur toutes les municipalités (le log de

la distance est présenté) ; les ensembles de données synthétiques sont représentés 43 5.2 Moyenne des mesures de risque P et R sur tous les ensembles de données (le

log de la distance est présenté) ; les municipalités sont représentées . . . 43 5.3 Comparaison de statistiques descriptives pour évaluer de l’utilité des données

synthétiques de l’exemple Suède . . . 44 5.4 Biais (ligne pleine) et EQM (ligne pointillée) relatifs entre la véritable moyenne

du nombre d’employés des municipalités conditionnellement à leur évaluation foncière ; chaque point de la ligne pleine représente en ordonnée la différence relative entre la moyenne originale et calculée sur les données synthétiques de la variable ME84 pour toutes les municipalités ayant la variable REV84 supérieure

au quantile original représenté en abscisse . . . 45 5.5 Mesure d’utilité globale - aire sous la courbe ROC . . . 46 5.6 Relation entre le nombre d’employés et l’évaluation foncière en 1984 pour les

284 municipalités de la Suède . . . 47 5.7 Relation entre le nombre d’employés et l’évaluation foncière des municipalités

ayant moins de 3 000 employés de Suède en 1984 . . . 49 5.8 Moyenne des mesures de risque P sur tous les ensembles de données et sur

toutes les unités . . . 50 5.9 Comparaison de statistiques descriptives pour évaluer de l’utilité des données

synthétiques de l’exemple Uranium . . . 51 D.1 Visualisation des données de la Suède à l’aide d’histogrammes, de nuages de

(9)

D.2 Visualisation des données partiellement synthétiques de l’exemple Suède créées

avec la méthode GADP . . . 63 D.3 Visualisation des données entièrement synthétiques de l’exemple Suède créées

avec la méthode GADP . . . 64 D.4 Visualisation des données partiellement synthétiques de l’exemple Suède créées

avec la méthode C-GADP . . . 65 D.5 Visualisation des données entièrement synthétiques de l’exemple Suède créées

avec la méthode C-GADP . . . 66 D.6 Visualisation des données partiellement synthétiques de l’exemple Suède créées

avec un modèle de copule en vigne D . . . 67 D.7 Visualisation des données entièrement synthétiques de l’exemple Suède créées

avec un modèle de copule en vigne D . . . 68 E.1 Visualisation des données sur l’uranium à l’aide d’histogrammes, de nuages de

points et de corrélations (de Pearson et de Kendall) . . . 69 E.2 Visualisation des données partiellement synthétiques de l’exemple Uranium

créées avec la méthode GADP . . . 71 E.3 Visualisation des données entièrement synthétiques de l’exemple Uranium créées

avec la méthode GADP . . . 72 E.4 Visualisation des données partiellement synthétiques de l’exemple Uranium

créées avec la méthode C-GADP . . . 73 E.5 Visualisation des données entièrement synthétiques de l’exemple Uranium créées

avec la méthode C-GADP . . . 74 E.6 Visualisation des données partiellement synthétiques de l’exemple Uranium

créées avec un modèle de copule en vigne D . . . 75 E.7 Visualisation des données entièrement synthétiques de l’exemple Uranium créées

(10)

Remerciements

J’aimerais remercier chaleureusement ceux qui m’ont accompagnée pendant ces deux dernières années, Anne-Sophie Charest et Louis-Paul Rivest, professeurs au Département de mathéma-tiques et de statistique de l’Université Laval. La passion avec laquelle ils m’ont partagé leurs connaissances m’a motivée tout au long de ce projet. Je tiens aussi à souligner leur dévoue-ment remarquable et leur patience à ce qui a trait à l’écriture de ce mémoire. J’adresse de plus mes remerciements à Éric Gagnon, de l’Institut de la statistique du Québec, pour l’occasion qu’il m’a offerte de mettre en pratique des aspects de confidentialité des données.

Mes années à la maîtrise sont aussi marquées par l’initiation à la consultation statistique qui a été possible grâce au cours Collaboration scientifique. Hélène Crépeau et Gaétan Daigle, professionnels au Service de consultation statistique de l’Université Laval, et Lajmi Lakhal-Chaieb, directeur scientifique, ont su alors me transmettre cet intérêt pour les statistiques appliquées.

Sur une note plus personnelle, j’aimerais remercier tous mes proches qui m’ont soutenue pendant tout mon parcours universitaire. Un merci spécial à mon partenaire de vie, Hans Gratton-Zoerheide, pour tout son amour.

(11)

Introduction

Les agences statistiques publient à la suite d’enquêtes auprès de ménages ou d’entreprises des statistiques agrégées résumant les tendances observées dans les données recueillies. Alors que pour certains chercheurs, ces informations sont suffisantes, d’autres auraient plutôt be-soin d’un accès direct aux microdonnées. Le terme microdonnées, en statistique, réfère aux données individuelles. Par souci de confidentialité, les microdonnées sont rarement publiées. On pense souvent, à tort, que la suppression des variables identifiant directement une unité, comme le nom ou le numéro d’assurance sociale, est suffisante pour assurer la confidentialité des répondants, alors que d’autres variables, les variables quasi-identificatrices, permettent d’identifier indirectement des individus, comme l’âge, le statut marital, l’occupation,... Afin d’encourager la recherche tout en préservant la confidentialité des répondants, plusieurs méthodes permettant de publier des microdonnées ont été proposées (Matthews et collab. (2011)). Une méthode simple et intuitive pourrait être la suppression d’individus facilement identifiables, aux caractéristiques uniques. Les individus ayant une combinaison de variables unique ou peu fréquente pourraient être enlevés. Cette méthode peut mener à de lourdes sup-pressions, puisque les enquêtes ayant beaucoup de variables produisent beaucoup d’uniques. Aussi, cette méthode peut être embêtante pour les chercheurs, puisque les individus aux ca-ractéristiques spéciales, par exemple les grandes entreprises, sont souvent intéressants. Une autre solution proposée initialement par Rubin (1993) est la création de données synthétiques. L’idée est de modéliser les données pour ensuite en générer de nouvelles similaires. On permet alors l’accès aux données générées, ou synthétiques, ainsi un intrus ne peut plus "reconnaître" un individu à partir de ces données. Little (1993) propose une alternative où seulement les va-riables sensibles sont synthétiques. Ces données seront alors partiellement synthétiques. Trois méthodes de génération de données synthétiques sont présentées dans ce mémoire : GADP, C-GADP et vigne. Les deux premières sont des méthodes proposées par Muralidhar et collab. (1999) et Sarathy et collab. (2002). Nous proposons la dernière méthode.

Notre méthode ainsi que la méthode C-GADP nécessitent l’utilisation de copules. Les cha-pitres 1 et 2 introduisent donc les copules et leur extension, les copules en vigne. Le chapitre 3 présente les trois méthodes de génération de données synthétiques. Le chapitre 4 décrit différentes mesures permettant d’évaluer la qualité de données synthétiques. Ces dernières

(12)

sont mises en oeuvre au chapitre 5 pour comparer les méthodes de génération de données synthétiques.

Données

Tout au long de ce mémoire, les méthodes présentées sont illustrées avec les données Suède, qui sont des informations recueillies sur 284 municipalités en Suède. Elles se trouvent dans la publication de Särndal et collab. (1992). Pour les utilisateurs du logiciel R, elles sont plus simplement accessibles dans l’objet Sweden du module stratification. On conserve cinq va-riables : P85, P75, RMT85, ME84 et REV84. Elles représentent respectivement, la population en 1985, la population en 1975, les revenus provenant de la taxation de 1985, le nombre d’em-ployés municipaux en 1984 et l’évaluation immobilière en 1984 de municipalités en Suède. Les variables de revenus sont exprimées en millions de Kronor et celle de population en milliers de citoyens. Le tableau D.1 en annexe les résume.

La figure 0.1 illustre les données brutes. Les variables sont très corrélées. Les municipalités ayant une grande population ont généralement un grand revenu, un grand nombre d’employés et une grande évaluation foncière. Les distributions marginales sont aussi très asymétriques, en particulier, il y a peu de grandes municipalités.

(13)

Figure 0.1 – Visualisation des données Suède à l’aide d’histogrammes, de nuages de points et des corrélations de Pearson et de Kendall

À la fin de ce mémoire, un second ensemble de données est étudiée : les données Uranium. Elles sont des concentrations de cinq éléments chimiques mesurées dans 655 échantillons d’eau. Les éléments surveillés sont l’uranium (U), le lithium (Li), le cobalt (Co), le potassium (K) et le césium (Cs). Les données originales contiennent en plus les concentrations de scandium et de titane. On conserve cinq variables simplement par souci de simplicité. Les données proviennent de la publication de Cook et Johnson (1986), mais se trouvent plus simplement dans l’objet uranium du module copula.

La figure 0.2 illustre les données brutes et les corrélations entre les variables. Contrairement aux données précédentes, elles sont ici très peu corrélées et assez symétriques.

(14)

Figure 0.2 – Visualisation des données Uranium à l’aide d’histogrammes, de nuages de points et de corrélations (de Pearson et de Kendall)

Il peut sembler étrange de choisir des données contenant des informations publiques dans un travail sur la confidentialité des données. Toutefois, les données Suède ont certaines caracté-ristiques normalement difficiles à conserver dans les données synthétiques comme l’asymétrie et les valeurs extrêmes. De plus, pour bien évaluer la difficulté de la tâche, il est préférable de ne pas utiliser des données simulées. Les trois méthodes de génération de données synthé-tiques, autant leur version partiellement qu’entièrement synthétique, ont été testées avec ces données. Pour la version partiellement synthétique, les variables de population sont celles qui ne sont pas modifiées.

(15)

Chapitre 1

Copules

Ce chapitre constitue une brève introduction aux copules. Il ne s’attarde ni à leurs fonde-ments mathématiques ni à l’éventail exhaustif de leurs propriétés, mais les sujets abordés sont destinés à la juste compréhension des prochains chapitres. Il est à noter qu’il introduit le concept de copules à deux dimensions par seul souci de simplicité ; tous les résultats présentés peuvent se généraliser à plus grande dimension. Par ailleurs, il reprend l’ordre de présentation et plusieurs exemples de l’ouvrage de Nelsen (2007).

Les copules sont utilisées, entre autres, pour décrire la loi conjointe de variables aléatoires. Toutefois avant de pouvoir réaliser cette tâche, il est important de bien comprendre ce qu’est une copule. Une définition très simple pourrait être : une copule est une fonction C ayant certaines caractéristiques et dont le domaine est [0, 1] × [0, 1] et l’image est [0, 1]. La prochaine section s’attarde à décrire les caractéristiques qui font d’une fonction une copule, ensuite le lien entre les copules et les variables aléatoires est décrit. Pour la suite I représentera l’intervalle [0, 1].

1.1 Définitions

Cette section décrit les caractéristiques nécessaires pour qu’une fonction soit une copule, ainsi que certaines de leurs propriétés. Avant de les mentionner, quelques définitions et résultats préliminaires sont utiles.

1.1.1 Notions préliminaires

La première définition est la croissance dans le plan qui est une des caractéristiques des copules.

Définition 1. Soient u₁, u2, v1, v2 appartenant à I tels que u1 ≤ u2 et v1 ≤ v2. Le rectangle formé par ces points est alors B = [u₁, u2] × [v1, v2]. Une fonction C de I2 à I est croissante

(16)

dans le plan si pour tout B,

VC(B) := C(u2, v2) − C(u2, v1) − C(u1, v2) + C(u1, v1) ≥ 0

Il est à noter qu’une fonction qui a cette seule propriété n’est pas nécessairement croissante dans chacun de ses arguments. Par exemple, la fonction C(x, y) = (2x−1)(2y−1) définie sur I2 est croissante dans le plan, mais elle ne l’est pas dans chacun de ses arguments. Soit B tel que dans la définition 1, alors C est croissante dans le plan, puisque V_C(B) = 4(y₂−y₁)(x₂−x₁) ≥ 0. Toutefois C n’est pas croissante dans ses arguments (par exemple, C(x, 1/2) − C(x, 0) = 2x − 1 < 0 pour x ∈ [0, 1/2)).

Le lemme suivant indique une condition pour qu’une fonction croissante dans le plan soit non-décroissante dans chaque argument.

Lemme 1. Une fonction C : I27→ I croissante dans le plan est non-décroissante dans chacun des ses arguments si pour tout u, v appartenant I, on a C(u, 0) = 0 = C(0, v).

Le lemme précédent se justifie assez simplement en substituant v₁ par 0 dans la définition 1. Alors on a que pour tout u₁, u2et v appartenant à I tels que u1 ≤ u2, C(u2, v) − C(u1, v) ≥ 0. De même, en substituant u1 par 0 dans la définition 1, on obtient pour tout choix de v1 ≤ v2 et de u, tous dans I, C(u, v₂) − C(u, v₁) ≥ 0.

1.1.2 Copule

Les définitions précédentes sont toutes des caractéristiques des copules, il n’en manque qu’une seule pour avoir la définition complète.

Définition 2. Une copule en deux dimensions est une fonction de I2 à I qui possède les propriétés sont les suivantes :

1. Pour tout u, v dans I,

C(u, 0) = 0 C(0, v) = 0

C(u, 1) = u C(1, v) = v

2. Pour tout u1, u2, v1, v2 dans I tels que u1 < u2 et v1< v2,

C(u2, v2) − C(u2, v1) − C(u1, v2) + C(u1, v1) ≥ 0

Le lecteur attentif déduira la non-décroissance des arguments de la copule par le lemme 1. Pour s’assurer qu’une fonction est une copule, elle doit donc répondre aux deux critères mentionnés.

(17)

Soient u, v et B tels que définis aux définitions 1 et 2, alors par exemple la fonction produit Π(u, v) = uv est bel et bien une copule, puisque

(1) Π(u, 0) = Π(0, v) = 0 et Π(u, 1) = u, Π(1, v) = v (2) V_Π(B) = (u₂− u₁)(v₂− v₁) ≥ 0

1.2 Variables aléatoires et copules

Cette section trace le lien entre les copules et les variables aléatoires. Les copules ont un intérêt en statistique grâce au théorème suivant, le théorème proposé par Sklar (1959). Théorème 1. Soit H, une fonction de répartition bivariée dont les fonctions de répartition marginales sont F et G. Il existe alors une copule C telle que pour tout x, y dans R,

H(x, y) = C(F (x), G(y)) Si F et G sont continues, alors C est unique.

De même, si F et G sont des fonctions de répartition sur R et si C est une copule, alors la fonction H(x, y) := C(F (x), G(y) est une fonction de répartition sur R2.

Dans ce mémoire, on travaille toujours avec des distributions dont les deux marges sont de type continue.

Pour justifier un peu l’utilisation des copules comme fonction de lien entre les distributions marginales et bivariée, il peut être intéressant de rappeler leur définition. Ainsi si H est la fonction de répartition bivariée de X et Y , dont les fonctions de répartition marginales sont F et G respectivement, alors les propriétés suivantes sont vérifiées.

1. H(x, −∞) = H(−∞, y) = 0

2. F (x) = H(x, ∞) et G(y) = H(∞, y)

De plus, l’image des fonctions F et G est I et celle de H, I2. La fonction copule semble donc intuitivement bien décrire la relation entre F , G et H.

On peut avec cette définition trouver la fonction bivariée de variables en sachant leur fonc-tion marginale et leur copule. Par exemple, la copule produit Π(u, v) = uv présentée plus haut représente le lien d’indépendance entre deux variables, peu importe leur marge, puisque H(x, y) = Π(F (x), G(y)) = F (x)G(y). On peut aussi voir le problème à l’envers et trouver la copule associée à une distribution bivariée de X et Y .

Proposition 1. Soit H, une fonction de répartition bivariée dont les marges sont F et G. Soit C, la copule copule associée à H. Alors pour tout (u, v) dans I2_{, on a,}

(18)

Cette proposition permet alors de trouver la copule associée à X et Y lorsque leur distribution bivariée est connue. Par exemple, on peut trouver la copule associée à X et Y si leur loi bivariée est H(x, y) = (1 − e−x− e−y)−1. Il est facile de montrer que les marges sont

H(x, ∞) = F (x) = (1 + e−x)−1 et H(∞, y) = G(y) = (1 + e−y)−1 que les fonctions de distributions inverses sont

F−1(u) = − ln ₁ u − 1 et G−1(v) = − ln ₁ v− 1

et que finalement la copule associée est

C(u, v) = H(F−1(u), G−1(v)) = uv

v + u − uv.

Cette copule fait partie de la grande famille des copules archimédiennes. Plus précisément, elle est la copule de Clayton avec paramètre θ = 1.

1.3 Transformation

Une proposition intéressante fait le lien entre des transformations strictement croissantes ou décroissantes de variables aléatoires et leur copule.

Proposition 2. Soient X et Y , des variables aléatoires continues et leur copule C_XY. Soient α et β des transformations strictement monotones, alors

1. Si α est strictement croissante et β strictement croissante, alors

C_{α(X)β(Y )}(u, v) = C_XY(u, v)

2. Si α est strictement décroissante et β strictement croissante, alors

C_{α(X)β(Y )}(u, v) = v − CXY(1 − u, v)

3. Si α est strictement décroissante et β strictement décroissante, alors

Cα(X)β(Y )(u, v) = u + v − 1 + CXY(1 − u, 1 − v)

4. Si α est strictement croissante et β strictement décroissante, alors

Cα(X)β(Y )(u, v) = u − CXY(u, 1 − v)

La justification de chacune des quatre propriétés est similaire. Sous les hypothèses de (4), soient F1, G1, F2 et G2 les fonctions de répartition de X, Y , α(X) et β(Y ) respectivement, on a alors,

Cα(X)β(Y )(F2(x), G2(y)) = P[α(X) ≤ x; β(Y ) ≤ y] = P[X ≤ α−1(x); Y > β−1(y)] = P[X ≤ α−1(x)] − P[X ≤ α−1(X); Y ≤ β−1(y)]

= F₁(α−1(x)) − C_XY(F₁(α−1(x), G₁(β−1(y)) = F₂(x) − C_XY(F₂(x), 1 − G₂(y)).

(19)

Les transformations 2, 3 et 4 créent de nouvelles copules, les copules de rotations 90, 180 et 270 degrés dans le sens anti-horaire par rapport au point (1/2, 1/2). La copule de rotation 180 degrés est aussi appelée copule de survie.

Définition 3. Les copules de rotation sont définies

C90(u, v) = v − C(1 − u, v),

C180(u, v) = u + v − 1 + C(1 − u, 1 − v), C270(u, v) = u − C(u, 1 − v).

1.4 Quelques copules populaires

Quelques copules bivariées populaires sont présentées ici. Elles proviennent de deux grandes familles : les elliptiques et les archimédiennes. Il est à noter que toutes les copules bivariées présentées sont échangeables.

Définition 4. C(u, v) est échangeable si C(u, v) = C(v, u) pour tout (u, v) dans I2_.

Les deux copules elliptiques les plus populaires sont la copule Normale

C(u, v) = Φρ(Φ−1(u), Φ−1(v)) (1.1)

et la copule Student

C(u, v) = tρ,ν(t−1ν (u), t−1ν (v))

où Φ est la fonction de répartition de la loi normale univariée, Φρ, celle de la loi normale

bivariée avec paramètre corrélation ρ, tν, celle de la loi Student de ν degrés de liberté et tρ,ν,

celle de la loi Student bivariée de ν degrés de liberté et paramètre de corrélation ρ.

Les copules archimédiennes, quant à elles, sont construites avec une fonction continue ϕ : [0, 1] → [0, ∞], que l’on nomme générateur. Cette fonction est strictement décroissante telle que ϕ(1) = 0 et son pseudo-inverse ϕ[−1] est défini

ϕ[−1](t) =    ϕ−1(t) si 0 ≤ t ≤ ϕ(0) 0 sinon.

Les copules archimédiennes sont construites tel que

C(u, v) = ϕ−1(ϕ(u) + ϕ(v)).

(20)

Table 1.1 – Quelques copules archimédiennes populaires

Copule Paramètre(s) ϕ(t) C(u, v)

Clayton θ > 0 1_θ(t−θ− 1) u−θ+ v−θ− 1−1/θ Gumbel θ ≥ 1 (− ln t)θ exp −(− ln u)θ+ (− ln v)θ1/θ Frank θ 6= 0 − lne_e−θt−θ₋₁−1 −1_θln 1 +(e−θu−1)(e_e−θ₋₁−θv−1) Joe θ ≥ 1 − ln[1 − (1 − t)θ_] _{1 −}_{(1 − u)}θ_{+ (1 − v)}θ_{− (1 − u)}θ_{(1 − v)}θ1/θ

1.5 Dépendance

Certaines mesures, comme le tau de Kendall ou la corrélation de Pearson, mesurent le niveau de dépendance entre deux variables aléatoires. Contrairement à la corrélation de Pearson, le tau de Kendall est invariant par rapport aux distributions marginales des variables. En fait, le tau de Kendall de deux variables peut être exprimé en fonction de leur copule.

On rappelle la définition du tau de Kendall échantillonnal. Soit un vecteur d’observations (xi, yi) pour i = 1, ..., n. Soient c le nombre de paires de points concordants et d le nombre de

paires de points discordants. En tout, il y a n₂

= c + d paires de points. Le tau de Kendall échantillonnal se calcule

τ = c − d

c + d.

Il y a une concordance entre les points (x_i, yi) et (xj, yj) si xi < xj et yi < yj ou bien si

xi > xj et yi > yj. Il y a discordance dans le cas contraire. Le tau de Kendall est donc

la probabilité de concordance moins la probabilité de discordance pour les points (x_i, yi) et

(x_j, yj) s’ils sont choisis aléatoirement dans l’échantillon. La figure 1.1 illustre la concordance

(21)

Figure 1.1 – Illustration des définitions de concordance et de discordance

On peut définir le tau de Kendall pour une distribution bivariée de la même manière, c’est-à-dire la probabilité de concordance moins la probabilité de discordance. Soient (X₁, Y1) et (X2, Y2), indépendants et de la même distribution bivariée, le tau de Kendall est alors :

τX,Y = P [(X1− X2)(Y1− Y2) > 0] − P [(X1− X2)(Y1− Y2) < 0].

On peut montrer alors que le tau de Kendall pour le couple de variables aléatoires (X, Y ) s’écrit en fonction de leur copule.

Théorème 2. Soient X et Y des variables aléatoires continues et C leur copule. Le tau de Kendall entre X et Y est donné par

τ = 4

Z Z

I2C(u, v)dC(u, v) − 1.

Le tau de Kendall dépend uniquement de la fonction de copule C et de son ou ses paramètres. Pour certaines copules, il est alors possible d’expliciter le tau de Kendall en fonction de leur paramètre. En particulier, on peut montrer que pour les copules archimédiennes, le tau de Kendall s’écrit en fonction de leur fonction génératrice

τ = 1 + 4

Z 1

0 ϕ(t)

ϕ0_(t)dt. (1.2)

1.6 Ajustement sur des données

On souhaite maintenant modéliser le comportement de variables aléatoires avec les copules. Les marges et la copule peuvent être modélisées indépendamment. Puisque ce chapitre se

(22)

limite aux copules bivariées, soit un échantillon composé de deux variables : {(x_i, yi) : i =

1, . . . , n}.

1.6.1 Marges

Dans ce mémoire, la distribution marginale de chaque variable est choisie parmi celles listées ci-dessous avec l’AIC (Akaike Information Criterion). Ce critère, basé sur la vraisemblance, est rappelé à l’annexe A.

1. Exponentielle(λ), λ > 0 2. Gamma(k, λ), λ > 0, k > 0 3. Pareto(θ, k), θ > 0, k > 0 4. Normale(µ, σ), µ, σ > 0

5. Gamma généralisée(a, k, b), a > 0, k > 0, b > 0 (voir annexe B)

6. Fisher généralisée(µ, σ, s1, s2), µ, σ > 0, s1> 0, s2> 0 (voir annexe B)

Toutes les distributions testées, sauf celle Normale, décrivent le comportement de variables continues positives. Ces distributions ont été choisies puisqu’elles semblent mieux appropriées aux exemples présentés de ce mémoire. D’autres pourraient être ajoutées au besoin.

Le ou les paramètres des distributions marginales sont estimés selon la méthode du maximum de vraisemblance. Hormis les distributions Gamma et Fisher généralisées, les fonctions de densité et les propriétés des lois précédentes sont assez bien connues. Des détails sur les lois Gamma et Fisher généralisées se trouvent à l’annexe B. Certaines des lois présentées sont équivalentes ; par exemple, la loi Exponentielle peut s’écrire comme une loi Gamma. Elles sont néanmoins toutes testées puisque l’AIC pénalise le nombre de paramètres.

1.6.2 Copule

Tout comme pour l’ajustement des marges, l’ajustement d’une copule se fait en deux étapes : le choix de la copule et l’estimation du ou des paramètres. Les entrées de la copule sont F (x) et G(y). Les observations doivent être transformées avec les fonctions de répartition. Comme celles-ci sont souvent inconnues, la fonction de répartition empirique est utilisée. Elle est définie par

ˆ F (x) = 1 n + 1 n X i=1 I(xi ≤ x) (1.3)

où I(x_i ≤ x) est la fonction indicatrice qui prend 1 si x_i ≤ x et 0 sinon. L’équation 1.3 prend n + 1 comme diviseur plutôt que n pour éviter la valeur 1 qui pose un problème lors de l’évaluation de la densité d’une copule. Les observations { ˆF (xi) : i = 1, . . . , n} et

(23)

Estimation du ou des paramètres d’une copule

Les paramètres peuvent être estimés par la méthode du maximum de vraisemblance et par la méthode des moments. La démarche pour arriver à l’estimateur du maximum de pseudo-vraisemblance ainsi que ses propriétés asymptotiques ont été présentées par Genest et collab. (1995). On dit pseudo-vraisemblance puisqu’elle est calculée avec les pseudo-observations. L’estimateur ˆα est donc l’estimateur du maximum de pseudo-vraisemblance s’il maximise la pseudo-vraisemblance du modèle ou son logarithme

L(α) = n X i=1 loghcα ˆ F (xi), ˆG(yi) i (1.4)

Dans l’équation (1.4), α est le vecteur de paramètres, ˆF et ˆG sont les fonctions de répartition empiriques et c_α est la fonction la densité de la copule qui dépend de α.

Une autre méthode possible pour estimer les paramètres est la méthode des moments décrite par Genest et Rivest (1993). Cette démarche utilise le lien entre le tau de Kendall et le paramètre de la copule, tel que montré dans l’équation (1.2).

Choix de la copule

Dans ce mémoire, la copule sera choisie parmi celles qui sont présentées à la section 1.4, c’est-à-dire parmi les copules archimédiennes Clayton, Gumbel, Frank et Joe, les copules elliptiques Normale et Student, ainsi que leurs rotations 90, 180 et 270 degrés. Le choix est fait avec l’AIC qui est rappelé à l’annexe A. Parmi les copules bivariées testées, seule la copule Student a deux paramètres ; les autres en ont un. Par l’AIC, elle est donc la seule à être pénalisée par k = 2 plutôt que par k = 1.

(24)

Chapitre 2

Copules en vigne

L’idée derrière les copules en vigne est que l’on peut décomposer des copules multivariées en une série de copules bivariées. L’idée fondatrice de ces modèles est présentée par Bedford et Cooke (2002). Dans ce chapitre, deux décompositions en vigne sont explorées, soit les vignes C et les vignes D. La popularité, assez récente, de ces modèles statistiques est due à Aas et collab. (2009). Le présent chapitre résume sommairement les résultats présentés dans cette dernière publication. Les méthodes de décomposition en vigne et d’inférence sont présentées. Un exemple est construit à partir des données Suède à la fin de ce chapitre. Il permet de présenter le module CDVine de Brechmann et Schepsmeier (2013) qui implémente les différents résultats qui sont présentés tout au long de ce chapitre.

Pour bien comprendre le concept des copules en vigne, le théorème de Sklar (1959), qui est présenté en deux dimensions au théorème 1 de la section 1.2, doit être rappelé, mais cette fois-ci en d dimensions.

Théorème 3. Soit H, une fonction de répartition multivariée du vecteur aléatoire X = (X1, ..., Xd) dont les fonctions de répartition marginale sont F1,..., Fd. Il existe alors une

copule C telle que pour tout x dans Rd,

H(x) = C(F1(x1), ..., Fn(xd)).

Si les fonctions marginales sont continues, alors C est unique.

Ce théorème peut aussi s’écrire, non pas avec les fonctions de répartition, mais avec les fonctions de densité. Le lien entre la fonction de densité multivariée et les fonctions de densité marginales est alors

f (x) = c(F1(x1), ..., Fn(xn))f1(x1)...fn(xn)

où c est la densité de la copule définie comme c(u1, ..., ud) =

∂d ∂u1...∂ud

(25)

De nouveau, l’intérêt des copules en statistique provient de ce théorème. En effet, il montre qu’on peut modéliser une distribution multivariée en ajustant séparément les marges et la fonction de dépendance entre les variables (copule). En pratique, une des difficultés est de bien choisir la copule qui lie les variables. Une grande variété de copules en deux dimensions a été étudiée, toutefois, en plus grande dimension le choix est plus limité. De plus, les familles de copules de plus grande dimension permettent généralement moins de souplesse dans la modélisation.

2.1 Décomposition en vigne

L’idée des copules en vigne est que l’on peut décomposer une fonction de densité multivariée. Par exemple, on sait que l’on peut décomposer la fonction de densité f (x1, x2, x3) de plusieurs façons, en voici une :

f (x1, x2, x3) = f1(x1)f2|1(x2|x1)f3|1,2(x3|x1, x2). (2.1) Par les propriétés connues des lois conditionnelles et le théorème de Sklar, on sait que :

f_2|1(x2|x1) = f1,2(x1, x2) f1(x1) = c1,2(F1(x1), F2(x2))f1(x1)f2(x2) f1(x1) = c1,2(F1(x1), F2(x2))f2(x2) et f3|1,2(x3|x1, x2) = f_2,3|1(x₂, x3|x1) f2|1(x2|x1) = c2,3|1(F2|1(x2|x1), F3|1(x3|x1))f2|1(x2|x1)f3|1(x3|x1) f_2|1(x₂|x₁) = c_2,3|1(F_2|1(x2|x1), F3|1(x3|x1))f3|1(x3|x1).

Ainsi, l’équation peut se réécrire (2.1)

f (x1, x2, x3) =f1(x1)f2(x2)f3(x3)

c1,2(F1(x1), F2(x2))c1,3(F1(x1), F3(x3)) (2.2) c2,3|1(F2|1(x2|x1), F3|1(x3|x1)).

Sans les copules, la relation entre trois variables aléatoires doit être modélisée directement avec la fonction de densité multivariée, ce qui est souvent embêtant. L’équation (2.2) montre que la modélisation à l’aide des copules en vigne permet plus de souplesse, puisqu’on peut plutôt modéliser les liens entre les paires de variables (X₁ et X₂), (X₁ et X₃), et aussi entre (X2 et X3) conditionnellement à X1. En pratique, l’indépendance entre les paires de variables

(26)

conditionnellement à une autre variable peut être supposée, ce qui n’est pas le cas dans ce mémoire. Par contre, l’hypothèse de simplification est admise, c’est-à-dire que la copule conditionnelle et son ou ses paramètres ne varient pas selon la valeur prise par la variable sur laquelle on conditionne.

La décomposition proposée n’est pas unique est le choix devient rapidement très grand lorsque le nombre de variables augmente. Deux familles de copules en vigne qui limitent le nombre de décompositions possibles sont présentées, les vignes D et C. Les vignes sans contraintes de décomposition sont nommées vignes R.

2.1.1 Vignes D et C

Les décompositions en vigne s’illustrent bien. La figure 2.1 montre les schémas de décompo-sitions en vignes D et C d’une distribution multivariée de dimension 5.

(a) Vigne D

(b) Vigne C

Figure 2.1 – Représentation graphique d’une décomposition faite par une vigne C et une vigne D

Tous les segments formés représentent les copules qui devront être utilisées pour décomposer la copule multivariée. Pour construire une vigne C, au premier arbre, on lie toutes les variables à une seule. Ensuite, au deuxième arbre, une paire de variables à toutes les autres, et ainsi de suite. Pour une vigne D, on joint chaque variable avec sa voisine. Et ainsi de suite pour les arbres subséquents, en utilisant toutefois les segments de l’arbre précédent comme variable. Contrairement à la vigne C, où l’on doit prendre des décisions à chaque arbre, la décomposition en vigne D est entièrement définie au premier arbre.

(27)

2.1.2 Nombre de décompositions

On notera pour la suite, les décompositions en vigne D ou C présentées à la figure 2.1 1-2-3-4-5. Dans un cas où l’on a d variables aléatoires, pour chaque vigne, il existe d!₂ décompositions possibles. La décomposition en vigne D se décide uniquement avec l’ordre des variables au premier arbre. Le nombre de façons d’ordonner d variables une à la suite de l’autre est d!. On remarque par contre que les décompositions miroirs sont équivalentes (par exemple, les décompositions en vigne D 1-2-3-4-5 et 5-4-3-2-1 sont équivalentes). Il existe donc d!₂ dé-compositions en vigne D possibles. Pour la décomposition en vigne C, on voit qu’au premier arbre, on a d choix pour former le premier nœud, au deuxième, d − 1, et ainsi de suite jusqu’à l’avant-dernier arbre où l’on a 3 choix. Ainsi, il existe donc aussi d(d − 1)...3 = d!₂ décom-positions possibles. Ainsi, les deux décomdécom-positions en vigne C 1-2-3-4-5 et 1-2-3-5-4 sont équivalentes.

2.1.3 Fonctions de densité

Les décompositions permettent d’écrire la densité du vecteur de d variables aléatoires. La densité d’un modèle en vigne se construit de manière séquentielle. La densité f (x₁, ..., xd)

provenant de la décomposition en vigne D s’écrit

d Y k=1 fk(xk) d−1 Y j=1 d−j Y i=1

ci,i+j|i+1,...,i+j−1(Fi|i+1,...,i+j−1(xi|xi+1, ..., xi+j−1),

Fi+j|i+1,...,i+j−1(xi+j|xi+1, ..., xi+j−1)) (2.3)

et celle de la décomposition en vigne C s’écrit

d Y k=1 fk(xk) d−1 Y j=1 d−j Y i=1

c_{j,j+i|1,...,j−1}(F_{j|i,...,j−1}(x_j|x₁, ..., xj−1), Fj+i|1,...,j−1(xj+i|x1, ..., xj−1)).

(2.4) L”indice j parcourt les d − 1 arbres de chaque vigne, alors que, pour j fixé, l’indice i est associé aux segments d’un arbre.

Pour utiliser les équations (2.3) et (2.4), les fonctions de répartition conditionnelles doivent être calculées. En posant F (x|ν) avec ν un vecteur, νj un élément de ce vecteur et ν−j le vecteur sans cet élément, Joe (1996) montre qu’on peut écrire

(2.5)

où le terme de droite représente la dérivée partielle de la copuble bivariée C_x,ν

(28)

et collab. (2017) qui est résumée dans ce chapitre. Pour utiliser ce résultat avec les décom-positions en vigne D ou C, il faut judicieusement poser les valeurs de x, de ν−j et de νj.

Dans la décomposition en vigne D, on peut calculer F (xk|x1, ..., xk−1) en posant νj = x1 dans l’équation (2.5), alors que dans le cas de vigne C, on doit poser ν_j = x_k−1.

2.2 Simulation de données

À l’aide des ces outils, on souhaite simuler un échantillon de d variables aléatoires (X1, ...Xd)

dont les distributions marginales sont de loi uniforme sur [0,1] et dont la densité multivariée est donnée par (2.4) ou (2.3). Pour ce faire, on simule wj; j = 1, ..., d indépendamment de loi

uniforme sur [0,1]. Ensuite, on pose x1= w1 x2= F_2|1−1(w2|x1) x3= F_3|1,2−1 (w3|x1, x2) .. . =... xd= F_{d|1,...,d−1}−1 (wd|x1, ..., xd−1).

L’équation (2.5) indique comment trouver les fonctions conditionnelles F (x|ν). Ce qui change selon les décompositions en vigne D ou C est le vecteur de conditionnement ν−j choisi. Dans la décomposition en vigne D, F (xj|x1, ..., xj−1) = ∂C_{j,1|2,...,j−1}F_{j|2,...,j−1}(x_j|x₂, ..., xj−1), F1|2,...,j−1(x1|x2, ..., xj−1) ∂F1|2,...,j−1(x1|x2, ..., xj−1) (2.6) et dans la décomposition en vigne C,

F (xj|x1, ..., xj−1) = ∂C_{j,j−1|1,...,j−2}F_{j|2,...,j−2}(x_j|x₁, ..., xj−2), Fj−1|1,...,j−2(xj−1|x1, ..., xj−2) ∂Fj−1|1,...,j−2(xj−1|x1, ..., xj−2) . (2.7)

L’algorithme permettant de générer des données en vigne D ou C se trouve aussi dans la publication de Aas et collab. (2009) en plus d’être implanté dans la fonction CDVineSim() du module CDVine. Grosso modo, cet algorithme itère pour générer les d variables et itère aussi pour calculer les observations conditionnelles nécessaires. Pour bien comprendre, prenons un cas à trois variables avec marges uniformes.

1. On génère wj, j = 1, 2, 3 de loi uniforme sur [0,1].

(29)

3. On pose x₂ = F_2|1−1(w₂|x₁) où F_2|1(x₂|x₁) = ∂C12(x1, x2) ∂x1 . 4. On pose x₃ = F_3|1,2−1 (w₃|x₁, x2) où F3|1,2(x3|x1, x2) = F n F3|1(x3|x1) | F2|1(x2|x1) o = ∂C32|1(F3|1(x3|x1), F2|1(x2|x1)) ∂F2|1(x2|x1) et F_3|1(x₃|x₁) = ∂C13(x1, x3) ∂x1 ; l’inversion se fait donc en deux temps x3 = F_3|1−1

F−1nw3| F_2|1(x2|x1) o | x1 .

2.3 Ajustement sur des données

L’intérêt de ces modèles est de modéliser le comportement de variables aléatoires. Soit {(xi1, xi2,

. . . , xid) : i = 1, . . . , n} un échantillon à modéliser. L’estimation des paramètres de la copule

vigne utilise les pseudo-observations {[ ˆF1(xi1), ˆF2(xi2), . . . , ˆFd(xid)] : i = 1, . . . , n} où ˆFj est

la fonction de répartition empirique de la j-ième variable définie par (1.3).

Connaissant maintenant les propriétés des copules en vigne, on peut modéliser les pseudo-observations avec cette méthode. Ce n’est pas une mince tâche, puisque pour ajuster des copules en vigne, il faut déterminer (1) la décomposition, donc la famille de vigne et l’ordre des variables, (2) les copules entre les paires de variables et (3) les paramètres des copules. La structure de la vigne peut se déterminer selon la nature des variables. Des variables tempo-relles, par exemple, peuvent naturellement être décomposées en vigne D. Le choix des copules bivariées et l’estimation de leurs paramètres sont faits pour une structure en vigne donnée.

2.3.1 Choix des copules bivariées et estimation séquentielle

Pour choisir les paires de copules, on utilise l’estimation séquentielle. Autrement dit, le choix des copules et l’estimation de leurs paramètres se font séquentiellement arbre par arbre. Voici la marche à suivre :

1. Estimer les paramètres des copules en deux dimensions de l’arbre 1 par la méthode du maximum de la pseudo-vraisemblance à l’aide des pseudo-observations

{[ ˆF1(xi1), ˆF2(xi2), . . . , ˆFd(xid)] : i = 1, . . . , n} avec différentes copules et choisir la

meilleure copule selon l’AIC.

2. Calculer les pseudo-observations F { ˆFj(xij) | ˆFk(xik)} de l’arbre 2 où F (xj|xk) est définie

par (2.5) ; utiliser les copules et les paramètres trouvés à l’étape précédente pour faire cette construction.

(30)

3. Choisir les copules et estimer les paramètres de l’arbre 2 à l’aide des pseudo-observations du niveau 2.

4. Et ainsi de suite jusqu’au dernier arbre.

Prenons par exemple, la densité f (x₁, x2, x3) décomposée à l’équation (2.2). L’estimation séquentielle débute en trouvant quelles copules modélisent le mieux les liens entre (X1 et X2) et entre (X2 et X3), autrement dit les copules C12( ˆF1(x1), ˆF2(x2)) et C23( ˆF2(x2), ˆF3(x3)). Les pseudo-observations de niveau 2 sont ensuite calculées à l’aide des distributions conditionnelles

F1|2( ˆF1(x1)| ˆF2(x2)) = ∂C12( ˆF1(x1), ˆF2(x2)) ∂ ˆF2(x2) F3|2( ˆF3(x3)| ˆF2(x2)) = ∂C23( ˆF2(x2), ˆF3(x3)) ∂ ˆF2(x2)

Les paramètres de la copule C_13|2(·, ·) sont estimés en maximisant la pseudo-vraisemblance

Après l’estimation séquentielle, on peut faire l’estimation globale. Les paramètres des copules sont optimisés pour qu’ils maximisent la fonction de pseudo-vraisemblance globale. Les copules et la structure de vigne sont fixées, on estime seulement les paramètres. Les fonctions de pseudo-vraisemblance à maximiser s’écrivent avec les fonctions de densité écrites en (2.3) et (2.4) et des pseudo observations [F { ˆFj(xij)| ˆF1(xi1), . . . , ˆFj−1(xi j−1)}] pour la vigne C

et [F { ˆFj(xij)| ˆFj+1(xi j+1), . . . , ˆFj+k−1(xi j+k−1)}] pour la vigne D. Ces fonctions peuvent

être maximisées à l’aide d’algorithmes proposés par Aas et collab. (2009). Il est à noter que puisque les observations sont transformées avec la fonction de répartition empirique (1.3), on dit pseudo log-vraisemblance.

2.3.3 Choix de la structure de vigne

Pour comparer différents modèles, on peut utiliser les critères usuels, tel l’AIC dont la défi-nition est rappelée à l’annexe A. On peut aussi les comparer avec un test plus formel, le test de Vuong. Ce critère est calculé à partir de la vraisemblance, ici pseudo-vraisemblance, et du nombre de paramètres. Le logarithme de la pseudo-vraisemblance est calculé à la section 2.3.2. Le nombre de paramètres est la somme du nombre de paramètres de toutes les copules bivariées qui composent le modèle en vigne.

Test de Vuong

Le test proposé par Vuong (1989) est un test formel permettant de comparer deux modèles. Il est utilisé, entre autres, dans le cas de modèles de copules.

(31)

Le test de Vuong est comme l’AIC basé sur la vraisemblance des modèles. Supposons que l’on souhaite comparer l’ajustement obtenu avec les densités de copule c₁ et c₂. Ces densités peuvent être différentes par leur structure, par leurs copules, par des paramètres θ1 et θ2, ou bien encore par les trois. Pour comparer les deux modèles, on prend la différence entre les pseudo log-vraisemblances de chaque observation

mi = log(c1( ˆF1(xi1), ˆF2(xi2), . . . , ˆFd(xid)|ˆθ1)) − log(c2( ˆF1(xi1), ˆF2(xi2), . . . , ˆFd(xid)|ˆθ2)). La statistique de test de Vuong correspond à la somme standardisée des m_i

ν = 1 n Pn i=1mi pPn i=1(mi− ¯m)2 .

On peut montrer que ν suit asymptotiquement une loi normale centrée réduite. Au seuil α, on choisit le modèle 2 si ν < −Φ−1(1 − α₂) et le modèle 1 si ν > Φ−1(1 − α₂). On ne rejette pas l’équivalence entre ces deux modèles si |ν| < Φ−1(1 −α₂). Dans le cas d’égalité entre deux modèles, on choisira le plus simple.

2.4 Exemple : données Suède

Le module CDVine des auteurs Brechmann et Schepsmeier (2013) est utilisé tout au long de cet exemple pour ajuster et générer des copules en vigne C ou D. Il est à noter que plusieurs innovations récentes dans les travaux sur les copules ne sont pas implémentées dans ce module, mais le sont dans le module VineCopula des auteurs Schepsmeier et collab. (2017). Les copules en vigne sans décomposition particulière (vigne R) et les copules en vigne tronquée ne seront pas abordées dans ce mémoire. Dans le cas où l’on aurait des données à très grandes dimensions, il serait préférable d’utiliser ces méthodes.

2.4.1 Modélisation des marges

Pour chacune des variables des données Suède, on ajuste les six distributions présentées à la section 1.6.1 selon la méthode du maximum de vraisemblance, puis on détermine la meilleure distribution à l’aide de l’AIC A. Selon cette méthode, la distribution choisie pour chacune des variables est la gamma généralisée. Les paramètres des distributions marginales sont présentés au tableau suivant :

Table 2.1 – Paramètres des distributions marginales (gamma généralisé B) des données Suède Variable µ log(σ) Q P85 2.62 −0.31 −0.74 P75 2.56 −0.35 −0.84 RMT85 4.50 −0.28 −0.90 ME84 6.45 −0.29 −0.98 REV84 7.37 −0.28 −0.62

(32)

2.4.2 Choix de la décomposition

La nature des données ne dicte aucune décomposition particulière. Afin d’illustrer les étapes de la construction d’un modèle en vigne et la comparaison de modèles, on choisit arbitrairement une décomposition. La décomposition choisie est celle en vigne C avec la structure suivante : P75, P85, RMT85, ME84, REV84. Ce modèle est le modèle initial.

Comme il y a peu de variables dans cet exemple, toutes les décompositions possibles sont testées. Il y a 60 décompositions de chaque famille, donc au total, 120.

2.4.3 Choix des copules bivariées et estimation séquentielle

L’étape préliminaire est de transformer les données avec la fonction de répartition empirique (1.3). Pour le choix des copules entre les paires de variables des décompositions choisies, on se limite aux copules mentionnées jusqu’ici. Autrement dit, les copules elliptiques Normale et Student et les copules archimédiennes Clayton, Gumbel, Frank et Joe, ainsi que leurs rotations à 90, 180 et 270 degrés.

Le graphique 2.2 montre les données transformées avec la fonction de répartition empirique (1.3). Les copules du premier arbre du modèle initial sont les fonctions qui s’ajustent le mieux aux graphiques entre (P75 et P85), (RMT85 et P85), (ME84 et P85) et (REV84 et P85). L’AIC est utilisé pour déterminer quelles copules sont les plus appropriées entre chaque paire de variables. On peut avoir l’intuition en regardant le graphique. Le graphique de P85 et REV84 montre une asymétrie par rapport à la diagonale, une copule non échangeable serait donc appropriée. Aussi, les graphiques suggèrent une plus grande dépendance entre les grandes valeurs qu’entre les petites valeurs ; les copules elliptiques sont donc à éviter, puisqu’elles sont symétriques radialement. Pour choisir, les copules des arbres subséquents, on doit calculer les observations conditionnelles, puis réaliser la même démarche. Heureusement, cette méthode est déjà directement implémentée dans la fonction CDVineCopSelect()

(33)

Figure 2.2 – Visualisation des données transformées avec la fonction de répartition empirique (1.3) à l’aide des nuages de points et des courbes de niveaux

La figure 2.3 illustre les copules choisies pour la décomposition du modèle initial avec cette démarche.

(34)

(a) Arbre 1 : Toutes Gumbel

(b) Arbre 2 : Une Gumbel, une normale, une indé-pendance

(c) Arbre 3 : Une Student (d) Arbre 4 : Indépendance

Figure 2.3 – Représentation graphique de la décomposition (vigne C) du modèle initial et des copules choisies par l’estimation séquentielle

2.4.4 Estimation des paramètres avec la pseudo-vraisemblance globale Pour faire l’estimation globale par le maximum de vraisemblance, on utilise la fonction CD-VineMLE(). Elle utilise les copules bivariées trouvées à l’étape précédente et fait l’estimation avec la vraisemblance globale pour trouver les paramètres de chaque copule. Le tableau suivant présente les paramètres estimés pour la décomposition du modèle initial.

(35)

Table 2.2 – Modèle initial et ses paramètres estimés avec la pseudo-vraisemblance globale

Paire Copule Paramètre(s)

Arbre 1 P85,P75 Gumbel θ = 13.39 P85,RMT85 Gumbel θ = 10.72 P85,ME84 Gumbel θ = 10.21 P85,REV84 Gumbel θ = 4.32 Arbre 2 P75,RMT85|P85 Gumbel θ = 1.14 P75,ME84|P85 Normal ρ = 0.13 P75,REV84|P85 Indépendance -Arbre 3 RMT85,ME84|P85,P75 Student ρ = 0.64; ν = 2.62 RMT85,REV84|P85,P75 Frank θ = 1.57 Arbre 4 ME84,REV84|P85,P75,RMT85 Indépendance -2.4.5 Comparaison de modèles

Les étapes de choix de copules et d’estimation des paramètres ont été refaites pour les 120 décompositions possibles. Les AIC des différents modèles vont de -4189 à -3913. Le modèle initial se trouve parmi les pires testés avec un AIC de -3929.

Le meilleur modèle selon le critère de l’AIC est en décomposition vigne D. Le tableau suivant présente la décomposition, ainsi que les copules choisies à l’estimation séquentielle et les paramètres trouvés par l’estimation globale.

Table 2.3 – Modèle ayant l’AIC le plus bas et ses paramètres estimés avec la pseudo-vraisemblance globale

Paire Copule Paramètre(s)

Arbre 1 P85,RMT85 Gumbel θ = 10.63 RMT85,ME84 Gumbel θ = 13.44 ME84,P75 Gumbel θ = 8.67 P75,REV84 Gumbel θ = 4.18 Arbre 2 P85,ME84|RMT85 Frank θ = 1.89 RMT85,P75|ME84 Normal ρ = 0.40 ME84,REV84|P75 Frank θ = 1.95 Arbre 3 P85,P75|RMT85,ME84 Gumbel θ = 1.91 RMT85,REV84|ME84,P75 Joe de survie θ = 1.30

Arbre 4

(36)

En comparant le modèle ayant le plus petit AIC et le modèle initial avec le test de Vuong, on trouve que le meilleur modèle est plus approprié avec un seuil observé de 0,011. On remarque que malgré la grande différence entre les AIC des deux modèles, on ne rejette pas très fortement l’hypothèse qu’ils sont équivalents.

(37)

Chapitre 3

Génération de données synthétiques

L’objectif de ce mémoire est d’étudier des méthodes de génération de données synthétiques. Ces méthodes permettent d’obtenir des données confidentielles pour les analyses d’un plus grand nombre de chercheurs. L’idée de cette méthode est d’ajuster un modèle aux données originales et de générer des données de celui-ci. Pour améliorer les analyses des chercheurs faites à partir des données synthétiques, il est préférable de permettre l’accès à plusieurs ensembles de données synthétiques (Rubin (1993)). Les chercheurs doivent alors utiliser des techniques adaptées de l’imputation multiple pour réaliser leurs analyses. Ce mémoire ne traitera pas de cet aspect.

Trois méthodes permettant de générer des données synthétiques sont présentées dans ce cha-pitre. Ces méthodes peuvent être utilisées pour générer des données partiellement ou entière-ment synthétiques. La première, General Additive Data Pertubation (GADP), a été proposée par Muralidhar et collab. (1999). Elle emploie la loi normale multivariée pour générer les don-nées synthétiques. La deuxième méthode, nommée C-GADP puisqu’elle est une adaptation GADP, a été proposée par Sarathy et collab. (2002). C-GADP exploite une propriété de la loi normale multivariée et de la copule normale pour générer les données. Ces deux méthodes supposent une distribution normale ou une copule normale entre les variables. Un problème de la génération de données synthétiques est qu’elle ne permet souvent pas de capturer les relations complexes entre les variables. Nous proposons une troisième méthode employant plutôt des modèles de copules en vigne, nommée simplement méthode vigne. Nous verrons les méthodes pour générer des données partiellement d’abord, puis leur extension pour en générer des entièrement synthétiques.

Pour la suite, on notera V , la matrice des données observées de dimension n × d que l’on peut diviser en X et S, respectivement les matrices des p variables sensibles et des q non-sensibles ou quasi-identificatrice dans ce mémoire. La matrice ˜X de taille similaire à X représente les données simulées. Si les données sont entièrement synthétiques, alors S est vide. On notera ˜V la matrice des données que l’on rend accessibles, donc celle composée de ˜X et S. On notera

(38)

Vj la j-ième colonne de la matrice V ou la j-ième variable.

3.1 Données partiellement synthétiques

3.1.1 GADP

On notera les moyennes et les variances échantillonales des données observées par µ_V et Σ_{V V} et celles des données synthétiques par µ_V˜ et Σ_{V ˜}˜_V. On écrit

µV = [µX µS] µ_V˜ = [µ_X˜ µS] ΣV V = " Σ_XX Σ_XS Σ_SX Σ_SS # Σ_{V ˜}˜_V = " Σ_{X ˜}˜_X Σ_XS˜ Σ_{S ˜}_X Σ_SS # .

Les vecteurs µX, µS, µ_X˜ représentent respectivement les moyennes de X, de S et de ˜X, Σ_XX, ΣSS, Σ_{X ˜}˜_X, leurs matrices de variances. Alors que Σ_{X ˜}_X, Σ_{S ˜}_X, ΣSX représentent les

ma-trices de covariances entre (X et ˜X), (S et ˜X) et (S et X) respectivement.

L’hypothèse de GADP est que les données observées et simulées sont distribuées selon une loi normale multivariée (X, S, ˜X) ∼ N     [µ_X, µS, µ_X˜],     Σ_XX Σ_XS Σ_{X ˜}_X Σ_SX Σ_SS Σ_{S ˜}_X Σ_XX˜ Σ_XS˜ Σ_{X ˜}˜_X         . (3.1)

On peut aisément montrer alors que toutes les distributions marginales et conditionnelles sont des lois normales. En particulier, la loi des données simulées ˜X sachant les valeurs des variables observées V = v_i est

˜

X|V = vi ∼ N (µ_X˜ + Σ_XV˜ Σ−1_{V V}(vi− µV), Σ_{X ˜}˜_X− Σ_XV˜ Σ−1_{V V}Σ_{V ˜}_X). (3.2) Les données synthétiques ˜X sont générées à partir de (3.2). Il ne reste qu’à définir les informa-tions relatives à la matrice ˜X. Intuitivement, on souhaite que ˜X, les données simulées soient similaires à X, les données sensibles. Pour ce faire, les auteurs posent donc que les moyennes, les matrices de variances et leur covariance avec S sont égales, ainsi

µ_X˜ = µX, Σ_{X ˜}˜_X = ΣXX et Σ_XS˜ = ΣXS. (3.3)

Il ne manque qu’une seule information pour pouvoir générer les données avec l’équation (3.2), soit la covariance entre X et ˜X. Les auteurs posent la condition suivante :

Σ_{X ˜}_X = Σ_XSΣ−1_SSΣ_SX. (3.4) Ainsi, on simule chaque réalisation ˜xi de la loi normale (3.2), avec les paramètres spécifiés en

(39)

en découle. Elle est présentée à la section suivante. Autrement dit, les ˜xi sont générés selon

une loi dont la variance est toujours la même, mais dont la moyenne dépend de v_i. Aussi plus la covariance entre les variables sensibles et non-sensibles est élevée plus la moyenne de la loi dont ˜xiest généré tiendra compte de la valeur de l’observation vi. Ou aussi, plus l’observation

synthétique sera similaire à l’observation originale.

Promesse de confidentialité

L’avantage de la méthode GADP est qu’on peut montrer que f (X| ˜X, S) = f (X|S) et ceci par la condition (3.4). Autrement dit, l’information dévoilée sur les variables sensibles n’est pas plus grande en connaissant les variables simulées que celle en connaissant les variables non-sensibles. Pour justifier que f (X| ˜X, S) = f (X|S), on peut montrer que les lois conditionnelles X|S et X|(S, ˜X) sont les mêmes.

X|S = si ∼ N (µX+ ΣXSΣ−1SS(si− µS), ΣXX− ΣXSΣ−1SSΣSX) X| ˜V = ˜vi ∼ N (µX+ Σ_{X ˜}_VΣ−1_{V ˜}˜_V(˜vi− µ_V˜), ΣXX − Σ_{X ˜}_VΣ−1_{V ˜}˜_VΣ_{V X}˜ ) Or, µX+ Σ_{X ˜}_VΣ−1_{V ˜}˜_V(˜vi− µ_V˜) = µX + h Σ_{X ˜}_X Σ_XSi " Σ_{X ˜}˜_X Σ_XS˜ Σ_{S ˜}_X ΣSS #−1" ˜ xi− µ_X˜ si− µS # = µX + h ΣXSΣ−1_SSΣSX ΣXS i " Σ_XX Σ_XS Σ_SX Σ_SS #−1" ˜ xi− µ_X˜ si− µS # = µX + ΣXSΣ−1_SS(si− µS) et Σ_XX− Σ_{X ˜}_VΣ−1_˜ V ˜VΣV X˜ = ΣXX− h Σ_{X ˜}_X Σ_XSi " Σ_{X ˜}˜_X Σ_XS˜ Σ_{S ˜}_X ΣSS #−1" Σ_XX˜ ΣSX # = ΣXX− h Σ_XSΣ−1_SSΣ_SX Σ_XSi " Σ_XX Σ_XS ΣSX ΣSS #−1" Σ_XSΣ−1_SSΣ_SX ΣSX # = Σ_XX− Σ_XSΣ−1_SSΣ_SX

Ceci revient aussi à dire que pour générer les données synthétiques, on simule chaque obser-vation ˜xi de la loi normale multivariée avec la moyenne suivante

µX + ΣXSΣ−1_SS(si− µS)