• Aucun résultat trouvé

Structures de corrélation partiellement échangeables : inférence et apprentissage automatique

N/A
N/A
Protected

Academic year: 2021

Partager "Structures de corrélation partiellement échangeables : inférence et apprentissage automatique"

Copied!
179
0
0

Texte intégral

(1)

Structures de corrélation partiellement échangeables -

Inférence et apprentissage automatique

Thèse

Samuel Perreault

Doctorat en mathématiques

Philosophiæ doctor (Ph. D.)

(2)

Structures de corrélation partiellement échangeables

Inférence et apprentissage automatique

Thèse

Samuel Perreault

Sous la direction de:

Thierry Duchesne, directeur de recherche Johanna G. Nešlehová, codirectrice de recherche

(3)

Résumé

Avec la disponibilité croissante de données de grande dimension, plusieurs modèles statis-tiques ont été récemment développés pour offrir plus de flexibilité dans la structure de dé-pendance sous-jacente à leur utilisation. Ceux-ci nécessitent généralement que le statisticien spécifie manuellement la façon dont les variables sont liées les unes aux autres, par exemple via une structure hiérarchique définissant l’indépendance conditionnelle ou des propriétés d’échangeabilité. La présente thèse développe et justifie théoriquement des algorithmes per-mettant d’apprendre et inférer ces structures.

Dans un premier chapitre, les propriétés théoriques du vecteur de corrélation de Kendall – la matrice vectorisée des τ de Kendall, une mesure d’association basée sur les rangs – sont obtenues sous l’hypothèse que le vecteur aléatoire à l’étude peut être divisé en sous-vecteurs échangeables disjoints. Dans ce cas, si les variables sont ordonnées de manière à ce que les sous-vecteurs échangeables soient contigus, alors la matrice de corrélation de Kendall est nécessairement structurée en blocs avec un bloc diagonal par sous-vecteur échangeable. Re-couvrer la structure du modèle équivaut alors à reRe-couvrer la structure des blocs de la matrice, c’est-à-dire les égalités parmi ses entrées. À cet effet, la log-vraisemblance asymptotique du vecteur de corrélation de Kendall est utilisée pour concevoir un algorithme itératif inspiré des méthodes de regroupement hiérarchique, qui consiste à regrouper les variables itérative-ment jusqu’à ce qu’elles ne foritérative-ment qu’un seul groupe. En parallèle, une étude approfondie de la covariance du vecteur de corrélation de Kendall, un élément central de sa loi asympto-tique, est fournie. En particulier, il est montré que l’échangeabilité partielle, telle que définie dans ce chapitre, induit également une certaine structure dans cette matrice (des égalités parmi ses entrées) ; une structure légèrement plus complexe que la structure en blocs de la matrice de corrélation de Kendall elle-même. Un critère théoriquement justifié pour déter-miner le modèle le plus approprié, i.e. le nombre de sous-vecteurs échangeables, parmi ceux obtenus en cours d’application de la procédure est également fourni.

La tâche consistant à déterminer le nombre approprié de sous-vecteurs échangeables est en-suite traitée plus rigoureusement dans un deuxième chapitre. L’hypothèse considérée est plus générale, en ce sens qu’aucune hypothèse n’est faite sur les vecteurs aléatoires sous-jacents ; il est supposé que les corrélations sont des combinaisons linéaires d’un plus petit

(4)

nombre de paramètres, ce qui inclut les structures matricielles par blocs pour la matrice de corrélation comme cas particulier. Les distributions de diverses statistiques sous l’hypo-thèse nulle sont présentées. Elles quantifient, à l’aide des normes euclidienne ou supremum, la distance entre le vecteur de corrélation de Kendall empirique et sa version structurée sous l’hypothèse nulle ; des distances normalisées sont également considérées. En contraste avec le premier chapitre, des résultats sous le régime asymptotique de grandes dimensions (high-dimensional asymptotics) s’ajoutent à ceux sous le régime asymptotique classique. Les résultats obtenus sous l’hypothèse de corrélations de Kendall égales sont ensuite reconsidé-rés sous l’hypothèse plus forte que le vecteur aléatoire sous-jacent est entièrement échan-geable. Ces résultats permettent l’élaboration de stratégies efficaces pour estimer la matrice de covariance du vecteur de corrélation de Kendall, qui est au cœur des procédures de test présentées, en plus de permettre la décomposition des diverses statistiques de test en deux composantes orthogonales.

Dans les deux chapitres susmentionnés, des exemples sont fournis pour illustrer comment les résultats permettent de trouver une structure raisonnable pour la matrice de corréla-tion de Kendall pour une applicacorréla-tion donnée. L’applicacorréla-tion du premier chapitre implique des log-rendements boursiers et celui du deuxième des mesures du niveau de la mer. Il est évident à partir des exemples que les matrices par blocs ne peuvent offrir qu’une descrip-tion simpliste de la structure de dépendance dans la réalité. Dans le troisième chapitre de la présente thèse, des structures matricielles plus générales sont considérées. Un exemple d’une telle structure est donné par une matrice en blocs dont les blocs diagonaux sont eux-mêmes des matrices en blocs. En itérant ce processus, on crée une famille de matrices dites hiérarchiques, pour lesquelles un algorithme d’apprentissage est proposé.

(5)

Abstract

With the rise of high-dimensional data, many statistical models were recently developed to provide more flexibility in the dependence structure underlying their usage. These generally require the statistician to manually specify how the variables are related to one another, for example through a hierarchical structure defining conditional independence or exchange-ability properties. The present thesis lays the foundations for the development of theoreti-cally motivated data-driven structure determination algorithms specific to this situation. In a first chapter, theoretical properties of the Kendall correlation vector – the vectorized matrix of pair-wise Kendall’s τ, a rank-based association measure – are derived under the hypothesis that the random vector under study can be partitioned into disjoint exchangeable subvectors. In this case, given that the variables are ordered so that the exchangeable sub-vectors are contiguous, the Kendall correlation matrix necessarily is block structured with one diagonal block per exchangeable subvector. Recovering the model structure amounts to recovering the block structure of the matrix, i.e. the equalities among its entries. For this purpose, the asymptotic log-likelihood of the Kendall correlation vector is used to devise an iterative algorithm inspired by hierarchical clustering that groups the variables together un-til they form a single cluster. Along the way, an in-depth description of the covariance of the Kendall correlation vector, a core element of its asymptotic likelihood, is provided. In par-ticular, it is shown that partial exchangeability, as defined in this chapter, also induces some structure in this matrix (equalities among its entries); a peculiar structure slightly more com-plex than the block structure of the Kendall correlation matrix. A theoretically motivated criterion for determining the most appropriate model, i.e. the number of exchangeable sub-vectors, among those obtained during the grouping procedure is also provided.

The task of determining the appropriate number of exchangeable subvectors is then treated more rigorously in a second chapter. The hypothesis considered is more general in the sense that no assumption is made on the underlying random vectors; it is hypothesized that the Kendall correlations are linear combinations of a smaller number of parameters, which in-cludes block structures of the Kendall correlation matrix as a special case. The null distri-butions of various statistics are provided. They quantify the distance between the empirical Kendall correlation vector and a structured version of it using the Euclidean or supremum

(6)

norms; standardized distances are also considered. In contrast with the first chapter, results under high-dimensional asymptotics complement those for the classical asymptotic frame-work. The results derived for the hypothesis of equal Kendall correlations are then refined for the stronger null that the underlying vector is fully exchangeable. These latter results provide efficient strategies for estimating the covariance matrix of the Kendall correlation vector, which is core to the hypothesis testing procedures presented, as well as allowing the decomposition of the various test statistics into two orthogonal components.

In the two aforementioned chapters, examples are provided to illustrate how one can use the results for finding a reasonable structure for the Kendall correlation matrix in given ap-plications. Our illustrations involve financial log-returns in the first chapter and sea levels at various locations in the second. It is obvious from the examples that block matrices can only offer a simplistic description of the actual dependence structure at work. In the third chapter of the present thesis, more general matrix structures are considered. An example of such structure is given by a block matrix whose diagonal blocks themselves form block ma-trices. Iterating this process creates the family of hierarchical matrices, for which a learning algorithm is proposed.

(7)

Table des matières

Résumé ii

Abstract iv

Table des matières vi

Liste des tableaux viii

Liste des figures x

Remerciements xii

Avant-propos xiii

Introduction 1

1 Detection of block-exchangeable structure in large-scale correlation matrices 15

1.1 Résumé . . . 15

1.2 Abstract . . . 15

1.3 Introduction . . . 16

1.4 Partial exchangeability assumption . . . 19

1.5 Improved estimation of T . . . 22

1.6 Learning the structureG . . . 24

1.7 Estimation of linear correlation . . . 29

1.8 Simulation study . . . 30

1.9 Application to stock returns . . . 33

1.10 Conclusion . . . 34

2 Hypothesis tests for structured rank correlations matrices 39 2.1 Résumé . . . 39

2.2 Abstract . . . 39

2.3 Introduction . . . 40

2.4 Preliminary considerations. . . 41

2.5 Test statistics . . . 46

2.6 Asymptotic null distributions of the test statistics . . . 48

2.7 Simulation study . . . 51

2.8 Application . . . 54

(8)

3 Apprentissage de structures hiérarchiques 63

3.1 Introduction . . . 63

3.2 Partition récursive. . . 63

3.3 Structure de corrélation hiérarchique . . . 65

3.4 Estimation exploitant la structure . . . 68

3.5 Algorithme d’apprentissage de structures . . . 70

3.6 Application : données financières . . . 78

Conclusion 82 A Supplément au Chapitre 1 : Detection of block-exchangeable structure in large-scale correlation matrices 88 A.1 EstimatingΣ . . . 88

A.2 Proofs . . . 97

A.3 Supplement to the simulation study . . . 106

A.4 Supplement to the data application . . . 110

B Supplément au Chapitre 2 : Hypothesis tests for structured rank correlation matrices 116 B.1 Proofs from Section 2.4 . . . 117

B.2 Proofs from Section 2.5 . . . 122

B.3 Proofs from Section 2.6 . . . 125

B.4 Estimation of the covariance matrix of Kendall’s tau . . . 130

B.5 Numerical approximation of p-values . . . 133

B.6 Simulation results . . . 137

B.7 Additional material for the data application . . . 148 C Supplément au Chapitre 3 :

Apprentissage de structures hiérarchiques 151

(9)

Liste des tableaux

1.1 Average values of ν2 and ξ(α)for various α for 500 simulation runs with

w=0.75. . . 32

A.3.1 Average values of ν1and ν2over the 500 simulations, as defined in Section

1.8, from multivariate Normal distribution for all combinations of factors

(T, n)and shrinkage intensities w∈ {0, 0.25, 0.5, 0.75, 1}. . . 108

A.3.2 Average values of ν1and ν2over the 500 simulations, as defined in Section

1.8, from a Cauchy copula with uniform(0, 1)margins for all combinations

of factors(T, n)and shrinkage intensities w∈ {0, 0.25, 0.5, 0.75, 1}. . . 108

A.3.3 Proportion of the 500 samples for which Algorithm A.3.1 (w= 0) identified

the true structure when it was present on the path returned by Algorithm

1.1 (w=0.75).. . . 109

B.6.1 Estimated sizes (in %) for the tests of H0with B=1pperformed at the

nom-inal level 5%. Each entry is based on 2500 samples of size n in dimension d drawn from a Normal distribution with Kendall’s tau matrix T is as in

Eq. (2.17). . . 138

B.6.2 Estimated sizes (in %) for the tests of H0∗ withG = {{1, . . . , d}}performed

at the nominal level 5%. Each entry is based on 2500 samples of size n in dimension d drawn from a Normal distribution with Kendall’s tau matrix

T is as in Eq. (2.17).. . . 139

B.6.3 Estimated rejection rates of tests of H0with B = 1p and S = (1/n)Ip,

per-formed at nominal level 5%. Each entry is based on 2500 n×d datasets

drawn from a Normal distribution with Kendall’s tau matrix Tin Eq. (2.20)

(a, single departure) or (b, column departure) with ∆ = 0.1; T is as in

Eq. (2.17). . . 140

B.6.4 Estimated rejection rates of tests of H0with B = 1p and S = (1/n)Ip,

per-formed at nominal level 5%. Each entry is based on 2500 n×d datasets

drawn from a Normal distribution with Kendall’s tau matrix Tin Eq. (2.20)

(a, single departure) or (b, column departure) with ∆ = 0.2; T is as in

Eq. (2.17). . . 141

B.6.5 Estimated rejection rates of tests of H0∗withG = {{1, . . . , d}}performed at

nominal level 5%. Each entry is based on 2500 n×d datasets drawn from

a Normal distribution with Kendall’s tau matrix T in Eq. (2.20) (a) with

(10)

B.6.6 Estimated rejection rates of tests of H0∗withG = {{1, . . . , d}}performed at

nominal level 5%. Each entry is based on 2500 n×d datasets from a Normal

distribution with Kendall’s tau matrix Tin Eq. (2.20) (b) with∆=0.1; T is

as in Eq. (2.17). . . 143

B.6.7 Estimated rejection rates of tests of H0∗withG = {{1, . . . , d}}performed at

nominal level 5%. Each entry is based on 2500 n×d datasets from a Normal

distribution with Kendall’s tau matrix Tin Eq. (2.20) (a) with∆=0.2; T is

as in Eq. (2.17). . . 144

B.6.8 Estimated rejection rates of tests of H0∗withG = {{1, . . . , d}}performed at

nominal level 5%. Each entry is based on 2500 n×d datasets from a Normal

distribution with Kendall’s tau matrix Tin Eq. (2.20) (b) with∆=0.2; T is

as in Eq. (2.17). . . 145

B.6.9 Estimated sizes (in %) for the tests of H0with B the block membership

as-sociated toGof (2.19) and S = (1/n)Ip, performed at the nominal level 5%.

Each entry is based on 2500 n×d datasets from a Normal distribution with

Kendall’s tau matrix T as in Eq. (2.18) with cij = 0.4− (0.15)|i−j|for all

i, j∈ {1, . . . , 3}. . . 146

B.6.10 Estimated sizes (in %) for the tests of H0∗ with G of (2.19), performed at

the nominal level 5%. Each entry is based on 2500 n×d datasets from a

Normal distribution with Kendall’s tau matrix T as in Eq. (2.18) with cij =

0.4− (0.15)|i−j|for all i, j∈ {1, . . . , 3}.. . . 146

B.6.11 Estimated rejection rates of tests of H0 with B the block membership

as-sociated to G of (2.19) and S = (1/n)Ip, performed at nominal level 5%.

Each entry is based on 2500 n×d datasets from a Normal distribution with

Kendall’s tau matrix Tin Eq. (2.20) (a) with∆= 0.1 and T as in Eq. (2.18)

with cij =0.4− (0.15)|i−j|for all i, j ∈ {1, 2, 3}. . . 147

B.6.12 Estimated rejection rates of tests of H0∗withG of (2.19), performed at

nom-inal level 5%. Each entry is based on 2500 n×d datasets from a Normal

distribution with Kendall’s tau matrix T as in Eq.(2.20)(a) with∆ = 0.1

and T as in Eq.(2.18)with cij =0.4− (0.15)|i−j|for all i, j∈ {1, . . . , 3}. . 147

B.7.1 P-values (%) obtained from individually testing equi-correlation in each of

the 12 non-trivial blocks shown in Figure 2.2 (b). The ID row provides the corresponding column of B or, alternatively, the corresponding block id as given in Figure 2.2 (b). The last column reports the p-value obtained when

testing H0with B. Only the statistics Enpand Mnpwith S = (1/n)Ipwere

(11)

Liste des figures

1.1 The empirical Kendall’s tau matrix of 107 stocks included in the NASDAQ100

index in the original labeling (left) and after relabeling (middle). The right panel shows the improved estimate obtained from Algorithm 1.1 and

struc-ture selection with α=.5. . . 17

1.2 Cluster membership and Kendall correlation matrices before (and T∗) and

after (∆ and T) relabeling of the variables. . . . 21

1.3 The matrices T, ˆTand ˜Tin Example 1.3. . . 24

1.4 The estimates ˜T(|G∗)and ˜T(Tˆ|G)from Example 1.4, and the cluster

mem-bership matrices∆ and ∆∗of the partitionsGandG∗, respectively. . . 25

1.5 The pairs of matrices((i), ˜T(i)), i∈ {10, 5, . . . , 1}corresponding to the path

Pobtained from Algorithm 1.1 in Example 1.5. . . 27

1.6 The pairs(i, α(i)), i∈ {10, . . . , 1}, computed in Example 1.6. . . . . 29

1.7 The matrices T1, . . . , T8used in the simulation study. . . 31

1.8 The pairs(i, α(i))for i∈ {20, . . . , 10}corresponding to the path returned by

Algorithm 1.1 applied to the stock returns residuals. . . 34

2.1 Location and indexation of the d= 18 coastal stations. The colours indicate

hypothesized clusters. . . 55

2.2 Matrix of empirical Kendall’s tau (a) and its block structured equivalent (b).

The diagonal entries of the matrices are such that they match the colour of the station they refer to in Figure 2.1. The indexation indicates the column of

B that encodes the constraints associated to each block. . . . 56

3.1 (a) Un exemple d’arbre enracinéG avec ses nœuds colorés selon δ. (b) Une

matrice de corrélation T cohérente avec(G, δ). . . 64

3.2 Un exemple de matrice de corrélation T et de certaines de ses composantes.

(a) La matrice T. (b) La sous-matrice T(0,1), qui correspond à la matrice de

corrélation de (X1, . . . , X10). (c) Dans le haut, les matrices de corrélations

T(0,1,k), k= 1, 2, 3, de(X1, X2),(X3, X4, X5)et(X6, . . . , X10), respectivement.

Au bas, la matrice T†qui satisfait (3.6) avec G = G(0,1), qui est aussi la

ma-trice de corrélation de(X1, X3, X6), entre autres. . . 66

3.3 Un exemple de matrice de corrélation T et de son estimation. (a) La matrice

Tavec certains de ses blocs identifiés. (b) Un estimé empirique ˆTde T. (c)

Le calcul des trois estimés ¯τ((0r,s)), 1 6 r < s 6 3 de (3.11), décomposé en

deux étapes de moyennage : en haut, la matrice obtenue après un premier

(12)

3.4 Animation illustrant l’application de l’algorithme. Cliquez pour débuter

l’ani-mation. . . 71

3.5 (a) La structure triviale (G00, 0)et un exemple d’estimateur empirique ˆT =

¯

T(,G00, 0). (b) Une structure binaire (G0, 1)respectant la condition (3.15),

avec ses nœuds colorés selon leur analogue dans(G, δ), s’il existe, et

l’esti-mateur structuré ¯T(,G0, 1). (c) La structure(G, δ)et l’estimateur structuré

¯

T(,G, δ)correspondant. . . 72

3.6 (a) Un exemple de structure. (b) La structure résultant de l’élimination du

nœud violet (0, 1, 2), telle qu’en (3.14). (c) Un exemple de structure. (d) La

structure résultante après l’application de A, telle que décrite à la

sous-section 3.5.2. . . 73

3.7 Les structures associées aux étapes du test de validation, accompagnées de

leur estimateur correspondant. (a) La structure (G0, δ0)au début de la

pro-cédure. Le nœud v considéré est coloré en violet. (b) La structure(G∗0, δ∗0)

avec ¯T∗0. (c) La structure(G∗1, δ∗1)avec ¯T∗1. (d) La structure(G0, δ0)juste

après l’élimination du nœud violet. . . 76

3.8 Les structures associées aux étapes du test de simplification, accompagnées

de leur estimateur correspondant. (a) La structure (G0, δ0) au début de la

procédure. Le nœud v considéré est coloré en turquoise. (b) La structure

(G∗0, δ∗0)avec ¯T∗0. (c) La structure(G∗1, δ∗1)avec ¯T∗1. (d) La structure(G0, δ0)

juste après l’élimination du nœud turquoise. . . 77

3.9 Dendrogramme circulaire illustrant la structure obtenue en appliquant

l’Al-gorithme 3.1 aux données financières du NASDAQ100. . . 79

A.1.1 The matrix T (left) and a sub-matrix ofΣ (right) from Example A.1. The cells

are tinted so that, in each matrix, all entries sharing the same value are of the

same color and color intensity. . . 92

A.1.2 Submatrices ofΣ, Θ and(τ+1)(τ+1)>from Example A.2. The same

vec-torization of T as in Example A.1 is used. . . . 95

A.3.1 Examples of matrices ˆTobtained from data generated from the Normal

cop-ula for 12 different combinations of T and n.. . . 107

B.7.1 Time series of April’s mean sea level measured at four different locations from year 1954 to 2018, with corresponding linear regression, in blue,

per-formed using time of measurement as explanatory variable. . . 148

C.1 Rendements hebdomadaires (rt) calculés pour cinq compagnies cinq du

NAS-DAQ100 pour la période étudiée (t entre 15-07-2015 et 14-08-2019, les

mer-credis seulement). . . 153

C.2 En haut, la matrice de corrélation empirique des 100 titres qui forment le jeu

de données financières (NASDAQ100). En bas, la matrice structurée obtenue en appliquant l’Algorithme 3.1. Les titres sont ordonnés de la même manière

dans les deux matrices, de telle sorte que les blocs soient continus. . . 154

C.3 La structure obtenue en appliquant l’Algorithme 3.1 aux données financières

(NASDAQ100). Les titres sont accompagnés de leur étiquette industry selon

(13)

Remerciements

Je tiens d’abord à remercier mes directeurs de recherche, Thierry Duchesne et Johanna G. Nešlehová, pour qui j’ai le plus grand respect, et qui se sont montrés à l’écoute tout au long de cette aventure. Vous m’avez appris, par votre minutie, que c’est en faisant les choses bien qu’on finit par pouvoir les faire mieux.

J’en profite aussi pour remercier mes directeurs de maîtrise Hélène Cossette et Étienne Mar-ceau, qui n’ont cessé de me soutenir et de m’encourager depuis mon passage dans leur la-boratoire.

Je dois aussi des remerciements au Département de mathématiques et de statistique de l’Uni-versité Laval, au Fonds de recherche du Québec – Nature et technologies (FRQNT), à l’Ins-titut des sciences mathématiques (ISM), à l’Insl’Ins-titut canadien des sciences statistiques (IN-CASS) et au Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG), qui directement ou par l’entremise de mes directeurs ont rendu possible la poursuite de ma recherche par leur soutien financier.

Je tiens de plus à remercier mes amis, en particulier ceux avec qui j’ai co-habité durant mes années collégiales et universitaires, mes amis d’actuariat avec qui j’ai joué au baby-foot et mes amis de toujours en région.

Finalement, je tiens à remercier tout particulièrement Chloé et les membres de ma famille, Félix, Jérémy (et toute sa famille), Maman et Papa. Je vous aime.

(14)

Avant-propos

La présente thèse est consituée de cinq chapitres, incluant deux articles dont je suis l’auteur principal. Le premier article, publié en janvier 2019 dans la revue Journal of Multivariate Ana-lysis, s’intitule Detection of block-exchangeable structure in large-scale correlation matrices. Il est reproduit presque intégralement au Chapitre1. Seuls des clarifications mineures ont été ap-portées ; tout autre changement est soit typographique ou il concerne la numérotation des sections et des équations. Le deuxième article, qui s’intitule Hypothesis tests for structured rank correlation matrices, a été soumis pour publication le 19 juillet 2020 et (le manuscrit) est reproduit presque intégralement au Chapitre2.

Ces deux articles ont été écrits en collaboration avec mes codirecteurs, Thierry Duchesne et Johanna Nešlehová, qui, par l’entremise de nombreuses discussions enrichissantes, m’ont guidé lors des périodes d’exploration et de développement des idées, en plus de jouer des rôles déterminants lors de la rédaction des manuscrits.

À l’exception du Corolaire1.1, de la Section1.7et de la preuve du LemmeA.2.1, travaillés en majeure partie par Johanna, toutes les idées originales et tous les résultats présentés dans cette thèse sont les fruits de mon travail. Le troisième chapitre contient seulement du matériel pour l’instant exclusif à la thèse.

Article associé au Chapitre1

Perreault, S., Duchesne, T., Nešlehová, J. G. (2019). Detection of block-exchangeable structure in large-scale correlation matrices. Journal of Multivariate Analysis, 169 :400–422.

(15)

Introduction

Motivation

Lors du processus de modélisation statistique, l’utilisation de modèles échangeables, quoi-qu’ils permettent de fixer le nombre de paramètres à estimer peu importe la dimension du vecteur aléatoire considéré, ne permet généralement pas de capturer l’essentiel de la dépen-dance entre les variables. Une façon naturelle d’induire plus de flexibilité tout en conservant les propriétés commodes des modèles échangeables consiste à partitionner les variables étu-diées en groupes et de considérer les variables d’un groupe donné échangeables. Le pro-cessus de modélisation se fait alors en deux étapes : chaque groupe est modélisé indépen-demment des autres, tandis que la dépendance inter-groupes est prise en charge par un modèle global. Les modèles de ce type portent souvent l’adjectif hiérarchique, en référence à la structure étagée qu’ils sous-entendent. Naturellement, on peut itérer cette procédure pour obtenir des modèles à plusieurs niveaux, qu’on visualise généralement à l’aide d’arbres enracinés (voir rooted tree dans, e.g., Lauritzen,1996, pp. 6-7). La flexibilité induite par cette méthode a toutefois un coût : l’ajustement de tels modèles nécessite que le statisticien défi-nisse une structure avant de pouvoir estimer les paramètres. Cette étape peut être fastideuse lorsque le nombre de variables considérées est grand et peut aussi constituer une hypothèse difficile à valider. La présente thèse a pour objectif principal de fournir certains éléments essentiels à l’apprentissage automatique, à partir de données (data-driven), d’une structure de dépendance dans des contextes où le vecteur aléatoire étudié est supposé partiellement échangeable. L’emphase est mise sur l’échangeabilité par blocs et son extension naturelle aux modèles hiérarchiques décrite ci-haut. Plus généralement, on s’intéresse au cas où le vecteur aléatoire étudié à une structure de corrélation partiellement échangeable, en ce sens que la ma-trice de corrélation de Kendall de ce vecteur (ou une sous-mama-trice de celle-ci) est invariante par rapport à certaines permutations de ses composantes.

Dans ce chapitre, on introduit d’abord quelques concepts (échangeabilité, copule, τ de Ken-dall, inverse de Moore-Penrose) indispensables pour une bonne compréhension de la thèse. On fait ensuite une brève revue des travaux qui ont rendu possible la présente étude, en plus de donner une forme générale pour les hypothèses étudiées. Une description de l’organisa-tion des chapitres suivants conclut l’introducl’organisa-tion.

(16)

Notion préliminaires

Vecteurs aléatoires échangeables

Un vecteur aléatoire X = (X1, . . . , Xd)de dimension d est dit échangeable lorsque sa distribu-tion est invariante par rapport aux permutadistribu-tions de ses composantes, c’est-à-dire lorsque

X =L π(X) (0.1)

pour toutes permutations π de d éléments ; le symbole =L dénote l’égalité des distributions des vecteurs aléatoires de chaque côté. Dans cette thèse, on s’intéresse particulièrement aux vecteurs échangeables infiniment extensibles. On dit X = (X1, . . . , Xd)infiniment extensible s’il existe une suite infinie de variables aléatoire Xd+1, Xd+2, . . . telle que pour tout d∗ > d, le vecteur aléatoire(X1, . . . , Xd∗)est échangeable.

On réfère souvent à la publication du théorème de Bruno de Finetti(1937), comme un mo-ment marquant de l’étude des vecteurs échangeables infinimo-ment extensibles (pour la suite, simplement appelés échangeables). Ce théorème fut notamment généralisé parHewitt and

Savage(1955) ; on présente ici une version attribuée àOlshen(1974).

Theorem 0.1. Soit X = (Xi)di=1 un vecteur aléatoire réel, échangeable et infiniment extensible. Alors, il existe une variable aléatoire réelle ξ telle que

P(X1≤ x1, . . . , Xd ≤xd|ξ) =

d

i=1

P(Xk ≤ xi|ξ),

pour tout x1, . . . , xd ∈ R et tout k ∈ {1, . . . , d}. En d’autre termes, les composantes de X sont indépendantes et identiquement distribuées conditionellement à ξ.

Le théorème de de Finetti tisse donc un lien élégant entre les concepts d’échangeabilité et d’indépendance conditionnelle. Pour un traitement plus détaillé, on réfère le lecteur au tra-vaux deKingman(1978) et d’Aldous(1985).

Il existe plusieurs façons de généraliser le concept d’échangeabilité. Dans cette thèse, on dit d’un vecteur aléatoire qu’il est partiellement échangeable lorsque sa distribution (ou certaines de ses lois marginales) est (sont) invariante(s) par rapport à un ensemble de permutations donné.

Copule

Naturellement, on peut définir l’échangeabilité (partielle ou complète) de X directement par l’entremise de sa fonction de distribution, qu’on dénote F : Rd 7→ [0, 1]et qu’on suppose continue tout au long de la thèse. On dit que F est échangeable si F(x) = F{π(x)}pour

(17)

dépendance liant les différentes composantes de X, il apparait naturel de supposer l’échan-geabilité non pas de F, mais de sa copule associée : la fonction C telle que

F(x) =C{F1(x1), . . . , Fd(xd)}, pour tout(x1, . . . , xd) ∈Rd, (0.2) où F1, . . . , Fdsont les distributions marginales de X1, . . . , Xd, respectivement. Le théorème de

Sklar(1959) est généralement reconnu comme résultat fondateur de la théorie des copules.

On le spécialise ici au cas où F, F1, . . . , Fdsont continues.

Theorem 0.2. Soit F : Rd 7→ [0, 1] une fonction de distribution continue avec comme marges Fi : R 7→ [0, 1], i = 1, . . . , d. Alors il existe une fonction C : [0, 1]d 7→ [0, 1]unique pour laquelle (0.2) est satisfaite. Inversement, soit C : [0, 1]d 7→ [0, 1] et Fi : R 7→ [0, 1], i = 1, . . . , d, des fonctions de distribution continues. Alors F : Rd 7→ [0, 1]telle que définie en (0.2) est une fonction de distribution avec F1, . . . , Fdcomme marges.

Nécessairement, la copule C est une fonction de distribution uniforme multivariée ; plus pré-cisément la distribution du vecteur aléatoire U = (U1, . . . , Ud)où Ui = Fi(Xi) ∼U(0, 1). En supposant l’échangeabilité de la copule seulement, on permet donc des distributions margi-nales F1, . . . , Fddifférentes pour chaque composante de X, tout en supposant que U

L

=π(U)

pour toute permutation π. Évidemment, l’échangeabilité de X implique l’échangeabilité de

U, tandis que l’affirmation inverse est en général fausse. On réfère le lecteur aux

monogra-phies deNelsen(2006) et deJoe(2015) pour un traitement détaillé de la théorie des copules.

τ de Kendall

Le concept d’échangeabilité est étroitement lié au concept d’équi-corrélation. En effet, si X est échangeable et γij = γ(Xi, Xj)définit une mesure de corrélation (par paires) quelconque, alors la matrice R= {γij}ijcontient nécessairement une unique valeur (en excluant sa diago-nale) ; c’est-à-dire, il existe−16γ0 61 tel que γij =γ0pour tout 1 ≤ i< j≤d. Lorsqu’on suppose que U = {Fi(Xi)}di=1est échangeable, au lieu de X, il est alors nécessaire d’utiliser une mesure de corrélation indépendante des lois marginales Fi, i = 1, . . . , d, pour capturer la propriété d’équi-corrélation. En d’autres termes, on requiert une mesure de corrélation invariante d’échelle, c’est-à-dire invariante par rapport à toute transformation strictement croissante des composantes de X. Le ρ de Spearman et le τ de Kendall, dont on peut retracer les origines aussi loin que dans les travaux deSpearman(1904) et deFechner(1897), respec-tivement, sont probablement les mesures invariantes d’échelle les plus connues, notamment grâce à la monographie de Maurice G.Kendall(1970), originalement publiée en 1948, de qui la deuxième mesure tire son nom. On réfère le lecteur à la Section 17 deKruskal(1958) pour plus de détails historiques concernant les mesures.

(18)

La présente thèse se concentre sur le τ de Kendall, qu’on définit par

τ(Xi, Xj) =P{(Xi−X0i)(Xj−Xj0) >0} −P{(Xi−Xi0)(Xj−X0j) <0} (0.3) = −1+4P{(Xi−Xi0)(Xj−X0j) >0}

= −1+4E Cij(Ui, Uj) , (0.4)

où(Xi0, X0j)est une copie indépendante de(Xi, Xj)et Cijest la distribution marginale bivariée correspondante à (Ui, Uj). La représentation donnée en (0.3) définit τ comme la différence entre les probabilités de concordance et de discordance de deux observations indépendantes tirées de la loi de X. Il est évident, dans (0.3), qu’une transformation strictement monotone croissante appliquée à Xi et Xj (et donc X0i et X0j aussi) produira une corrélation identique. La représentation donnée en (0.4) met en évidence la relation entre τ(Xi, Xj) et la copule Cij de(Xi, Xj), et par surcroit l’invariance de τ par rapport aux lois marginales de X. Tout au long de la thèse, on dénote la matrice de corrélation obtenue T = {τ(Xi, Xj)}ij, qui est

de dimensions d×d ; et on dénote τ le vecteur obtenu en gardant seulement le triangle supérieur de T. Plus de détails sur la vectorisation de T en τ sont donnés aux chapitres1et

2.

À partir d’un jeu de données{(xr1, . . . , xrd)}nr=1de n observations, où xrkest la reobservation correspondant à Xk, on calcule la version empirique de τ(Xi, Xj), qu’on dénote ˆτ(Xi, Xj), en calculant la différence moyenne entre le nombre de paires d’observations concordantes (viz.,(xri−xsi)(xrj−xsj) > 0) et discordantes (viz., (xri−xsi)(xrj−xsj) < 0), ou de façon équivalente ˆτ(Xi, Xj) = −1+ 4 n(n−1) n

r<s 1{(xri−xsi)(xrj−xsj) >0}.

La matrice de corrélation empirique ˆT = {ˆτ(Xi, Xj)}ij de dimensions d×d, aussi étudiée sous sa forme vectorielle ˆτ, est l’objet central de cette thèse, sur lequel l’apprentissage de structures de dépendance est fondé. Les propriétés asymptotiques de √n(τˆτ)lorsque n → ∞ avec d constant sont traitées aux chapitres1et2, tandis que son comportement en grandes dimensions, i.e. quand n, d → ∞, est traité au Chapitre 2. On y décrit notamment

Cov(τˆ) =Σn, la covariance entre les composantes de ˆτ, et sa version asymptotiqueΣ. Tout comme pour le τ de Kendall, le ρ de Spearman ρ(Xi, Xj) peut être exprimé en tant que fonction de la copule Cij et sa version empirique est une fonction de la concordance observée. Le choix de focaliser sur le τ de Kendall, par opposition au ρ de Spearman, est principalement motivé par la forme explicite de Σn donnée e.g. parEl Maache and Lepage

(2003) etGenest et al.(2011). La plupart des résultats présentés dans cette thèse s’appliquent

néanmoins au ρ de Spearman et, de façon plus générale, à plusieurs autres statistiques de la famille des U-statistiques (Hoeffding,1948), un concept abordé plus en détails au Chapitre2.

(19)

Structure de corrélation partiellement échangeable

Tel que suggéré en début de chapitre, on utilise parfois l’adjectif échangeable, dans cette thèse, non pas au sens de (0.1), mais pour décrire T, la matrice de corrélation de Kendall de X. Plus précisémment, on dit que X a une structure de corrélation échangeable, ou de façon équi-valente, que T est échangeable, quand les matrices de corrélation de Kendall de X et π(X) sont identiques pour toute permutation π de d éléments. Une remarque similaire s’applique aussi aux différents types d’échangeabilité partielle considérés. Il est important de noter que l’échangeabilité de X (au sens de sa copule) implique nécessairement que T est échangeable, mais que l’affirmation inverse n’est pas vraie en général.

Inverse généralisé (pseudo-inverse) de Moore-Penrose

Puisqu’on s’intéresse dans cette thèse aux structures de corrélation partiellement échan-geables, il n’est pas rare que l’on doive manipuler des vecteurs aléatoires de la forme ˆττ¯, où ¯τest un vecteur de même longueur que ˆτavec comme élément unique la moyenne des éléments de ˆτ. Conséquemment, on doit aussi travailler avec la matrice de covariance de

ˆ

ττ¯, ou encore avec la matriceΓ telle que ¯τ = Γ ˆτ. Ces deux matrices ne sont pas définies positives, mais plutôt semi-définies positives (voir, e.g.,Harville,1997, Section 14.2 pour les dé-finitions), et elles ne possèdent donc pas d’inverse. Pour travailler avec une matrice A de la sorte, il est souvent utile de faire appel à un inverse généralisé (ou pseudo-inverse) de A, c’est-à-dire une matrice Atelle que AAA = A(Harville,1997, Section 9.1). En vertu du fait que A n’est pas inversible, il existe une infinité de matrices A† respectant cette condi-tion. Dans cette thèse, on utilise l’inverse généralisé de Moore-Penrose, c’est-à-dire l’unique matrice A+qui remplit simultanément les quatres conditions

1. AA+A= A 2. A+AA+=A+ 3.(AA+)> =AA+ 4.(A+A)>= A+A, souvent appelées les conditions dePenrose(1955). On réfère le lecteur au Chapitre 20 de

Har-ville (1997), en particulier au Théoreme 20.1.1, pour plus de détails sur l’inverse généralisé

de Moore-Penrose.

Historique du problème

Inférence

Dans une certaine mesure, le type d’hypothèse considéré dans la présente thèse remonte aux origines même de la statistique mathématique moderne ; par exemple,Pearson and Fi-lon (1898) s’intéressaient déjà à la distribution conjointe des coefficients de corrélation de Pearson d’un vecteur aléatoire gaussien. Depuis, et en particulier grâce l’introduction du test du rapport des vraisemblances parNeyman and Pearson(1928), le nombre de procédures de test concernant la relation entre certains coefficients de corrélation a explosé. En 1946,

(20)

Plackett (1946) recensait déjà pas moins de 31 hypothèses considérées concernant l’égalité de variances et de covariances1(Box,1949). Néanmoins, certains auteurs commeSrivastava

(1966) attribuent àWilks(1946) la formulation d’hypothèses et de tests concernant la matrice de corrélation d’un vecteur aléatoire. Influencé par Wilks,Votaw(1948) a ensuite considéré des hypothèses plus complexes, comme par exemple des structures en blocs pour la matrice de variance-covariance. Ces tests, comme la majorité de ceux qui suivirent, concernent les variances, covariances et corrélations de Pearson et sont adaptés aux cas où le vecteur aléa-toire sous-jacent suit une loi normale. Parmi les contributions influentes qui suivirent, on trouve notamment celles de Bartlett (1950, 1951), Anderson (1963, 1973), Lawley(1963) et

Aitkin et al.(1968).

Plus généralement, il est difficile de séparer le développement des méthodes d’inférence du type étudié dans cette thèse du courant psychométrique, influencé entre autres par

Spear-man(1904) etThurstone(1935), et qui donna naissance à l’analyse factorielle. Pour une revue

sommaire des procédures de tests utilisées dans ce domaine avant 1980, on réfère le lecteur à

Steiger(1980a,b).2C’est d’ailleurs dans ce courant, il semble, que les termes correlational

pat-tern/structural hypothesis/analysis ont pris le sens qu’on leur connait : selonSteiger(1980a), une “hypothèse de structure” corrélationnelle spécifie que certains éléments d’une matrice de corrélation sont identiques, et/ou égaux à une valeur donnée3; voir, e.g.,Bock (1960),Bock and Bargmann

(1966),Anderson(1973),Jöreskog(1970,1978) etMcDonald(1974,1975). Concrètement, pour

un vecteur de corrélations par paires ρ∈ [−1, 1]pavec p3, on les exprime ici sous la forme

H0 : ρ=+ρ∗ (0.5)

où pour L < p, ρ∗ ∈ [−1, 1]p et B ∈ {0, 1}p×L sont connus, tandis que β ∈ [−1, 1]L est inconnu. Dans cette thèse, on se restreint au cas où ρ∗ = 0et on considère une classe plus large de matrices pour B. Parmi la panoplie de méthodes développées pour l’hypothèse (0.5), on fait mention ici de la méthode des moindres carrées généralisés deBrowne(1974,1977,

1984), qui fait intervenir une statistique de test qu’on retrouve (adaptée au τ de Kendall) dans la présente thèse. Elle est de la forme

kΘˆ−1/2(ρˆB ˆβ)k22= (ρˆB ˆβ)>Θˆ−1(ρˆB ˆβ),

où ˆρet ˆβsont des estimateurs de ρ et β, respectivement, et ˆΘ est un estimateur de la matrice de variance-covariance de ˆρ. Le test développé parBrowne(1974) repose sur l’hypothèse que

ˆ

ρ, le vecteur de corrélation de Pearson dans ce cas, soit asymptotiquement gaussien (un fait

1. Certains de ces tests concernent le cas où les coefficients comparés sont calculés sur des échantillons indé-pendants.

2. L’article deSteiger(1980b) contient aussi une discussion critique de la populaire statistique t deHotelling (1940), ainsi que de l’utilisation de la transformation deFisher(1921) parDunn and Clark(1969), qui fut plus tard reprise parMeng et al.(1992) dans un article auquel on réfère beaucoup encore aujourd’hui.

3. Texte original : a correlational “pattern hypothesis” specifies that certain elements in a correlation matrix are equal to each other, and/or to a specified numerical value.

(21)

établi, e.g., par Hsu(1949) des années plus tôt) ; elle a donc l’avantage d’être indépendante de la loi du vecteur aléatoire sous-jacent.

En comparaison avec la corrélation de Pearson, les mesures de corrélation basées sur les rangs comme le ρ de Spearman et le τ de Kendall ont reçu très peu d’attention au cours du XXe siècle, et on peut dire la même chose des hypothèses structurelles les concernant. Néanmoins, une quantité appréciable de travaux sur ˆτont été effectués. Parmi les travaux ayant le plus fortement influencé la présente thèse, on compte naturellement ceux de Hoeff-ding (1947, 1948), qui identifient la distribution normale comme loi asymptotique de ˆτ (et des U-statistiques en général) ; celui plus récent deChen(2018) sur le comportement des U-statistiques sous le régime asymptotique de grandes dimensions ; ceux deBen Ghorbal et al.

(2009) etGenest et al. (2011) sur la matrice de variance-covariance de ˆτ (et donc

indirecte-ment ceux deLindeberg,1927,1929;Borkowf,2002;El Maache and Lepage,2003) ; ainsi que celui deGaißer and Schmid(2010) sur l’hypothèse d’équi-corrélation (de Spearman).

Apprentissage automatique

On trouve aussi dans la littérature psychométrique des références à un bon nombre de logi-ciels permettant la modification séquentielle d’une structure donnée (modification post hoc d’un modèle) ; voir, e.g., la très populaire procédure LISREL (Jöreskog and Van Thillo,1972;

Jöreskog and Sörbom,1996) utilisée à profusion en sciences sociales. Toutefois, les méthodes

d’apprentissage automatique développées dans cette thèse ont été influencées davantage par la littérature sur les copules. Comme suggéré au tout début du chapitre, plusieurs mo-dèles de dépendance basés sur les copules impliquent que T ait une structure particulière ; on pense ici, e.g., à certains types de copules en vignes (Czado,2019), aux copules à facteurs (factor copulas – Krupskii and Joe, 2015; Oh and Patton, 2017), ainsi qu’à certains modèles hiérarchiques (Savu and Trede,2010;Mai and Scherer,2012;Brechmann,2014;Joe,2015;

Ho-fert et al., 2018). La littérature concernant l’apprentissage automatique de structures pour

ces modèles est émergente. Par exemple, plusieurs algorithmes pour les copules Archimé-diennes hiérarchiques (HAC) ont été proposés récemment ; voir, e.g., Okhrin et al. (2013);

Segers and Uyttendaele(2014);Górecki et al.(2016, 2017);Cossette et al.(2019). La plupart

de ceux-ci, comme c’est souvent le cas pour les modèles hiérarchiques, sont basés sur une technique de regroupement hiérarchique4 5, qui permet de créer un arbre binaire en guise

de structure initiale pour le modèle d’intérêt. La structure initiale est ensuite modifiée selon un ensemble de règles prédéterminées, avec comme objectif l’atteinte d’un bon compromis entre l’amélioration de l’ajustement du modèle aux données et le nombre de paramètres du modèle. Les méthodes développées dans cette thèse se démarquent de la majorité de celles

4. Fait intéressant : on trouve dans la littérature psychométrique plusieurs contributions phares en regrou-pement hiérarchique ; entre autres celles deMcQuitty(1960,1966).

5. On réfère le lecteur à la Section 14.3.12 deHastie et al.(2009) pour plus de détails à propos des techniques de regroupement hiérarchique.

(22)

proposées dans la littérature par leur caractère non-paramétrique.

Organisation de la thèse

La thèse est organisée comme suit. On s’intéresse d’abord, au Chapitre 1, aux propriétés théoriques de ˆτsous l’hypothèse qu’il existe une partition de X pour laquelle toute permu-tation intra-groupe des éléments de X laisse sa distribution inchangée. Dans ce cas, suppo-sant une indexation adéquate des variables, T possède une structure en blocs, avec un bloc pour chaque sous-vecteur échangeable sur sa diagonale. Un premier algorithme de détec-tion de structure, de la famille des algorithmes de regroupement hiérarchique, est présenté. Il permet de recouvrer la structure de T, i.e. la configuration de ses blocs, à partir de ˆT. La procédure itérative consiste à grouper les variables (et les groupes de variables ainsi formés) jusqu’à ce qu’elles ne forment qu’un seul groupe, en prenant soin d’effectuer le groupement qui maximise la vraisemblance asymptotique de ˆτà chaque itération. Un critère heuristique motivé par les propriétés théoriques de ˆτest fourni pour aider au choix d’une partition fi-nale, i.e. le nombre de groupes échangeables, parmi les d partitions visitées par l’algorithme itératif. Une description détaillée de la matrice de covarianceΣ de ˆτ, indispensable au calcul de sa vraisemblance asymptotique, est donnée à l’AnnexeA.1. Il y est montré que l’échan-geabilité par bloc étudiée induit une structure particulière dansΣ, i.e. des égalités parmi ses entrées, qui généralise la structure par blocs de T. Les annexes A.3etA.4furent originale-ment publiées sur le web en tant que matériel suppléoriginale-mentaire à l’article associé au chapitre. Au Chapitre2, on laisse de côté la tâche de détection de structure de dépendance pour fo-caliser sur l’évaluation d’une structure donnée. On considère des structures plus générales que celles du Chapitre1; entre autres le cas où certains sous-ensembles (connus) des compo-santes de τ sont identiques, sans se restreindre aux structures par blocs. L’hypothèse est aussi plus générale en ce sens qu’elle concerne τ directement, et non pas la distribution de X. Les distributions asymptotiques de différentes statistiques de tests sont données. Les statistiques sont basées sur la distance (`2ou`) entre ˆτet sa projection dans un espace vectoriel où les contraintes d’égalités définies par l’hypothèse sont respectées. L’une des statistiques consi-dérées fut d’ailleurs utilisée pour l’élaboration du critère de sélection du nombre de groupes présenté au Chapitre1. Cette fois-ci par contre, on considère le comportement asymptotique de certaines statistiques dans le cas où la dimension d augmente avec le nombre d’observa-tions n disponibles. Ces résultats sont aussi spécialisés pour l’hypothèse plus contraignante selon laquelle X est un vecteur échangeable, qui mène entre autres choses à la décomposition du vecteur ˆτ(centré) en deux composantes orthogonales. Des stratégies efficaces pour esti-merΣ, qu’on retrouve encore au cœur des procédures présentées, sont dérivées à partir des résultats spécialisés à l’échangeabilité. On trouve ces dernières à l’AnnexeB, qui est vouée à être publiée sur le web en tant que matériel supplémentaire à l’article associé au chapitre.

(23)

Au Chapitre3, on met en application la théorie développée au Chapitre2. On définit d’abord une famille de structures matricielles qui généralisent la structure en blocs considérée au Chapitre 1. Plus précisemment, on utilise le concept de partition récursive pour générali-ser celui de partition en groupes de variables équi-corrélées. Les structures considérées sont ainsi représentées graphiquement par des arbres enracinés pour lesquels chaque nœud dé-finit un sous-ensemble spécifique des contraintes dans T. Un algorithme d’apprentissage adapté pour cette famille est présenté et appliqué au jeu de données de l’application présen-tée au Chapitre1. Certains éléments complémentaires à l’application sont relégués à l’An-nexeC.

On conclut la thèse en considérant de nouvelles statistiques de test qui généralisent celles considérées dans la thèse, et dont les propriétés restent à étudier. Elles semblent toutefois pouvoir offrir quelques éléments de réponse aux nouveaux problèmes qu’on soulève dans la thèse.

Finalement, avant de laisser place au cœur de la thèse il semble pertinent d’informer le lec-teur que chaque chapitre possède sa propre notation.

Bibliographie

Aitkin, M. A., Nelson, W. C., and Reinfurt, K. H. (1968). Tests for correlation matrices. Bio-metrika, 55 :327–334.

Aldous, D. J. (1985). Exchangeability and related topics. In Hennequin, P. L., editor, École d’Été de Probabilités de Saint-Flour XIII — 1983, pages 1–198, Berlin, Heidelberg. Springer Berlin Heidelberg.

Anderson, T. W. (1963). Asymptotic theory for principal component analysis. Annals of Mathematical Statistics, 34 :122–148.

Anderson, T. W. (1973). Asymptotically efficient estimation of covariance matrices with li-near structure. The Annals of Statistics, 1 :135–141.

Bartlett, M. S. (1950). Tests of significance in factor analysis. British Journal of Statistical Psychology, 3 :77–85.

Bartlett, M. S. (1951). A further note on tests of significance in factor analysis. British Journal of Statistical Psychology, 4 :1–2.

Ben Ghorbal, N., Genest, C., and Nešlehová, J. (2009). On the Ghoudi, Khoudraji, and Rivest test for extreme-value dependence. Canadian Journal of Statistics, 37 :534–552.

Bock, R. D. (1960). Components of variance analysis as a structural and discriminal analysis for psychological tests. British Journal of Statistical Psychology, 13 :151–163.

(24)

Bock, R. D. and Bargmann, R. E. (1966). Analysis of covariance structures. Psychometrika, 31 :507–534.

Borkowf, C. B. (2002). Computing the nonnull asymptotic variance and the asymptotic rela-tive efficiency of Spearman’s rank correlation. Comput. Statist. Data Anal., 39 :271–286. Box, G. E. P. (1949). A general distribution theory for a class of likelihood criteria. Biometrika,

36 :317–346.

Brechmann, E. C. (2014). Hierarchical Kendall copulas : Properties and inference. Canadian Journal of Statistics, 42 :78–108.

Browne, M. (1974). Generalized least squares estimators in the analysis of covariance struc-tures. South African Statistical Journal, 8 :1–24.

Browne, M. W. (1977). The analysis of patterned correlation matrices by generalized least squares. British Journal of Mathematical and Statistical Psychology, 30 :113–124.

Browne, M. W. (1984). Asymptotically distribution-free methods for the analysis of cova-riance structures. British Journal of Mathematical and Statistical Psychology, 37 :62–83. Chen, X. (2018). Gaussian and bootstrap approximations for high-dimensional U-statistics

and their applications. The Annals of Statistics, 46 :642–678.

Cossette, H., Gadoury, S.-P., Marceau, E., and Robert, C. Y. (2019). Composite likelihood estimation method for hierarchical Archimedean copulas defined with multivariate com-pound distributions. Journal of Multivariate Analysis, 172 :59–83.

Czado, C. (2019). Analyzing Dependent Data with Vine Copulas, volume 222 of Lecture Notes in Statistics. Springer.

de Finetti, B. (1937). La prévision : ses lois logiques, ses sources subjectives. Annales de l’Institut Henri Poincaré, 17 :1–68.

Dunn, O. J. and Clark, V. (1969). Correlation Coefficients Measured on the Same Individuals. Journal of the American Statistical Association, 64 :366–377.

El Maache, H. and Lepage, Y. (2003). Spearman’s rho and Kendall’s tau for multivariate data sets. In Mathematical statistics and applications : Festschrift for Constance van Eeden, volume 42 of IMS Lecture Notes-Monograph Series, pages 113–130. Institute of Mathematical Statistics, Beachwood, OH.

Fechner, G. T. (1897). Kollektivmasslehre. Engelmann. (Published posthumously. Completed and edited by G. F. Lipps.).

(25)

Fisher, R. A. (1921). On the ’probable error’ of a coefficient of correlation deduced from a small sample. Metron, 1 :1–32.

Gaißer, S. and Schmid, F. (2010). On testing equality of pairwise rank correlations in a mul-tivariate random vector. Journal of Mulmul-tivariate Analysis, 101 :2598–2615.

Genest, C., Nešlehová, J., and Ben Ghorbal, N. (2011). Estimators based on Kendall’s tau in multivariate copula models. Australian & New Zealand Journal of Statistics, 53 :157–177. Górecki, J., Hofert, M., and Hole ˇna, M. (2016). An approach to structure determination and

estimation of hierarchical Archimedean copulas and its application to Bayesian classifica-tion. Journal of Intelligent Information Systems, 46 :21–59.

Górecki, J., Hofert, M., and Hole ˇna, M. (2017). Kendall’s tau and agglomerative clustering for structure determination of hierarchical Archimedean copulas. Dependence Modeling, 5 :75–87.

Harville, D. A. (1997). Matrix Algebra From a Statistician’s Perspective. Springer, New York. Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning. Springer,

New York, 2nd edition.

Hewitt, E. and Savage, L. J. (1955). Symmetric measures on cartesian products. Transactions of the American Mathematical Society, 80 :470–501.

Hoeffding, W. (1947). On the distribution of the rank correlation coefficient τ when the variates are not independent. Biometrika, 34 :183–196.

Hoeffding, W. (1948). A class of statistics with asymptotically normal distribution. The Annals of Mathematical Statistics, 19 :293–325.

Hofert, M., Huser, R., and Prasad, A. (2018). Hierarchical Archimax copulas. Journal of Multivariate Analysis, 167 :195–211.

Hotelling, H. (1940). The selection of variates for use in prediction with some comments on the general problem of nuisance parameters. The Annals of Mathematical Statistics, 11 :271– 283.

Hsu, P. L. (1949). The limiting distribution of functions of sample means and application to testing hypotheses. In Proceedings of the [First] Berkeley Symposium on Mathematical Statistics and Probability, pages 359–402, Berkeley, Calif. University of California Press.

Joe, H. (2015). Dependence Modeling With Copulas. CRC Press, Boca Raton, FL.

Jöreskog, K. G. (1970). A general method for analysis of covariance structures. Biometrika, 57 :239–251.

(26)

Jöreskog, K. G. (1978). Structural analysis of covariance and correlation matrices. Psychome-trika, 43 :443–477.

Jöreskog, K. G. and Sörbom, D. (1996). LISREL 8 : User’s reference guide. Scientific Software International.

Jöreskog, K. G. and Van Thillo, M. (1972). LISREL : A general computer program for estimating a linear structural equation system involving multiple indicators of unmeasured variables. ERIC. Kendall, M. G. (1970). Rank correlation methods. Griffin, 4 edition.

Kingman, J. F. (1978). Uses of exchangeability. The Annals of Probability, 6 :183–197.

Krupskii, P. and Joe, H. (2015). Structured factor copula models : Theory, inference and computation. Journal of Multivariate Analysis, 138 :53–73.

Kruskal, W. H. (1958). Ordinal measures of association. Journal of the American Statistical Association, 53 :814–861.

Lauritzen, S. L. (1996). Graphical models. Clarendon Press, Oxford.

Lawley, D. (1963). On testing a set of correlation coefficients for equality. The Annals of Mathematical Statistics, 34 :149–151.

Lindeberg, J. (1927). Über die korrelation. In Den VI skandinaviske Matematikerkongres i Kø-benhavn, pages 437–446, Copenhagen, Denmark. J. Gjellerup.

Lindeberg, J. (1929). Some remarks on the mean error of the percentage of correlation. Nordic Statistical Journal, 1 :137–141.

Mai, J.-F. and Scherer, M. (2012). H-extendible copulas. Journal of Multivariate Analysis, 110 :151–160.

McDonald, R. (1974). Testing pattern hypotheses for covariance matrices. Psychometrika, 39 :189–201.

McDonald, R. P. (1975). Testing pattern hypotheses for correlation matrices. Psychometrika, 40 :253–255.

McQuitty, L. L. (1960). Hierarchical linkage analysis for the isolation of types. Educational and Psychological Measurement, 20 :55–67.

McQuitty, L. L. (1966). Similarity analysis by reciprocal pairs for discrete and continuous data. Educational and Psychological measurement, 26 :825–831.

Meng, X.-L., Rosenthal, R., and Rubin, D. (1992). Comparing Correlated Correlation Coeffi-cients. Psychological Bulletin, 111 :172–175.

(27)

Nelsen, R. B. (2006). An Introduction to Copulas. Springer, New York, 2nd edition.

Neyman, J. and Pearson, E. S. (1928). On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference : Part I. Biometrika, 20A :175–240.

Oh, D. H. and Patton, A. J. (2017). Modeling Dependence in High Dimensions with Factor Copulas. Journal of Business & Economic Statistics, 35 :139–154.

Okhrin, O., Okhrin, Y., and Schmid, W. (2013). On the structure and estimation of hierarchical Archimedean copulas. Journal of Econometrics, 173 :189–204.

Olshen, R. (1974). A note on exchangeable sequences. Probability Theory and Related Fields, 28 :317–321.

Pearson, K. and Filon, L. N. G. (1898). VII. Mathematical contributions to the theory of evolution.—IV. On the probable errors of frequency constants and on the influence of ran-dom selection on variation and correlation. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, pages 229–311. Penrose, R. (1955). A generalized inverse for matrices. In Mathematical proceedings of the

Cambridge philosophical society, volume 51, pages 406–413. Cambridge University Press. Plackett, R. L. (1946). Literature on Testing the Equality of Variances and Covariances in

Normal Populations. Journal of the Royal Statistical Society, 109 :457–468.

Savu, C. and Trede, M. (2010). Hierarchies of Archimedean copulas. Quantitative Finance, 10 :295–304.

Segers, J. and Uyttendaele, N. (2014). Nonparametric estimation of the tree structure of a nested Archimedean copula. Computational Statistics & Data Analysis, 72 :190 – 204. Sklar, A. (1959). Fonction de répartition dont les marges sont données. Publications de

l’Insti-tut de Statistique de l’Université de Paris, 8 :229–231.

Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15 :72–101.

Srivastava, J. N. (1966). On testing hypotheses regarding a class of covariance structures. Psychometrika, 31 :147–164.

Steiger, J. H. (1980a). Testing pattern hypotheses on correlation matrices : Alternative statis-tics and some empirical results. Multivariate Behavioral Research, 15 :335–352.

Steiger, J. H. (1980b). Tests for comparing elements of a correlation matrix. Psychological bulletin, 87 :245.

(28)

Thurstone, L. L. (1935). The vectors of mind : Multiple-factor analysis for the isolation of primary traits. University of Chicago Press.

Votaw, D. F. (1948). Testing Compound Symmetry in a Normal Multivariate Distribution. The Annals of Mathematical Statistics, 19 :447–473.

Wilks, S. S. (1946). Sample criteria for testing equality of means, equality of variances, and equality of covariances in a normal multivariate distribution. The Annals of Mathematical Statistics, 17 :257–281.

(29)

Chapitre 1

Detection of block-exchangeable

structure in large-scale correlation

matrices

1.1

Résumé

Les matrices de corrélation sont omniprésentes en analyse de données multivariées. Quand le nombre d de variables est grand, les estimateurs empiriques de matrices de corrélation sont généralement bruités, ce qui dissimule la structure de dépendance sous-jacente. Nous considérons le cas où les variables peuvent être regroupées en K grappes avec dépendance échangeable ; cette hypothèse est souvent faite dans des applications, e.g., en finance et en économétrie. Sous cette hypothèse d’échangeabilité partielle, la matrice de corrélation pos-sède nécessairement une structure par blocs et le nombre de paramètres inconnus est réduit de d(d−1)/2 à au plus K(K+1)/2. Nous proposons un algorithme robuste basé sur la cor-rélation de Kendall pour identifier les grappes sans supposer la connaissance de K à priori ni quoi que ce soit à propos des marges, sauf leur continuité. Lorsque K < d, l’estimateur obtenu, la version structurée de la matrice de corrélation de Kendall, se comporte considéra-blement mieux que l’estimateur usuel non-structuré. Le nouvel estimateur peut également être plus efficace lorsqu’appliqué à des échantillons de taille finie, même quand K = d, bien qu’il n’y ait pas de gain asymptotique. Lorsque la distribution des données est elliptique, les résultats s’étendent aux matrices de corrélation linéaire et à leur inverse. La procédure est illustrée sur les rendements de titres boursiers.

1.2

Abstract

Correlation matrices are omnipresent in multivariate data analysis. When the number d of variables is large, the sample estimates of correlation matrices are typically noisy and

(30)

conceal underlying dependence patterns. We consider the case when the variables can be grouped into K clusters with exchangeable dependence; this assumption is often made in applications, e.g., in finance and econometrics. Under this partial exchangeability condition, the corresponding correlation matrix has a block structure and the number of unknown pa-rameters is reduced from d(d−1)/2 to at most K(K+1)/2. We propose a robust algorithm based on Kendall’s rank correlation to identify the clusters without assuming the knowledge of K a priori or anything about the margins except continuity. The corresponding block-structured estimator performs considerably better than the sample Kendall rank correlation matrix when K < d. The new estimator can also be much more efficient in finite samples even in the unstructured case K = d, although there is no gain asymptotically. When the distribution of the data is elliptical, the results extend to linear correlation matrices and their inverses. The procedure is illustrated on financial stock returns.

1.3

Introduction

Relationships between the components of a random vector X = (X1, . . . , Xd)are of prime interest in many fields where statistical methods are used. Traditionally, this dependence is summarized through a correlation matrix. When X is multivariate Normal, the classical choice is the linear correlation matrix. When multivariate Normality fails, as is frequent, e.g., in risk management, linear correlation can be grossly misleading and may not even exist (Embrechts et al.,2002). For this reason, it is safer to use a rank correlation matrix such as the matrix of pair-wise Kendall’s taus or Spearman’s rhos.

In high dimensions, empirical correlation matrices typically conceal underlying dependence patterns. This is due to their sheer size and to the inherent imprecision of the estimates, especially when the sample size is small compared to dimension d. For example, consider the log-returns of 107 stocks included in the NASDAQ100 index from January 1 to September 30, 2017, giving 187 observations. Hardly any pattern is visible in the left panel of Figure1.1, which shows the empirical Kendall rank correlation matrix based on residuals from a fitted stochastic volatility model.

Noisiness of sample correlation matrices is well documented. Several strategies have been proposed to remedy for it, most notably shrinkage (Ledoit and Wolf,2004;Schäfer and Strim-mer,2005). Alternative procedures developed in the context of graphical models consist of decomposing a noisy inverse covariance matrix into a low-rank matrix and a sparse matrix (Chandrasekaran et al.,2012;Ma et al.,2013;Agarwal et al.,2012).

We follow a different path in this chapter. Motivated by the above NASDAQ example and many others, we focus on applications in which it makes sense to assume that the correlation matrix has a block structure. By this we mean that the variables can be grouped into K disjoint clusters in such a way that for any two clusters A and B, and any Xi ∈ A and Xj ∈B,

(31)

0 1

Figure 1.1 – The empirical Kendall’s tau matrix of 107 stocks included in the NASDAQ100 index in the original labeling (left) and after relabeling (middle). The right panel shows the improved estimate obtained from Algorithm1.1and structure selection with α=.5.

the correlation between Xi and Xj satisfies ρ(Xi, Xj) = ρAB. In other words, all variables within each cluster are equicorrelated and the between-cluster correlation depends only on the clusters but not the representatives. This assumption is a way to reduce the number of unknown pair-wise correlations from d(d−1)/2 to at most K(K+1)/2. Correlation matrices with a block structure occur in portfolio and credit risk modeling, where variables can be grouped by industry classifications or risk types; see, e.g., the block-structured DECO model

(Engle and Kelly, 2012). They also arise in the modeling of categorical, clustered, or gene

expression data, and in genomics studies. In the NASDAQ100 example, a block structure emerges upon relabeling of the variables, as shown in the middle panel of Figure1.1, though it is still noisy.

This chapter describes a technique for learning the cluster structure from data and shows how to use the latter to devise a more efficient estimator of the correlation matrix. No prior knowledge of the clusters, their number or composition is assumed. We only require that the dependence within each cluster is exchangeable. The procedure we propose is an iter-ative algorithm that is similar to, but different from, agglomeriter-ative clustering. In contrast to model-based clustering which aims to cluster together observations from the same sub-population of a multivariate mixture distribution, the current proposal aims at identifying elements of a correlation matrix that are equal. The algorithm also outputs an improved estimate of the correlation matrix which has a block structure, and an estimate of its asymp-totic covariance matrix. In the above example of stock returns, the relabeling in the middle panel was done using the clusters identified through the proposed algorithm; the improved estimate of the correlation matrix is displayed in the right panel. As we prove asymptot-ically and illustrate via simulations, the improvement of the estimator can be substantial, in particular for K  d. Even in the unstructured case when K = d and there is no gain asymptotically, the new estimator can perform substantially better in finite samples due to a bias-variance tradeoff, particularly when n is small compared to d.

Figure

Figure 1.1 – The empirical Kendall’s tau matrix of 107 stocks included in the NASDAQ100 index in the original labeling (left) and after relabeling (middle)
Figure 1.2 – Cluster membership and Kendall correlation matrices before ( ∆ ∗ and T ∗ ) and after ( ∆ and T) relabeling of the variables.
Figure 1.3 – The matrices T, ˆ T and ˜ T in Example 1.3 .
Figure 1.4 – The estimates ˜ T ( T ˆ |G ∗ ) and ˜ T ( T ˆ |G) from Example 1.4 , and the cluster member- member-ship matrices ∆ and ∆ ∗ of the partitions G and G ∗ , respectively.
+7

Références

Documents relatifs

Reaction time, length effect, and movement difficulty Both in RND and BLK sessions, the presence of a second step increased the RT by 52 and 25 ms, respectively, much more than

A 0.013 inch CuNiTi archwire generated high initial forces in the horizontal plane on a displaced lateral incisor; higher force magnitude was found for the lingual brackets.

Another appealing feature of Broyden’s method is the possibility to design derivative-free methods gener- alizing to the multivariate case the classical secant method (which can

Recall that the boundary of an affinoid space can be written as a finite union of affinoid spaces defined over some extension of k, see [Duc12, Lemma 3.1]. Here we shall only use

We will use this in Section 9 to show that the variational method of Boucksom, Favre and Jonsson proves the following result (see Theorem 9.3)... We assume that resolution

The ~-product EeF, of two locally convex spaces E, F is the space of all continuous linear maps from to F endowed with the topology of uniform convergence.. on the

De Pagter, in [18], has identified the complete ring of quotients of a uniformly complete f-algebra with identity with the space of extended.. orthomorphisms on

cal Archimedean copulas. In one, we propose the estima- tion of parametric hierarchical Archimedean copula while imposing an implicit penalty on its structure. Asymptotic properties