XII.6 Taille des grandes villes
Exercice XII.6 (Loi de Pareto et taille des villes).
Les lois en puissance semblent correspondre `a de nombreux ph´enom`enes8 : nombre d’habitants des villes, nombre de t´el´echargements des pages web, nombre d’occur-rences des mots du langage. . . L’objectif de ce probl`eme est d’´etudier la famille des lois de Pareto, et de comparer `a l’aide d’un tel mod`ele les nombres, convenablement renormalis´es, d’habitants des plus grandes villes europ´eennes et am´ericaines.
On consid`ere la loi de Pareto (r´eduite) de param`etre α >0, de densit´e : fα(x) = α
xα+11{x>1}.
La partie I est consacr´ee `a la recherche d’estimateurs du param`etre α. Dans la partie II, on construit un test pour comparer les param`etres α provenant de deux ´echantillons diff´erents (villes europ´eennes et villes am´ericaines). La partie III concerne l’application num´erique. La partie IV est ind´ependante des autres parties, et permet de comprendre que les donn´ees sur les plus grandes villes sont suffisantes et naturelles pour l’estimation du param`etreα.
I Estimations et intervalles de confiance du param`etre de la loi de Pareto
Soit (Xk, k ∈N∗) une suite de variables al´eatoires ind´ependantes de mˆeme loi de Pareto de param`etreα >0.
1. Calculer Eα[X1], puisEα[X12].
2. D´eduire du calcul de Eα[X1] un estimateur ˜αn de α, construit `a partir de X1, . . . , Xn. V´erifier que, pourα >1, l’estimateur (˜αn, n≥1) est convergent.
3. Donner la vraisemblance du mod`ele et d´eterminer une statistique exhaustive.
Que dire de l’estimateur ˜αn?
4. Montrer que l’estimateur du maximum de vraisemblance de α, construit `a partir deX1, . . . , Xn, est ˆαn= n
Pn
k=1log(Xk).
8. M. E. J. Newman. Power laws, Pareto distributions and Zipf’s law.Contemporary Physics, vol. 46(5), pp. 323-351 (2005).
5. Montrer que la loi de log(X1) est une loi exponentielle dont on pr´ecisera le param`etre. En d´eduireEα[log(X1)] etEα[log(X1)2].
6. V´erifier directement, `a l’aide de la question I.5, que la suite (ˆαn, n≥1) est un estimateur convergent deα.
7. Montrer directement, `a l’aide de la question I.5, que l’estimateur (ˆαn, n ≥1) est asymptotiquement normal. Montrer que sa variance asymptotique estα2. 8. Calculer l’information de Fisher. L’estimateur est-il asymptotiquement
effi-cace ?
9. Construire un intervalle de confiance de niveau asymptotique 1−η pour α.
10. Montrer, `a l’aide des fonctions caract´eristiques, que la loi de ααˆ−n1 est une loi gamma dont les param`etres ne d´ependent pas de α. Construire alors un intervalle de confiance de niveau exact 1−η pour α, utilisant les quantiles des lois gamma.
II Comparaison d’´echantillons
Pour une r´egion du globe r, on suppose que les nombres d’habitants des villes suivent approximativement une loi de Pareto g´en´erale qui sera introduite dans la partie IV. Ce mod`ele est raisonnable pour les grandes villes9. On note ˜xr(1) >
· · ·>x˜r(nr+1) les nombres d’habitants desnr+ 1 plus grandes villes10. On v´erifiera dans la partie IV, que les observations renormalis´ees par le minimun x˜r(1)
˜
x(nr+1) >
· · ·> x˜r(nr)
˜ x(nr+1)
correspondent alors au r´eordonnement d´ecroissant de r´ealisations de n variables al´eatoires, (X1r, . . . , Xnr), ind´ependantes et de mˆeme loi de Pareto de param`etre αr.
Le param`etre αr peut s’interpr´eter comme le rapport du taux de naissance plus le taux d’apparition de nouvelles grandes villes sur le taux de naissance de la r´egion r. Plusαr est grand et plus la probabilit´e d’observer des (relativement) tr`es grandes villes est faible.
On dispose des nombres d’habitants des 266 (nUE= 265) plus grandes villes de l’Union Europ´eenne (UE) et des 200 (nUSA = 199) plus grandes villes des ´ Etats-Unis d’Am´erique (USA). Les histogrammes des figures XII.1 (UE) et XII.2 (USA) concernent les donn´ees estim´ees en 2005. On a ´egalement port´e la densit´e de la loi de Pareto avec le param`etre estim´e, pour se convaincre que la mod´elisation est cr´edible.
9. Y. Ijiri and H. A. Simon. Some distributions associated with Bose-Einstein statistics.Proc.
Nat. Acad. Sci. U.S.A., vol. 72, pp. 1654-1657 (1975).
10. Donn´ees disponibles surhttp://www.citymayors.com/
Pour simplifier l’´ecriture, on pose n=nUE et m=nUSA .
Le but de cette partie est de savoir s’il existe relativement moins de tr`es grandes villes dans l’UE qu’aux USA. Pour cela on consid`ere les hypoth`esesH0={αUE ≤ αUSA} etH1={αUE > αUSA}.
1. Existe-t-il un lien entre les variables (X1UE, . . . , XnUE) et (X1USA, . . . , XmUSA) ? 2. Comme les nombres d’habitants des villes sont donn´es par ordre d´ecroissant,
cela signifie que l’on observe seulement une r´ealisation du r´eordonnement d´e-croissant. V´erifier que l’estimateur du maximum de vraisemblance deαr, ˆαrnr, d´efini dans la partie I, peut s’´ecrire comme une fonction du r´eordonnement d´ecroissant.
Pourk∈N∗, on poseZkr =√
k(ˆαrk−αr) et on noteψkr la fonction caract´eristique deZkr. La question I.7 assure la convergence simple de (ψkr, k∈N∗) vers la fonction caract´eristique de la loi gaussienne N(0,(αr)2). On admet que la convergence est en fait uniforme sur les compacts, pour toutu∈R:
klim→∞ sup
converge en loi, quand min(n, m) tend vers l’infini, vers une loi gaussienne de moyenne nulle et de varianceα2.
On consid`ere :
ˆ
σn,m2 = n(ˆαUEn )2+m(ˆαUSAm )2
n+m ,
et la statistique de test : ζn,m= gaussienne centr´ee r´eduiteN(0,1).
5. Si αUE < αUSA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N∗, m∈N∗) quand min(n, m) tend vers l’infini.
6. Si αUE > αUSA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N∗, m∈N∗) quand min(n, m) tend vers l’infini.
7. En d´eduire la forme de la r´egion critique pour tester asymptotiquement H0 contreH1.
8. Montrer, en utilisant le fait que la loi de ˆαrni/αrne d´epend pas deαr(cf question I.10), que l’erreur de premi`ere esp`ece est maximale pourαUE =αUSA.
9. En admettant le r´esultat de la question pr´ec´edente, donner la r´egion critique de niveau asymptotiqueη pour testerH0 contreH1.
10. Ce test est-il convergent ?
11. Comment calculer la p-valeur asymptotique de ce test ? III Application num´erique
On donne η = 5% et dans le tableau XII.11 les statistiques pour les nombres d’habitants des plus grandes villes de l’Union Europ´eenne et des ´Etats-Unis d’Am´e-rique.
R´egion : r UE USA
Nombre de donn´ees :nr 265 199
Plus grande ville : ˜x(1) (Londres) 7.07 (New York) 8.08 Plus petite ville : ˜x(nr+1) 0.15 0.12 Pnr
k=1xk 676.8 620.8
Pnr
k=1x2k 5584.6 8704.6
Pnr
k=1log(xk) 166.6 147.6
Pnr
k=1log(xk)2 210.2 207.6
Table XII.11. Donn´ees 2005 sur les plus grandes villes de l’UE et des USA. Les nombres d’ha-bitants sont en millions.
1. Donner les estimations par maximum de vraisemblance de αUE,αUSA et leurs intervalles de confiance asymptotiques de niveau 1−η (cf. partie I).
2. Calculer la p-valeur du test pr´esent´e dans la partie II.
3. Conclusion ?
IV R´eduction des lois de Pareto
Soit une suite ( ˜Xn, n ∈ N∗) de variables al´eatoires ind´ependantes de loi de Pareto de param`etre (α, β)∈]0,∞[2 de densit´e :
fα,β(x) =α βα
xα+11{x>β}.
0 10 20 30 40 50
Figure XII.1.Histogramme des nombres d’habitants desn= 265 plus grandes villes de l’Union Europ´eenne (divis´ees par la taille de la (n+ 1)-i`eme grande ville), et densit´e de la loi de Pareto de param`etre ˆαUEn (sur le graphique de droite seulement).
0 10 20 30 40 50 60 70
Figure XII.2. Histogramme des nombres d’habitants desm= 199 plus grandes villes des ´Etats Unis d’Am´erique (divis´ees par la taille de la (m+ 1)-i`eme grande ville), et densit´e de la loi de Pareto de param`etre ˆαUSAm (sur le graphique de droite seulement).
1. Calculer la fonction de r´epartition,Fα,β, de la loi de Pareto de param`etre (α, β).
2. Calculer P
X˜1/y > x|X˜1> y
pour y > β et x >1. En d´eduire la fonction de r´epartition, puis la loi, de ˜X1/y sachant ˜X1 > y, o`uy > β.
Soit n, k ∈ N∗. On consid`ere le r´eordonnement d´ecroissant, appel´e aussi sta-tistique d’ordre, de ( ˜X1, . . . ,X˜n+k), que l’on note ( ˜X(1), . . . ,X˜(n+k)) et qui, on l’admet, est p.s. uniquement d´efini par :
X˜(1) >· · ·>X˜(n+k) et {X˜1, . . . ,X˜n+k}={X˜(1), . . . ,X˜(n+k)}.
En particulier on a ˜X(1) = max1≤i≤n+kX˜i et ˜X(n+k)= min1≤i≤n+kX˜i. On admet que le r´eordonnement d´ecroissant est un vecteur de loi continue et de densit´e :
gn+k(x1, . . . , xn+k) = (n+k)!1{x1>···>xn+k}
n+k
Y
i=1
fα,β(xi).
Le but de ce qui suit est de d´eterminer la loi desnplus grandes valeurs divis´ees par la (n+ 1)-i`eme, c’est-`a-dire de (Y1, . . . , Yn) =
X˜(1) X˜(n+1), . . . ,
X˜(n) X˜(n+1)
! . 1. Montrer que la densit´e de la loi de ( ˜X(1), . . . ,X˜(n+1)) est :
(n+k)!
(k−1)! 1{x1>···>xn+1}Fα,β(xn+1)k−1fα,β(xn+1)
n
Y
i=1
fα,β(xi).
2. Montrer que (Y1, . . . , Yn) a mˆeme loi que le r´eordonnement d´ecroissant de (X1, . . . , Xn), o`u les variables X1, . . . , Xn sont ind´ependantes de mˆeme loi de Pareto de param`etre (α,1). V´erifier ainsi que la loi de (Y1, . . . , Yn) ne d´epend ni deβ ni dek.
Quitte `a consid´erer lesn+ 1 plus grandes valeurs de la suite ( ˜Xi,1≤i≤n+k), on peut les remplacer par lesnplus grandes divis´ees par la (n+1)-i`eme, et supposer ainsi que l’on consid`ere le r´eordonnement d´ecroissant de n variables al´eatoires ind´ependantes de loi de Pareto de param`etre (α,1).
△