• Aucun résultat trouvé

Taille des grandes villes

XII.6 Taille des grandes villes

Exercice XII.6 (Loi de Pareto et taille des villes).

Les lois en puissance semblent correspondre `a de nombreux ph´enom`enes8 : nombre d’habitants des villes, nombre de t´el´echargements des pages web, nombre d’occur-rences des mots du langage. . . L’objectif de ce probl`eme est d’´etudier la famille des lois de Pareto, et de comparer `a l’aide d’un tel mod`ele les nombres, convenablement renormalis´es, d’habitants des plus grandes villes europ´eennes et am´ericaines.

On consid`ere la loi de Pareto (r´eduite) de param`etre α >0, de densit´e : fα(x) = α

xα+11{x>1}.

La partie I est consacr´ee `a la recherche d’estimateurs du param`etre α. Dans la partie II, on construit un test pour comparer les param`etres α provenant de deux ´echantillons diff´erents (villes europ´eennes et villes am´ericaines). La partie III concerne l’application num´erique. La partie IV est ind´ependante des autres parties, et permet de comprendre que les donn´ees sur les plus grandes villes sont suffisantes et naturelles pour l’estimation du param`etreα.

I Estimations et intervalles de confiance du param`etre de la loi de Pareto

Soit (Xk, k ∈N) une suite de variables al´eatoires ind´ependantes de mˆeme loi de Pareto de param`etreα >0.

1. Calculer Eα[X1], puisEα[X12].

2. D´eduire du calcul de Eα[X1] un estimateur ˜αn de α, construit `a partir de X1, . . . , Xn. V´erifier que, pourα >1, l’estimateur (˜αn, n≥1) est convergent.

3. Donner la vraisemblance du mod`ele et d´eterminer une statistique exhaustive.

Que dire de l’estimateur ˜αn?

4. Montrer que l’estimateur du maximum de vraisemblance de α, construit `a partir deX1, . . . , Xn, est ˆαn= n

Pn

k=1log(Xk).

8. M. E. J. Newman. Power laws, Pareto distributions and Zipf’s law.Contemporary Physics, vol. 46(5), pp. 323-351 (2005).

5. Montrer que la loi de log(X1) est une loi exponentielle dont on pr´ecisera le param`etre. En d´eduireEα[log(X1)] etEα[log(X1)2].

6. V´erifier directement, `a l’aide de la question I.5, que la suite (ˆαn, n≥1) est un estimateur convergent deα.

7. Montrer directement, `a l’aide de la question I.5, que l’estimateur (ˆαn, n ≥1) est asymptotiquement normal. Montrer que sa variance asymptotique estα2. 8. Calculer l’information de Fisher. L’estimateur est-il asymptotiquement

effi-cace ?

9. Construire un intervalle de confiance de niveau asymptotique 1−η pour α.

10. Montrer, `a l’aide des fonctions caract´eristiques, que la loi de ααˆn1 est une loi gamma dont les param`etres ne d´ependent pas de α. Construire alors un intervalle de confiance de niveau exact 1−η pour α, utilisant les quantiles des lois gamma.

II Comparaison d’´echantillons

Pour une r´egion du globe r, on suppose que les nombres d’habitants des villes suivent approximativement une loi de Pareto g´en´erale qui sera introduite dans la partie IV. Ce mod`ele est raisonnable pour les grandes villes9. On note ˜xr(1) >

· · ·>x˜r(nr+1) les nombres d’habitants desnr+ 1 plus grandes villes10. On v´erifiera dans la partie IV, que les observations renormalis´ees par le minimun x˜r(1)

˜

x(nr+1) >

· · ·> x˜r(nr)

˜ x(nr+1)

correspondent alors au r´eordonnement d´ecroissant de r´ealisations de n variables al´eatoires, (X1r, . . . , Xnr), ind´ependantes et de mˆeme loi de Pareto de param`etre αr.

Le param`etre αr peut s’interpr´eter comme le rapport du taux de naissance plus le taux d’apparition de nouvelles grandes villes sur le taux de naissance de la r´egion r. Plusαr est grand et plus la probabilit´e d’observer des (relativement) tr`es grandes villes est faible.

On dispose des nombres d’habitants des 266 (nUE= 265) plus grandes villes de l’Union Europ´eenne (UE) et des 200 (nUSA = 199) plus grandes villes des ´ Etats-Unis d’Am´erique (USA). Les histogrammes des figures XII.1 (UE) et XII.2 (USA) concernent les donn´ees estim´ees en 2005. On a ´egalement port´e la densit´e de la loi de Pareto avec le param`etre estim´e, pour se convaincre que la mod´elisation est cr´edible.

9. Y. Ijiri and H. A. Simon. Some distributions associated with Bose-Einstein statistics.Proc.

Nat. Acad. Sci. U.S.A., vol. 72, pp. 1654-1657 (1975).

10. Donn´ees disponibles surhttp://www.citymayors.com/

Pour simplifier l’´ecriture, on pose n=nUE et m=nUSA .

Le but de cette partie est de savoir s’il existe relativement moins de tr`es grandes villes dans l’UE qu’aux USA. Pour cela on consid`ere les hypoth`esesH0={αUE ≤ αUSA} etH1={αUE > αUSA}.

1. Existe-t-il un lien entre les variables (X1UE, . . . , XnUE) et (X1USA, . . . , XmUSA) ? 2. Comme les nombres d’habitants des villes sont donn´es par ordre d´ecroissant,

cela signifie que l’on observe seulement une r´ealisation du r´eordonnement d´e-croissant. V´erifier que l’estimateur du maximum de vraisemblance deαr, ˆαrnr, d´efini dans la partie I, peut s’´ecrire comme une fonction du r´eordonnement d´ecroissant.

Pourk∈N, on poseZkr =√

k(ˆαrk−αr) et on noteψkr la fonction caract´eristique deZkr. La question I.7 assure la convergence simple de (ψkr, k∈N) vers la fonction caract´eristique de la loi gaussienne N(0,(αr)2). On admet que la convergence est en fait uniforme sur les compacts, pour toutu∈R:

klim→∞ sup

converge en loi, quand min(n, m) tend vers l’infini, vers une loi gaussienne de moyenne nulle et de varianceα2.

On consid`ere :

ˆ

σn,m2 = n(ˆαUEn )2+m(ˆαUSAm )2

n+m ,

et la statistique de test : ζn,m= gaussienne centr´ee r´eduiteN(0,1).

5. Si αUE < αUSA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N, m∈N) quand min(n, m) tend vers l’infini.

6. Si αUE > αUSA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N, m∈N) quand min(n, m) tend vers l’infini.

7. En d´eduire la forme de la r´egion critique pour tester asymptotiquement H0 contreH1.

8. Montrer, en utilisant le fait que la loi de ˆαrnirne d´epend pas deαr(cf question I.10), que l’erreur de premi`ere esp`ece est maximale pourαUEUSA.

9. En admettant le r´esultat de la question pr´ec´edente, donner la r´egion critique de niveau asymptotiqueη pour testerH0 contreH1.

10. Ce test est-il convergent ?

11. Comment calculer la p-valeur asymptotique de ce test ? III Application num´erique

On donne η = 5% et dans le tableau XII.11 les statistiques pour les nombres d’habitants des plus grandes villes de l’Union Europ´eenne et des ´Etats-Unis d’Am´e-rique.

R´egion : r UE USA

Nombre de donn´ees :nr 265 199

Plus grande ville : ˜x(1) (Londres) 7.07 (New York) 8.08 Plus petite ville : ˜x(nr+1) 0.15 0.12 Pnr

k=1xk 676.8 620.8

Pnr

k=1x2k 5584.6 8704.6

Pnr

k=1log(xk) 166.6 147.6

Pnr

k=1log(xk)2 210.2 207.6

Table XII.11. Donn´ees 2005 sur les plus grandes villes de l’UE et des USA. Les nombres d’ha-bitants sont en millions.

1. Donner les estimations par maximum de vraisemblance de αUEUSA et leurs intervalles de confiance asymptotiques de niveau 1−η (cf. partie I).

2. Calculer la p-valeur du test pr´esent´e dans la partie II.

3. Conclusion ?

IV R´eduction des lois de Pareto

Soit une suite ( ˜Xn, n ∈ N) de variables al´eatoires ind´ependantes de loi de Pareto de param`etre (α, β)∈]0,∞[2 de densit´e :

fα,β(x) =α βα

xα+11{x>β}.

0 10 20 30 40 50

Figure XII.1.Histogramme des nombres d’habitants desn= 265 plus grandes villes de l’Union Europ´eenne (divis´ees par la taille de la (n+ 1)-i`eme grande ville), et densit´e de la loi de Pareto de param`etre ˆαUEn (sur le graphique de droite seulement).

0 10 20 30 40 50 60 70

Figure XII.2. Histogramme des nombres d’habitants desm= 199 plus grandes villes des ´Etats Unis d’Am´erique (divis´ees par la taille de la (m+ 1)-i`eme grande ville), et densit´e de la loi de Pareto de param`etre ˆαUSAm (sur le graphique de droite seulement).

1. Calculer la fonction de r´epartition,Fα,β, de la loi de Pareto de param`etre (α, β).

2. Calculer P

1/y > x|X˜1> y

pour y > β et x >1. En d´eduire la fonction de r´epartition, puis la loi, de ˜X1/y sachant ˜X1 > y, o`uy > β.

Soit n, k ∈ N. On consid`ere le r´eordonnement d´ecroissant, appel´e aussi sta-tistique d’ordre, de ( ˜X1, . . . ,X˜n+k), que l’on note ( ˜X(1), . . . ,X˜(n+k)) et qui, on l’admet, est p.s. uniquement d´efini par :

(1) >· · ·>X˜(n+k) et {X˜1, . . . ,X˜n+k}={X˜(1), . . . ,X˜(n+k)}.

En particulier on a ˜X(1) = max1in+ki et ˜X(n+k)= min1in+ki. On admet que le r´eordonnement d´ecroissant est un vecteur de loi continue et de densit´e :

gn+k(x1, . . . , xn+k) = (n+k)!1{x1>···>xn+k}

n+k

Y

i=1

fα,β(xi).

Le but de ce qui suit est de d´eterminer la loi desnplus grandes valeurs divis´ees par la (n+ 1)-i`eme, c’est-`a-dire de (Y1, . . . , Yn) =

(1)(n+1), . . . ,

(n)(n+1)

! . 1. Montrer que la densit´e de la loi de ( ˜X(1), . . . ,X˜(n+1)) est :

(n+k)!

(k−1)! 1{x1>···>xn+1}Fα,β(xn+1)k1fα,β(xn+1)

n

Y

i=1

fα,β(xi).

2. Montrer que (Y1, . . . , Yn) a mˆeme loi que le r´eordonnement d´ecroissant de (X1, . . . , Xn), o`u les variables X1, . . . , Xn sont ind´ependantes de mˆeme loi de Pareto de param`etre (α,1). V´erifier ainsi que la loi de (Y1, . . . , Yn) ne d´epend ni deβ ni dek.

Quitte `a consid´erer lesn+ 1 plus grandes valeurs de la suite ( ˜Xi,1≤i≤n+k), on peut les remplacer par lesnplus grandes divis´ees par la (n+1)-i`eme, et supposer ainsi que l’on consid`ere le r´eordonnement d´ecroissant de n variables al´eatoires ind´ependantes de loi de Pareto de param`etre (α,1).