Taille des grandes villes - Introduction au calcul des probabilit´es et `a la statistique

XII.6 Taille des grandes villes

Exercice XII.6 (Loi de Pareto et taille des villes).

Les lois en puissance semblent correspondre à de nombreux phénomènes⁸ : nombre d’habitants des villes, nombre de téléchargements des pages web, nombre d’occur-rences des mots du langage. . . L’objectif de ce problème est d’étudier la famille des lois de Pareto, et de comparer à l’aide d’un tel modèle les nombres, convenablement renormalisés, d’habitants des plus grandes villes européennes et américaines.

On considère la loi de Pareto (réduite) de paramètre α >0, de densité : f_α(x) = α

x^α+11_{_x>1_}.

La partie I est consacrée à la recherche d’estimateurs du paramètre α. Dans la partie II, on construit un test pour comparer les paramètres α provenant de deux échantillons différents (villes européennes et villes américaines). La partie III concerne l’application numérique. La partie IV est indépendante des autres parties, et permet de comprendre que les données sur les plus grandes villes sont suffisantes et naturelles pour l’estimation du paramètreα.

I Estimations et intervalles de confiance du param`etre de la loi de Pareto

Soit (X_k, k ∈N^∗) une suite de variables aléatoires indépendantes de même loi de Pareto de paramètreα >0.

1. Calculer E_α[X₁], puisE_α[X₁²].

2. Déduire du calcul de E_α[X₁] un estimateur ˜α_n de α, construit à partir de X1, . . . , Xn. Vérifier que, pourα >1, l’estimateur (˜αn, n≥1) est convergent.

3. Donner la vraisemblance du mod`ele et d´eterminer une statistique exhaustive.

Que dire de l’estimateur ˜α_n?

4. Montrer que l’estimateur du maximum de vraisemblance de α, construit `a partir deX1, . . . , Xn, est ˆαn= n

k=1log(X_k).

8. M. E. J. Newman. Power laws, Pareto distributions and Zipf’s law.Contemporary Physics, vol. 46(5), pp. 323-351 (2005).

5. Montrer que la loi de log(X₁) est une loi exponentielle dont on précisera le paramètre. En déduireE_α[log(X1)] etE_α[log(X1)²].

6. V´erifier directement, `a l’aide de la question I.5, que la suite (ˆαn, n≥1) est un estimateur convergent deα.

7. Montrer directement, `a l’aide de la question I.5, que l’estimateur (ˆα_n, n ≥1) est asymptotiquement normal. Montrer que sa variance asymptotique estα². 8. Calculer l’information de Fisher. L’estimateur est-il asymptotiquement

effi-cace ?

9. Construire un intervalle de confiance de niveau asymptotique 1−η pour α.

10. Montrer, à l’aide des fonctions caractéristiques, que la loi de ααˆ⁻_n¹ est une loi gamma dont les paramètres ne dépendent pas de α. Construire alors un intervalle de confiance de niveau exact 1−η pour α, utilisant les quantiles des lois gamma.

II Comparaison d’´echantillons

Pour une région du globe r, on suppose que les nombres d’habitants des villes suivent approximativement une loi de Pareto générale qui sera introduite dans la partie IV. Ce modèle est raisonnable pour les grandes villes⁹. On note ˜x^r₍₁₎ >

· · ·>x˜^r_(nr+1) les nombres d’habitants desn^r+ 1 plus grandes villes¹⁰. On v´erifiera dans la partie IV, que les observations renormalis´ees par le minimun x˜^r₍₁₎

x_(n^r₊₁₎ >

· · ·> x˜^r_(nr)

˜ x_(nr+1)

correspondent alors au réordonnement décroissant de réalisations de n variables aléatoires, (X₁^r, . . . , X_n^r), indépendantes et de même loi de Pareto de paramètre α^r.

Le paramètre α^r peut s’interpréter comme le rapport du taux de naissance plus le taux d’apparition de nouvelles grandes villes sur le taux de naissance de la région r. Plusα^r est grand et plus la probabilité d’observer des (relativement) très grandes villes est faible.

On dispose des nombres d’habitants des 266 (nÛE= 265) plus grandes villes de l’Union Européenne (UE) et des 200 (nÛSA = 199) plus grandes villes des ´ Etats-Unis d’Amérique (USA). Les histogrammes des figures XII.1 (UE) et XII.2 (USA) concernent les données estimées en 2005. On a également porté la densité de la loi de Pareto avec le paramètre estimé, pour se convaincre que la modélisation est crédible.

9. Y. Ijiri and H. A. Simon. Some distributions associated with Bose-Einstein statistics.Proc.

Nat. Acad. Sci. U.S.A., vol. 72, pp. 1654-1657 (1975).

10. Donn´ees disponibles surhttp://www.citymayors.com/

Pour simplifier l’écriture, on pose n=nÛE et m=nÛSA .

Le but de cette partie est de savoir s’il existe relativement moins de très grandes villes dans l’UE qu’aux USA. Pour cela on considère les hypothèsesH₀={αÛE ≤ αÛSA} etH₁={αÛE > αÛSA}.

1. Existe-t-il un lien entre les variables (X₁ÛE, . . . , X_nÛE) et (X₁ÛSA, . . . , X_mÛSA) ? 2. Comme les nombres d’habitants des villes sont donnés par ordre décroissant,

cela signifie que l’on observe seulement une réalisation du réordonnement dé-croissant. Vérifier que l’estimateur du maximum de vraisemblance deα^r, ˆα^r_nr, défini dans la partie I, peut s’écrire comme une fonction du réordonnement décroissant.

Pourk∈N∗, on poseZ_k^r =√

k(ˆα^r_k−α^r) et on noteψ_k^r la fonction caract´eristique deZ_k^r. La question I.7 assure la convergence simple de (ψ_k^r, k∈N∗) vers la fonction caract´eristique de la loi gaussienne N(0,(α^r)²). On admet que la convergence est en fait uniforme sur les compacts, pour toutu∈R:

klim→∞ sup

converge en loi, quand min(n, m) tend vers l’infini, vers une loi gaussienne de moyenne nulle et de varianceα².

On consid`ere :

σ_n,m² = n(ˆα^UE_n )²+m(ˆα^USA_m )²

n+m ,

et la statistique de test : ζ_n,m= gaussienne centr´ee r´eduiteN(0,1).

5. Si α^UE < α^USA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N∗, m∈N∗) quand min(n, m) tend vers l’infini.

6. Si α^UE > α^USA, donner le comportement asymptotique de la suite (ζn,m, n ∈ N∗, m∈N∗) quand min(n, m) tend vers l’infini.

7. En d´eduire la forme de la r´egion critique pour tester asymptotiquement H₀ contreH1.

8. Montrer, en utilisant le fait que la loi de ˆα^r_n_i/α^rne dépend pas deα^r(cf question I.10), que l’erreur de première espèce est maximale pourαÛE =αÛSA.

9. En admettant le résultat de la question précédente, donner la région critique de niveau asymptotiqueη pour testerH₀ contreH₁.

10. Ce test est-il convergent ?

11. Comment calculer la p-valeur asymptotique de ce test ? III Application num´erique

On donne η = 5% et dans le tableau XII.11 les statistiques pour les nombres d’habitants des plus grandes villes de l’Union Européenne et des États-Unis d’Amé-rique.

R´egion : r UE USA

Nombre de donn´ees :n^r 265 199

Plus grande ville : ˜x(1) (Londres) 7.07 (New York) 8.08 Plus petite ville : ˜x(n^r+1) 0.15 0.12 Pn^r

k=1xk 676.8 620.8

Pn^r

k=1x²_k 5584.6 8704.6

Pn^r

k=1log(xk) 166.6 147.6

Pn^r

k=1log(xk)² 210.2 207.6

Table XII.11. Donn´ees 2005 sur les plus grandes villes de l’UE et des USA. Les nombres d’ha-bitants sont en millions.

1. Donner les estimations par maximum de vraisemblance de α^UE,α^USA et leurs intervalles de confiance asymptotiques de niveau 1−η (cf. partie I).

2. Calculer la p-valeur du test pr´esent´e dans la partie II.

3. Conclusion ?

IV R´eduction des lois de Pareto

Soit une suite ( ˜Xn, n ∈ N∗) de variables aléatoires indépendantes de loi de Pareto de paramètre (α, β)∈]0,∞[² de densité :

f_α,β(x) =α β^α

x^α+11_{_x>β_}.

0 10 20 30 40 50

Figure XII.1.Histogramme des nombres d’habitants desn= 265 plus grandes villes de l’Union Européenne (divisées par la taille de la (n+ 1)-ième grande ville), et densité de la loi de Pareto de paramètre ˆαÛE_n (sur le graphique de droite seulement).

0 10 20 30 40 50 60 70

Figure XII.2. Histogramme des nombres d’habitants desm= 199 plus grandes villes des États Unis d’Amérique (divisées par la taille de la (m+ 1)-ième grande ville), et densité de la loi de Pareto de paramètre ˆαÛSAm (sur le graphique de droite seulement).

1. Calculer la fonction de r´epartition,F_α,β, de la loi de Pareto de param`etre (α, β).

2. Calculer P

X˜₁/y > x|X˜₁> y

pour y > β et x >1. En déduire la fonction de répartition, puis la loi, de ˜X₁/y sachant ˜X₁ > y, oùy > β.

Soit n, k ∈ N^∗. On considère le réordonnement décroissant, appelé aussi sta-tistique d’ordre, de ( ˜X₁, . . . ,X˜_n+k), que l’on note ( ˜X₍₁₎, . . . ,X˜_(n+k)) et qui, on l’admet, est p.s. uniquement défini par :

X˜₍₁₎ >· · ·>X˜_(n+k) et {X˜₁, . . . ,X˜_n+k}={X˜₍₁₎, . . . ,X˜_(n+k)}.

En particulier on a ˜X₍₁₎ = max₁_≤_i_≤_n+kX˜_i et ˜X_(n+k)= min₁_≤_i_≤_n+kX˜_i. On admet que le réordonnement décroissant est un vecteur de loi continue et de densité :

g_n+k(x₁, . . . , x_n+k) = (n+k)!1_{_x₁_>_···_>x_n+k_}

n+k

i=1

f_α,β(x_i).

Le but de ce qui suit est de déterminer la loi desnplus grandes valeurs divisées par la (n+ 1)-ième, c’est-à-dire de (Y₁, . . . , Y_n) =

X˜₍₁₎ X˜_(n+1), . . . ,

X˜_(n) X˜_(n+1)

! . 1. Montrer que la densit´e de la loi de ( ˜X₍₁₎, . . . ,X˜_(n+1)) est :

(n+k)!

(k−1)! 1_{_x₁_>_···_>x_n+1_}F_α,β(x_n+1)^k⁻¹f_α,β(x_n+1)

i=1

f_α,β(x_i).

2. Montrer que (Y₁, . . . , Y_n) a même loi que le réordonnement décroissant de (X1, . . . , Xn), où les variables X1, . . . , Xn sont indépendantes de même loi de Pareto de paramètre (α,1). Vérifier ainsi que la loi de (Y₁, . . . , Y_n) ne dépend ni deβ ni dek.

Quitte à considérer lesn+ 1 plus grandes valeurs de la suite ( ˜X_i,1≤i≤n+k), on peut les remplacer par lesnplus grandes divisées par la (n+1)-ième, et supposer ainsi que l’on considère le réordonnement décroissant de n variables aléatoires indépendantes de loi de Pareto de paramètre (α,1).

△

Dans le document Introduction au calcul des probabilit´es et `a la statistique (Page 134-139)