• Aucun résultat trouvé

AD6 : Fréquentation des salles de cinéma en 2003

N/A
N/A
Protected

Academic year: 2022

Partager "AD6 : Fréquentation des salles de cinéma en 2003"

Copied!
5
0
0

Texte intégral

(1)

AD6 : Fr´ equentation des salles de cin´ ema en 2003

(correction)

1 Premier regard sur les donn´ ees

On ´etudie des donn´ees fournies par le Centre National de Cin´ematographie (CNC) concernant l’ann´ee 2003. Pour les 94 d´epartements de France m´etropolitaine, on mesure les 10 variables d´ecrites ci-dessous. On donne ici la matrice de corr´elation des variables ainsi qu’un extrait du tableau de donn´ees concernant les 20 d´epartements les plus peupl´es.

popu population du d´epartement (en millions d’habitants) entr nombres d’entr´ees r´ealis´ees (en millions)

rece recettes (en millions d’euros) sean nombre de s´eances (en milliers)

comm nombre de communes ´equip´ees de salles de cin´ema etab nombre de cin´emas en activit´e

salle nombre de salles en activit´e faut nombre de fauteuils disponibles

artes nombre de salles d’art et essai (passant des films ind´ependants)

multi nombre de multiplexes (au moins 8 salles)

Corr´elations

popu entr rece sean comm etab salle faut artes multi popu 1.00 0.71 0.68 0.77 0.61 0.77 0.85 0.87 0.72 0.80 entr 0.71 1.00 1.00 0.99 0.19 0.76 0.93 0.91 0.70 0.63 rece 0.68 1.00 1.00 0.98 0.15 0.74 0.91 0.89 0.67 0.59 sean 0.77 0.99 0.98 1.00 0.27 0.80 0.96 0.94 0.72 0.70 comm 0.61 0.19 0.15 0.27 1.00 0.75 0.49 0.53 0.64 0.52 etab 0.77 0.76 0.74 0.80 0.75 1.00 0.91 0.91 0.85 0.67 salle 0.85 0.93 0.91 0.96 0.49 0.91 1.00 0.99 0.79 0.79 faut 0.87 0.91 0.89 0.94 0.53 0.91 0.99 1.00 0.80 0.81 artes 0.72 0.70 0.67 0.72 0.64 0.85 0.79 0.80 1.00 0.55 multi 0.80 0.63 0.59 0.70 0.52 0.67 0.79 0.81 0.55 1.00

depart popu entr rece sean comm etab salle faut artes multi D59 Nord 2.555 6.868 37.459 174 35 48 151 34230 18 5 D75 Paris 2.125 30.439 192.244 698 1 92 368 72752 38 5 D13 Bouches du Rhone 1.836 6.651 39.197 193 28 49 155 27488 20 2 D69 Rhone 1.579 6.992 37.359 193 33 52 141 27023 30 3 D62 Pas de Calais 1.442 2.976 15.903 123 23 28 111 22053 10 5 D92 Hauts de Seine 1.429 3.978 21.701 107 33 39 89 20762 24 2 D93 Seine St Denis 1.383 4.803 25.543 127 26 32 97 21168 16 4 D78 Yvelines 1.354 4.625 26.700 130 29 35 95 19302 14 2 D33 Gironde 1.287 5.057 24.555 171 43 52 154 32714 22 5 D76 Seine Maritime 1.239 3.366 19.172 128 23 30 108 23436 11 3 D94 Val de Marne 1.227 4.052 23.967 122 30 36 89 23448 17 2 D77 Seine et Marne 1.194 3.298 19.964 87 30 33 89 19029 10 2 D44 Loire Atlantique 1.134 4.383 22.283 136 39 52 118 25570 26 4 D91 Essonne 1.134 2.242 11.185 84 30 33 77 14414 16 1 D95 Val d'Oise 1.105 2.160 11.581 66 21 22 56 12939 7 1 D38 Isere 1.094 3.993 22.619 142 36 49 133 25116 18 4 D31 Haute Garonne 1.046 4.674 25.114 106 25 32 82 16797 18 2 D67 Bas Rhin 1.026 3.569 20.338 124 13 18 78 16615 8 3 D57 Moselle 1.023 3.187 18.251 88 19 22 79 17866 9 3 D6 Alpes Maritimes 1.011 3.520 21.731 111 23 42 94 16764 8 1

Question 1 Que pouvez-vous dire `a propos des corr´elations entre les variables ? Commentez leurs valeurs.

Toutes les corr´elations entre variables sont positives.

— Les plus corr´el´ees sontsean,entr etrecedont toutes les corr´elations 2 `a 2 sont au moins ´egales `a 0.98

— Les moins corr´el´ees sont les couples (comm,rece)=0,15, (comm,entr)=0,19 et (comm,sean)=0,27.

Question 2 En comparant les donn´ees brutes de Paris (D75) avec les autres fournies ici, que peut-on dire de ses particularit´es ?

Paris a plusieurs particularit´es par rapports aux autres grands d´epartements :

— d’un part, une seule commune est ´equip´ee de cin´emas (au lieu de 20 `a 30 dans les autres d´epartements). Ceci est une cons´equence du fait que Paris est `a la fois une commune et un d´epartement, ce qui est tr`es atypique.

— d’autre part, l’offre et le demande de cin´ema `a Paris est tr`es forte, mˆeme si on prend en compte sa population.

2 Une premi` ere analyse en composantes principales

On s’int´eresse pour l’analyse aux variables concernant l’offre de cin´ema :sean,comm,etab,salle, faut, artes et multi. On effectue une ACP sur les donn´ees centr´ees-r´eduites, et on donne ci-dessous les valeurs propres et, pour le

(2)

Valeurs propres

Axis1 5.4693 Axis2 0.8668 Axis3 0.4543 Axis4 0.1714 Axis5 0.0223 Axis6 0.0099 Axis7 0.0061

sean comm

etab

salle faut artes

multi

d = 2

D2 D1 D3

D4 D5

D6 D7 D8 D9 D10 D11

D12 D13

D14 D15 D16

D17 D18 D19

D21 D22 D23

D24 D25 D26 D27 D28

D29

D30 D31 D32

D33 D34

D35

D36 D37

D38 D39

D40 D41

D42 D43

D44

D45 D46 D47 D48

D49 D50 D51 D52 D53 D54

D55

D56 D57 D58

D59 D60

D61

D62 D63

D64 D65 D66

D67 D68

D69 D70

D71 D72

D73 D74

D75 D76

D77 D78 D79

D80 D81 D82

D83 D84

D85 D86 D87 D88 D89 D90

D91 D92 D93 D94 D95

Question 3 Donner une interpr´etation rapide de la premi`ere composante principale `a partir uniquement du cercle des corr´elations. Que se passe-t-il sur la seconde composante principale ?

Comme on ne dispose pas ici de donn´ees, on se contente de regarder le cercle des corr´elations.

La premi`ere composante principale est corr´el´ee positivement avec les variables, il y a donc un«effet de taille». On peut dire globalement que cette variable repr´esente l’activit´e cin´ematographique du d´epartement, et plus particuli`erement l’offre en terme de fauteuils et de salles.

La seconde composante principale est plus difficile `a interpr´eter, notamment parce que la variablecomm (nombre de communes) est la seule a avoir une vraie influence. Ce n’est pas ´etonnant au vu de la seconde valeur propre, qui est inf´erieure `a 1.

Question 4 En observant la projection des individus sur le premier plan principal, que peut-on observer ? En s’appuyant sur la question 2, expliquer pourquoi Paris est particulier `a la fois sur le premier et le second axe.

On remarque tout de suite que le point D75(Paris) est tr`es ´ecart´e des autres sur les deux premiers axes.

— Pour l’axe 1, on peut dire que la ville de Paris elle-mˆeme a une offre et une demande de cin´ema tr`es atypique par rapport aux autres d´epartements, y compris d’ˆIle-de-France. Ceci a d´ej`a ´et´e expliqu´e en question 2 ;

— en ce qui concerne l’axe 2, on a aussi montr´e en question 2 qu’il y a un probl`eme avec la variablecomm. Cette entr´ee cause donc une grande distorsion et est responsable de la forme de l’axe 2.

On pourrait proposer de mettre Paris en individu suppl´ementaire (mˆeme si c’est une autre solution qui est adopt´ee dans la question suivante).

Question 5 On se propose de diviser chaque donn´ee par la population du d´epartement popu(c’est-`a-dire que la variable entr sera exprim´ee par habitant,receen euros par habitant, seanpour 1000 habitants, etc.). Expliquer pourquoi c’est une bonne id´ee et pourquoi ce n’est pas la mˆeme chose que la normalisation des variables par une m´etrique.

L’int´erˆet de cette solution est de pouvoir comparer l’activit´e cin´ematographique entre les gros et les petit d´epartements.

Cela permettra de r´eduire les diff´erences et notamment de mettre Paris `a une place un peu plus raisonnable1.

La normalisation d’une colonne par une m´etrique (par exemple l’´ecart type) agit diff´eremment, puisqu’elle ´egalise les variables entre elles, pour ´eviter que certaines aient une importance trop forte. Ici on agit dans l’autre sens, en faisant abstraction de la taille des d´epartements. En fait la normalisation par colonne sera faite aussi, au travers de l’ACP sur variables centr´ees r´eduites.

3 Deuxi` eme essai d’analyse

On normalise les donn´ees comme indiqu´e `a la question pr´ec´edente. On effectue ACP sur les donn´ees centr´ees-r´eduites sur les nouvelles variables normalis´ees, mais en utilisant les parts de population comme poids des individus. On obtient les donn´ees suivantes : valeurs propres, corr´elations avec les quatre premiers axes et, pour une s´election (arbitraire) de 20 d´epartements parmi les 94, les poids des individus, leurs coordonn´ees sur les 4 premiers axes, ainsi que la qualit´e de leur repr´esentation par les 4 premiers sous espaces.

1. En fait, il se trouve que cela suffit `a r´esoudre le probl`eme«Paris», ce qui n’´etait pas ´evident a priori.

(3)

Valeurs propres

[1] 3.71 2.04 0.75 0.37 0.07 0.04 0.02

Corr´elations

Comp1 Comp2 Comp3 Comp4 sean -0.50 -0.75 -0.41 0.04 comm -0.68 0.64 0.30 -0.12 etab -0.91 0.34 0.08 -0.17 salle -0.93 -0.30 -0.09 -0.09 faut -0.92 -0.33 -0.01 -0.08 artes -0.64 0.54 -0.21 0.50 multi -0.22 -0.68 0.66 0.24

Weight D4 0.0024 D5 0.0021 D9 0.0024 D15 0.0026 D23 0.0021 D28 0.0070 D32 0.0030 D38 0.0188 D40 0.0056 D46 0.0027 D48 0.0013 D53 0.0049 D67 0.0176 D73 0.0064 D74 0.0108 D75 0.0365 D80 0.0095 D90 0.0024 D94 0.0211 D95 0.0190

Axis1 Axis2 Axis3 Axis4 D4 -6.19 3.93 -0.74 0.37 D5 -13.55 4.11 0.43 -3.56 D9 -2.47 3.95 -0.36 1.00 D15 -1.55 3.04 -0.44 0.30 D23 -1.83 3.24 -0.64 1.01 D28 2.56 1.00 -0.50 -0.78 D32 -5.65 5.55 -0.69 2.54 D38 -1.54 -1.16 0.87 0.25 D40 -7.00 1.56 0.90 0.91 D46 -3.44 4.45 -0.69 2.02 D48 -3.01 3.49 0.42 -1.10 D53 -1.55 0.62 1.22 1.59 D67 1.28 -1.53 0.31 0.18 D73 -10.33 1.52 1.79 -2.82 D74 -4.55 -0.75 1.93 0.12 D75 -3.39 -4.30 -2.67 0.11 D80 1.85 1.16 -0.36 -1.12 D90 -2.41 -1.29 -1.40 -2.20 D94 0.53 -0.16 -0.13 -0.05 D95 2.36 0.34 -0.09 -0.57

Axis1 Axis1:2 Axis1:3 Axis1:4 D4 68.6 96.2 97.2 97.4 D5 85.5 93.4 93.5 99.4 D9 26.1 93.2 93.7 98.1 D15 19.9 95.9 97.5 98.3 D23 21.9 90.2 92.9 99.4 D28 77.8 89.5 92.5 99.8 D32 45.7 89.7 90.3 99.6 D38 51.7 81.0 97.3 98.6 D40 91.4 95.9 97.4 99.0 D46 32.6 87.2 88.5 99.8 D48 39.6 92.6 93.4 98.7 D53 33.7 39.1 59.9 95.4 D67 39.2 95.7 98.1 98.9 D73 88.7 90.6 93.3 99.9 D74 81.6 83.9 98.6 98.7 D75 30.9 80.7 99.9 99.9 D80 55.4 77.4 79.4 99.6 D90 25.4 32.6 41.2 62.5 D94 47.5 51.8 54.6 55.0 D95 92.1 93.9 94.1 99.5

Question 6 Commentez la nouvelle r´epartition de l’inertie. Combien d’axes principaux retient-on ? La situation est-elle meilleure qu’avec la premi`ere analyse ?

On sait d’apr`es la r`egles de Kaiser qu’on doit conserver les axes associ´es aux valeurs propres sup´erieures `a 1. On a ici deux axes acceptables au lieu d’un seul dans la premi`ere version.

D’autre part, si on regarde l’inertie expliqu´ee, on a ici une valeur de 5,75, soit 82%Ig(l’inertie totale est 7). Avec la premi`ere analyse en conservant un axe, on a seulement 78% d’inertie expliqu´ee. La situation est donc bien plus favorable.

Question 7 Quelles sont les variables qui d´eterminent les axes que l’on retient ? Pr´ecisez les crit`eres utilis´es. Y a-t-il un effet de taille ?

On propose de se limiter aux variables pr´esentant une corr´elation sup´erieure `a 0,65 par rapport aux axes. Ceci nous donne les tableaux suivants

Axe 1

⊕ etab(−0,91) salle(−0,93)

faut(−0,92) comm(−0,68)

Axe 2

⊕ sean(−0,75) multi(−0,68)

On a ici nettement un effet de taille, puisque toutes les variables sont corr´el´ees n´egativement avec le premier axe. On dira que le premier axe est le facteur de taille et le second le facteur de forme.

Question 8 Parmi les d´epartements dont les donn´ees sont fournies ci-dessus, quels sont ceux qui d´eterminent les axes que l’on retient ? Pr´ecisez les crit`eres utilis´es. Y a-t-il des d´epartements sur-repr´esent´es ?

Pour rendre la correction plus claire, on donne ici la projection des individus sur le premier plan principal :

d = 2

D1 D2 D3 D5 D4

D6 D7

D8 D9

D10 D11

D12

D13 D14

D15

D16 D17

D18 D19

D21 D22 D23

D24

D25 D26

D27 D28 D29

D30 D31 D32

D33 D34 D35

D36

D37 D38

D39 D40

D41 D42 D43

D44

D45 D46

D47 D48

D49 D50

D51 D52 D53

D54 D55 D56

D57 D58

D59 D60 D61

D62 D63 D64 D65 D66

D67 D68 D69

D70 D71

D72 D73

D74

D75

D76 D77 D78 D79

D80 D81 D82 D83 D84 D85

D86 D87 D88

D89 D90

D91 D92 D93 D94

D95

On remarque que les contributions des individus aux axes ne sont pas fournies ici. Toutefois, on sait que l’on peut raisonner sur les coordonn´ees de la mani`ere suivante : sachant que l’on s’int´eresse aux individusidont la contribution `a l’axekest sup´erieure `a αfois le poids

p (cik)2

> αp,

(4)

il est ´equivalent de s’int´eresser aux individus dont les coordonn´ees satisfont

|cik|>p αλk.

Comme la qualit´e de la repr´esentation globale est bonne et qu’il y a beaucoup d’individus, on propose ici de prendre α= 4, ce qui donne une limite de 3.85 pour l’axe 1 et 2.86 pour l’axe 2. Avec ce crit`ere, les d´epartements d´eterminants sont

Axe 1

⊕ D5(−13,55) D73(−10,33)

D40(−7,00) D4(−6,19) D32(−5,65) D74(−4,55)

Axe 2

⊕ D75(−4,30) D32(5,55)

D46(4,46) D5(4,11) D9(3,95) D4(3,93) D48(3,49) D23(3,24) D15(3,04)

On ne peut pas v´erifier tous les d´epartements vu que les contributions aux axes ne sont pas disponibles. On se propose ici de ne v´erifier que des d´epartements«´evidents», iciD5,D73etD75. On calcule les contributions avec la formule du cours et on obtient :

— D5: 10,29%

— D73: 18,44%

— D75: 11,33%

Aucun de ces d´epartements n’est donc sur-repr´esent´e. On voit que D5a une contribution plus faible que les deux autres, malgr´e sa coordonn´ee.

Question 9 Comment peut-on interpr´eter les axes `a partir des deux questions pr´ec´edentes ?

On interpr`ete plutˆot en fonction des variables, puisqu’on a rien `a dire `a propos des d´epartements (qu’on n’est pas suppos´e connaˆıtre par cœur), sauf peut-ˆetreD75dont on a parl´e, et les«gros» d´epartements.

Comme on a utilis´e les populations comme poids, l’interpr´etation concernera les habitants des d´epartements plutˆot que les d´epartements eux-mˆemes.

Le premier axe repr´esente n´egativement les ´etablissements avec une forte offre cin´ematographique au sens immobilier par rapport au nombre d’habitant, et ceci sur beaucoup de communes (tr`es r´eparti sur le territoire).2

Le second axe correspond positivement une forte offre cin´ematographique en termes de s´eances par habitants et donc tout naturellement `a la pr´esence de multiplexes. Mˆeme si la variable comm(communes) n’est pas repr´esentative, on peut remarquer que c’est elle qui est la plus oppos´ee `a cette notion d’offre importante de s´eances.

On remarquera qu’aucun des d´epartement cit´es ici n’est parmi les 20 d´epartements les plus peupl´es, alors qu’on a utilis´e la population des d´epartements comme poids. De plusD32,D5etD4sont `a la fois caract´eristiques des d´epartements avec beaucoup de de cin´emas (axe 1) mais peu de s´eances et de multiplexes. Enfin,D75n’est plus repr´esentatif de l’axe 1.

Question 10 Parmi les d´epartements dont les donn´ees sont fournies ci-dessus, quels sont ceux dont la qualit´e de repr´esen- tation est mauvaise sur l’espace propre retenu ? Pr´ecisez les crit`eres utilis´es.

On s´electionne ici les d´epartements dont la qualit´e de repr´esentation par les deux premiers axes est inf´erieure `a 50%

(la limite propos´ee dans le cours). Comme on a les qualit´es de repr´esentation cumul´ees pour les sous espaces, il n’est pas n´ecessaire d’additionner les valeurs pr´esentes dans les deux premi`eres colonnes. On peut juste lire les valeurs donn´ees dans la seconde colonne.

On ne trouve alors que deux d´epartements, qui sont en fait bien en dessous de la limite :D53(39,1%) etD90(32,6%).

On peut remarquer queD53est pr`es du centre de gravit´e, il est donc difficile de conclure.

4 Variables suppl´ ementaires : recette et entr´ ees

On utilise comme variables suppl´ementaires les donn´ees concernant les entr´ees (receet entr). Les corr´elations de ces variables avec les composantes principales sont :

Comp1 Comp2 Comp3 Comp4 entr -0.43 -0.7 -0.48 0.04 rece -0.40 -0.7 -0.51 0.02

Question 11 Comment ces corr´elations ont-elles ´et´e calcul´ees ? Quelles sont les donn´ees n´ecessaires ?

2. En connaissant les d´epartements, on peut remarquer que les d´epartements qui d´efinissent l’axe sont les d´epartements des alpes (Alpes de Haute Provence (D4), Hautes Alpes (D5), Savoie (D73) et Haute Savoie (D74)), pour la pr´esence de stations de ski donne une grande diff´erence entre la population administrative et la population de touristes.

(5)

On utilise la formule

cor(ck,x) = cor(ck,z) =

n

X

i=1

pi

cik varck

zi,

avec les valeurs suivantes :

— n= 94 ;

— lespi sont donn´es ;

— cik est donn´e dans le tableau des coordonn´ees sur les axes ;

— varckk est lak-i`eme valeur propre ;

— zi est la version centr´ee-r´eduite de la variable qui nous int´eresse : on soustrait la moyenne, et on divise par l’´ecart-type.

Question 12 A quels axes les variables suppl´` ementaires sont-elles li´es ? Que peut-on en d´eduire ?

On voit clairement que ces deux variables sont li´ees n´egativement avec le second axe propre. Par contre, la corr´elation avec le premier axe est plutˆot faible (mˆeme si elle est compatible avec l’effet de taille, ce qui est rassurant).

Ceci montre qu’une forte fr´equentation (et donc une forte recette) est li´ee `a la pr´esence d’un cin´ema«de masse» (axe 2) plutˆot qu’une forte pr´esence des cin´emas dans tout le d´epartement.

Références

Documents relatifs

Interrogeons nous maintenant sur la fa¸con dont sont construits ces tests multidimensionnels, autrement dit sur la fa¸con dont sont obtenues les matrices E pour les erreurs du

[r]

On considère tout d’abord la perturbation des valeurs propres résultant d’une modification quelconque de la matrice de poids.. On développe ensuite plus

Dans une cour de ferme, près de Birmingham, en 1784, James WATT, encourage de la voix et du fouet des chevaux de trait qui hissent des charges de plus en plus lourdes. Il cherche

Construire sur un seul graphique les nuages de points de l’indice de Qu´ etelet en fonction de la taille, en fonction du poids, pour chaque sexe8. Repr´ esenter, sur un seul

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Perdre ses photos de vacances : ¸ca n’a pas de

[r]