Analyse de donn´ees
Analyse de donn´ ees
Licence Pro ”Am´ elioration V´ eg´ etale”
Marc Bailly-Bechet
Universit´ e Claude Bernard Lyon I – France
[email protected]
1 [email protected] Analyse de donn´ees
Analyse de donn´ees Des stats pour faire quoi ?
Table des mati` eres
1 Des stats pour faire quoi ?
2 Variables al´ eatoires et lois de probabilit´ e
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
2 [email protected] Analyse de donn´ees
Analyse de donn´ees Des stats pour faire quoi ?
Organisation des enseignements d’analyse de donn´ ees
3 cours ”th´ eoriques” de 1h30.
16h de TP sur ordinateur.
3 [email protected] Analyse de donn´ees
Analyse de donn´ees Des stats pour faire quoi ?
Pourquoi faire des statistiques en biologie ?
Variabilit´ e : Une exp´ erience en biologie donne rarement un r´ esultat tranch´ e ou parfaitement reproductible.
Quantit´ e : Les nouvelles technologies biologiques permettent de recueillir des quantit´ es pharamineuses de donn´ ees.
4 [email protected] Analyse de donn´ees
Analyse de donn´ees Des stats pour faire quoi ?
Les statistiques vues de loin
Population ⇒ Echantillon ´
p, µ, σ 2 n individus tir´ es al´ eatoirement
⇑ ⇓
Tests, estimation k n , ¯ x, s 2
Statistique inf´ erentielle ⇐ Statistiques descriptives
5 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Table des mati` eres
1 Des stats pour faire quoi ?
2 Variables al´ eatoires et lois de probabilit´ e
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
6 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Loi binomiale
La loi binomiale est la loi de probabilit´ e d´ ecrivant le nombre de r´ eussites parmi un ensemble de tirages al´ eatoires et ind´ ependants.
Elle se note B(n, p) avec n le nombre de tirages et p la probabilit´ e de r´ eussite ` a chaque tirage.
● ●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 10 20 30 40
0.0 0.1 0.2 0.3
n=100
Nombre de succès
Probabilité
●
●
●
●
● ●
●
●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ●
●
●
●
●
●● ●●
●
●
●
●
●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●●●●● ●● ●●
●●
●●●
● ●● ● ● ● ● ●
●
●
●
●
p
=0.01 p
=0.05 p
=0.1 p
=0.25
5 10 25
7 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Loi de Poisson
La loi de Poisson (de Sim´ eon Denis Poisson, 1781-1840) est la loi de probabilit´ e d´ ecrivant le nombre d’´ evenements al´ eatoires et ind´ ependants arrivant dans le mˆ eme intervalle de temps ou d’espace. Elle se note P (λ) avec λ l’esp´ erance et la variance de la loi.
● ●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0 5 10 15 20
0.0 0.1 0.2 0.3
Nombre d'évenements
Probabilité
●● ●
●
●
●
● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
●
●
●
●
● ●
●
●
●
●
● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ●
●
●
●
● ● ●
●
●
●
●
● ● ● ● ● ●
●
●
●
●
λ =
1
λ =2
λ =5
λ =10
1 2 5 10
8 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Probabilit´ e absolue
Pas de 10 cm
Taille
a<P(x)<b
120 160 200
0 0.1 0.2 0.3 0.4
Pas de 5 cm
Taille
a<P(x)<b
120 160 200
0 0.1 0.2 0.3 0.4
Pas de 1 cm
Taille
a<P(x)<b
120 160 200
0 0.1 0.2 0.3 0.4
Pas de 0.1 cm
Taille
a<P(x)<b
120 160 200
0 0.1 0.2 0.3 0.4
9 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Densit´ e de probabilit´ e
Pas de 10 cm
Taille
Densité
120 160 200
0.00 0.01 0.02 0.03 0.04
Pas de 5 cm
Taille
Densité
120 160 200
0.00 0.01 0.02 0.03 0.04
Pas de 1 cm
Taille
Densité
120 160 200
0.00 0.01 0.02 0.03 0.04
120 160 200
0.00 0.01 0.02 0.03 0.04
Limite continue
Taille
Densité
10 [email protected] Analyse de donn´ees
Analyse de donn´ees
Variables al´eatoires et lois de probabilit´e
Loi normale
La loi normale est la loi de probabilit´ e des variables al´ eatoires continues d´ ependantes d’un grand nombre de causes
ind´ ependantes et additives. Elle se note N (µ, σ) avec µ l’esp´ erance de la loi et σ l’´ ecart-type.
−2 0 2 4 6 8 10 12
0.0 0.1 0.2 0.3
0.4
µ=5
Valeur obtenue
Densité de probabilité
σ =
1
σ =2
σ =5
σ =20
11 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Table des mati` eres
1 Des stats pour faire quoi ?
2 Variables al´ eatoires et lois de probabilit´ e
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
12 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Variable discr` ete
Le balanin est un parasite de la chˆ ataigne.
Nb. de parasites x
i0 1 2 3 4 5 6 et plus
Nombre de fruits n
i1043 172 78 15 10 7 4
ayant x
iparasites
Fr´ equence f
i0.785 0.129 0.059 0.011 0.007 0.005 0.004 Fr´ equence cumul´ ee 0.785 0.914 0.973 0.984 0.991 0.996 1
P
i j=1f
j13 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Variable continue
On observe la concentration en glucose dans plusieurs mangues.
Concentration (g.L
−1) Nb de mangues Fr´ equence Fr´ equence cumul´ ee
X n
j niN
P
i j=1f
j[135, 150[ 7 0.113 0.113
[150, 165[ 10 0.161 0.274
[165, 180[ 23 0.371 0.645
[180, 195[ 14 0.226 0.871
[195, 210[ 5 0.080 0.951
[210, 225[ 3 0.049 1
14 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Moyenne observ´ ee sur des donn´ ees group´ ees
On veut la moyenne du taux de glucose dans le m´ elange final de nos 4 types de mangues :
Concentration (g.L −1 ) Moyenne Nb de mangues
X x j ? n j
[135, 165[ 150 17
[165, 180[ 172.5 23
[180, 195[ 187.5 14
[195, 225[ 210 8
¯ x = 1
62 (150 × 17 + 172.5 × 23 + . . .) = 10822.5
62 = 174.56 g.L −1
15 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Diff´ erence entre m´ ediane et moyenne
Revenu mensuel moyen des m´ enages en France : 2474 euros Revenu mensuel m´ edian des m´ enages en France : 1514 euros
0 2000 4000 6000 8000 10000
0.000000.000100.00020
Revenu mensuel des ménages
Densité de probabilité
Moyenne Médiane
16 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Diff´ erence entre m´ ediane et moyenne
Revenu mensuel moyen des m´ enages en France : 2474 euros Revenu mensuel m´ edian des m´ enages en France : 1514 euros
0 2000 4000 6000 8000 10000
0.000000.000100.00020
Revenu mensuel des ménages
Densité de probabilité
Moyenne Médiane
16 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Les mangues sont ` a la mode
On observe la concentration en glucose dans plusieurs mangues.
Concentration en glucose (g/L)
Nombre de mangues
140 160 180 200 220
0 5 10 15 20
17 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Variance et ´ ecart-type observ´ es, donn´ ees group´ ees
La variance sur des donn´ ees group´ ees se calcule ainsi :
Concentration (g.L
−1) Moyenne Nb de mangues
X x
j?n
j[135, 165[ 150 17
[165, 180[ 172.5 23
[180, 195[ 187.5 14
[195, 225[ 210 8
¯
x = 174.56 g.L −1
s 2 = 1
62 17 × 150 2 + 23 × 172.5 2 + . . .
− 174.56 2
= 365.60 s = √
365.60 = 19.12 g.L −1
18 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Loi de la moyenne de n v.a., n grand
n=1
Fréquence
0.0 0.2 0.4 0.6 0.8 1.0
0.00.40.8
n=20
Fréquence
0.0 0.2 0.4 0.6 0.8 1.0
012345
n=100
Fréquence
0.0 0.2 0.4 0.6 0.8 1.0
0246810
n=1000
Fréquence
0.0 0.2 0.4 0.6 0.8 1.0
010203040
19 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Distribution d’´ echantillonnage d’une moyenne observ´ ee
0.0 0.1 0.2 0.3 0.4
Moyenne observée de l'échantillon
Densité de probabilité
µ
20 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale
P (µ − C α < x ¯ < µ + C α ) = 1 − α
0.0 0.1 0.2 0.3 0.4
Moyenne observée de l'échantillon
Densité de probabilité
µ − C α µ µ + C α
α 2 α 2
21 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.20
P (µ − C 0.20 < ¯ x < µ + C 0.20 ) = 0.80
0.0 0.1 0.2 0.3 0.4
Moyenne observée de l'échantillon
Densité de probabilité
µ − C 0.2 µ µ + C 0.2
0.1 0.1
22 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.05
P (µ − C 0.05 < ¯ x < µ + C 0.05 ) = 0.95
0.0 0.1 0.2 0.3 0.4
Moyenne observée de l'échantillon
Densité de probabilité
µ − C 0.05 µ µ + C 0.05
0.025 0.025
23 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale, α = 0.001
P (µ − C 0.001 < ¯ x < µ + C 0.001 ) = 0.999
0.0 0.1 0.2 0.3 0.4
Moyenne observée de l'échantillon
Densité de probabilité
µ − C 0.001 µ µ + C 0.001
5e−04 5e−04
24 [email protected] Analyse de donn´ees
Analyse de donn´ees
Statistiques descriptives, estimation et intervalles de confiance
Quantiles de la loi normale centr´ ee r´ eduite
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
z = x − µ
σ2 n
−3.29 −1.96−1.29 0 1.29 1.96 3.29
− ε
0.001− ε
0.05− ε
0.20 ε
0.2ε
0.05ε
0.00125 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Table des mati` eres
1 Des stats pour faire quoi ?
2 Variables al´ eatoires et lois de probabilit´ e
3 Statistiques descriptives, estimation et intervalles de confiance
4 Tests de comparaison de moyennes et de proportions
26 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Distribution d’´ echantillonnage et moyenne observ´ ee
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
µ0
x
27 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Distribution d’´ echantillonnage et moyenne observ´ ee
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
µ0
x
Risque α 0.20 0.05 0.001
28 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Risque de deuxi` eme esp` ece
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
−4 −2 0 2 4 6
x
− µσ2 n
H 0 H 1
29 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Risque de deuxi` eme esp` ece
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
−4 −2 0 2 4 6
x
− µσ2 n
H 0 H 1
α 2
α 2
30 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Risque de deuxi` eme esp` ece
0.0 0.1 0.2 0.3 0.4
Densité de probabilité
−4 −2 0 2 4 6
x
− µσ2 n
H 0 H 1
α 2
α β 2
31 [email protected] Analyse de donn´ees
Analyse de donn´ees
Tests de comparaison de moyennes et de proportions
Test unilat´ eral, α = 5%
H 1 : µ 6= µ 0 H 1 : µ > µ 0
−4 −2 0 2 4
0.0 0.1 0.2 0.3 0.4
Densité de probabilité α
2
α 2
ε 0.05 = 1.96
−4 −2 0 2 4
0.0 0.1 0.2 0.3 0.4
α
ε 0.1 = 1.645
32 [email protected] Analyse de donn´ees