• Aucun résultat trouvé

[email protected] MarcBailly-Bechet Analysededonn´eesLicencePro”Am´eliorationV´eg´etale”

N/A
N/A
Protected

Academic year: 2022

Partager "[email protected] MarcBailly-Bechet Analysededonn´eesLicencePro”Am´eliorationV´eg´etale”"

Copied!
33
0
0

Texte intégral

(1)

Analyse de donn´ees

Analyse de donn´ ees

Licence Pro ”Am´ elioration V´ eg´ etale”

Marc Bailly-Bechet

Universit´ e Claude Bernard Lyon I – France

[email protected]

1 [email protected] Analyse de donn´ees

(2)

Analyse de donn´ees Des stats pour faire quoi ?

Table des mati` eres

1 Des stats pour faire quoi ?

2 Variables al´ eatoires et lois de probabilit´ e

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

2 [email protected] Analyse de donn´ees

(3)

Analyse de donn´ees Des stats pour faire quoi ?

Organisation des enseignements d’analyse de donn´ ees

3 cours ”th´ eoriques” de 1h30.

16h de TP sur ordinateur.

3 [email protected] Analyse de donn´ees

(4)

Analyse de donn´ees Des stats pour faire quoi ?

Pourquoi faire des statistiques en biologie ?

Variabilit´ e : Une exp´ erience en biologie donne rarement un r´ esultat tranch´ e ou parfaitement reproductible.

Quantit´ e : Les nouvelles technologies biologiques permettent de recueillir des quantit´ es pharamineuses de donn´ ees.

4 [email protected] Analyse de donn´ees

(5)

Analyse de donn´ees Des stats pour faire quoi ?

Les statistiques vues de loin

Population ⇒ Echantillon ´

p, µ, σ 2 n individus tir´ es al´ eatoirement

⇑ ⇓

Tests, estimation k n , ¯ x, s 2

Statistique inf´ erentielle ⇐ Statistiques descriptives

5 [email protected] Analyse de donn´ees

(6)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Table des mati` eres

1 Des stats pour faire quoi ?

2 Variables al´ eatoires et lois de probabilit´ e

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

6 [email protected] Analyse de donn´ees

(7)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Loi binomiale

La loi binomiale est la loi de probabilit´ e d´ ecrivant le nombre de r´ eussites parmi un ensemble de tirages al´ eatoires et ind´ ependants.

Elle se note B(n, p) avec n le nombre de tirages et p la probabilit´ e de r´ eussite ` a chaque tirage.

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0 10 20 30 40

0.0 0.1 0.2 0.3

n=100

Nombre de succès

Probabilité

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ●

● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●

● ●● ● ● ● ● ●

p

=

0.01 p

=

0.05 p

=

0.1 p

=

0.25

5 10 25

7 [email protected] Analyse de donn´ees

(8)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Loi de Poisson

La loi de Poisson (de Sim´ eon Denis Poisson, 1781-1840) est la loi de probabilit´ e d´ ecrivant le nombre d’´ evenements al´ eatoires et ind´ ependants arrivant dans le mˆ eme intervalle de temps ou d’espace. Elle se note P (λ) avec λ l’esp´ erance et la variance de la loi.

0 5 10 15 20

0.0 0.1 0.2 0.3

Nombre d'évenements

Probabilité

λ =

1

λ =

2

λ =

5

λ =

10

1 2 5 10

8 [email protected] Analyse de donn´ees

(9)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Probabilit´ e absolue

Pas de 10 cm

Taille

a<P(x)<b

120 160 200

0 0.1 0.2 0.3 0.4

Pas de 5 cm

Taille

a<P(x)<b

120 160 200

0 0.1 0.2 0.3 0.4

Pas de 1 cm

Taille

a<P(x)<b

120 160 200

0 0.1 0.2 0.3 0.4

Pas de 0.1 cm

Taille

a<P(x)<b

120 160 200

0 0.1 0.2 0.3 0.4

9 [email protected] Analyse de donn´ees

(10)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Densit´ e de probabilit´ e

Pas de 10 cm

Taille

Densité

120 160 200

0.00 0.01 0.02 0.03 0.04

Pas de 5 cm

Taille

Densité

120 160 200

0.00 0.01 0.02 0.03 0.04

Pas de 1 cm

Taille

Densité

120 160 200

0.00 0.01 0.02 0.03 0.04

120 160 200

0.00 0.01 0.02 0.03 0.04

Limite continue

Taille

Densité

10 [email protected] Analyse de donn´ees

(11)

Analyse de donn´ees

Variables al´eatoires et lois de probabilit´e

Loi normale

La loi normale est la loi de probabilit´ e des variables al´ eatoires continues d´ ependantes d’un grand nombre de causes

ind´ ependantes et additives. Elle se note N (µ, σ) avec µ l’esp´ erance de la loi et σ l’´ ecart-type.

−2 0 2 4 6 8 10 12

0.0 0.1 0.2 0.3

0.4

µ

=5

Valeur obtenue

Densité de probabilité

σ =

1

σ =

2

σ =

5

σ =

20

11 [email protected] Analyse de donn´ees

(12)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Table des mati` eres

1 Des stats pour faire quoi ?

2 Variables al´ eatoires et lois de probabilit´ e

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

12 [email protected] Analyse de donn´ees

(13)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Variable discr` ete

Le balanin est un parasite de la chˆ ataigne.

Nb. de parasites x

i

0 1 2 3 4 5 6 et plus

Nombre de fruits n

i

1043 172 78 15 10 7 4

ayant x

i

parasites

Fr´ equence f

i

0.785 0.129 0.059 0.011 0.007 0.005 0.004 Fr´ equence cumul´ ee 0.785 0.914 0.973 0.984 0.991 0.996 1

P

i j=1

f

j

13 [email protected] Analyse de donn´ees

(14)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Variable continue

On observe la concentration en glucose dans plusieurs mangues.

Concentration (g.L

−1

) Nb de mangues Fr´ equence Fr´ equence cumul´ ee

X n

j ni

N

P

i j=1

f

j

[135, 150[ 7 0.113 0.113

[150, 165[ 10 0.161 0.274

[165, 180[ 23 0.371 0.645

[180, 195[ 14 0.226 0.871

[195, 210[ 5 0.080 0.951

[210, 225[ 3 0.049 1

14 [email protected] Analyse de donn´ees

(15)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Moyenne observ´ ee sur des donn´ ees group´ ees

On veut la moyenne du taux de glucose dans le m´ elange final de nos 4 types de mangues :

Concentration (g.L −1 ) Moyenne Nb de mangues

X x j ? n j

[135, 165[ 150 17

[165, 180[ 172.5 23

[180, 195[ 187.5 14

[195, 225[ 210 8

¯ x = 1

62 (150 × 17 + 172.5 × 23 + . . .) = 10822.5

62 = 174.56 g.L −1

15 [email protected] Analyse de donn´ees

(16)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Diff´ erence entre m´ ediane et moyenne

Revenu mensuel moyen des m´ enages en France : 2474 euros Revenu mensuel m´ edian des m´ enages en France : 1514 euros

0 2000 4000 6000 8000 10000

0.000000.000100.00020

Revenu mensuel des ménages

Densité de probabilité

Moyenne Médiane

16 [email protected] Analyse de donn´ees

(17)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Diff´ erence entre m´ ediane et moyenne

Revenu mensuel moyen des m´ enages en France : 2474 euros Revenu mensuel m´ edian des m´ enages en France : 1514 euros

0 2000 4000 6000 8000 10000

0.000000.000100.00020

Revenu mensuel des ménages

Densité de probabilité

Moyenne Médiane

16 [email protected] Analyse de donn´ees

(18)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Les mangues sont ` a la mode

On observe la concentration en glucose dans plusieurs mangues.

Concentration en glucose (g/L)

Nombre de mangues

140 160 180 200 220

0 5 10 15 20

17 [email protected] Analyse de donn´ees

(19)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Variance et ´ ecart-type observ´ es, donn´ ees group´ ees

La variance sur des donn´ ees group´ ees se calcule ainsi :

Concentration (g.L

−1

) Moyenne Nb de mangues

X x

j?

n

j

[135, 165[ 150 17

[165, 180[ 172.5 23

[180, 195[ 187.5 14

[195, 225[ 210 8

¯

x = 174.56 g.L −1

s 2 = 1

62 17 × 150 2 + 23 × 172.5 2 + . . .

− 174.56 2

= 365.60 s = √

365.60 = 19.12 g.L −1

18 [email protected] Analyse de donn´ees

(20)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Loi de la moyenne de n v.a., n grand

n=1

Fréquence

0.0 0.2 0.4 0.6 0.8 1.0

0.00.40.8

n=20

Fréquence

0.0 0.2 0.4 0.6 0.8 1.0

012345

n=100

Fréquence

0.0 0.2 0.4 0.6 0.8 1.0

0246810

n=1000

Fréquence

0.0 0.2 0.4 0.6 0.8 1.0

010203040

19 [email protected] Analyse de donn´ees

(21)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Distribution d’´ echantillonnage d’une moyenne observ´ ee

0.0 0.1 0.2 0.3 0.4

Moyenne observée de l'échantillon

Densité de probabilité

µ

20 [email protected] Analyse de donn´ees

(22)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale

P (µ − C α < x ¯ < µ + C α ) = 1 − α

0.0 0.1 0.2 0.3 0.4

Moyenne observée de l'échantillon

Densité de probabilité

µ − C α µ µ + C α

α 2 α 2

21 [email protected] Analyse de donn´ees

(23)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.20

P (µ − C 0.20 < ¯ x < µ + C 0.20 ) = 0.80

0.0 0.1 0.2 0.3 0.4

Moyenne observée de l'échantillon

Densité de probabilité

µ − C 0.2 µ µ + C 0.2

0.1 0.1

22 [email protected] Analyse de donn´ees

(24)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.05

P (µ − C 0.05 < ¯ x < µ + C 0.05 ) = 0.95

0.0 0.1 0.2 0.3 0.4

Moyenne observée de l'échantillon

Densité de probabilité

µ − C 0.05 µ µ + C 0.05

0.025 0.025

23 [email protected] Analyse de donn´ees

(25)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale, α = 0.001

P (µ − C 0.001 < ¯ x < µ + C 0.001 ) = 0.999

0.0 0.1 0.2 0.3 0.4

Moyenne observée de l'échantillon

Densité de probabilité

µ − C 0.001 µ µ + C 0.001

5e−04 5e−04

24 [email protected] Analyse de donn´ees

(26)

Analyse de donn´ees

Statistiques descriptives, estimation et intervalles de confiance

Quantiles de la loi normale centr´ ee r´ eduite

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

z = x − µ

σ2 n

−3.29 −1.96−1.29 0 1.29 1.96 3.29

− ε

0.001

− ε

0.05

− ε

0.2

0 ε

0.2

ε

0.05

ε

0.001

25 [email protected] Analyse de donn´ees

(27)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Table des mati` eres

1 Des stats pour faire quoi ?

2 Variables al´ eatoires et lois de probabilit´ e

3 Statistiques descriptives, estimation et intervalles de confiance

4 Tests de comparaison de moyennes et de proportions

26 [email protected] Analyse de donn´ees

(28)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Distribution d’´ echantillonnage et moyenne observ´ ee

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

µ0

x

27 [email protected] Analyse de donn´ees

(29)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Distribution d’´ echantillonnage et moyenne observ´ ee

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

µ0

x

Risque α 0.20 0.05 0.001

28 [email protected] Analyse de donn´ees

(30)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Risque de deuxi` eme esp` ece

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

−4 −2 0 2 4 6

x

− µ

σ2 n

H 0 H 1

29 [email protected] Analyse de donn´ees

(31)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Risque de deuxi` eme esp` ece

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

−4 −2 0 2 4 6

x

− µ

σ2 n

H 0 H 1

α 2

α 2

30 [email protected] Analyse de donn´ees

(32)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Risque de deuxi` eme esp` ece

0.0 0.1 0.2 0.3 0.4

Densité de probabilité

−4 −2 0 2 4 6

x

− µ

σ2 n

H 0 H 1

α 2

α β 2

31 [email protected] Analyse de donn´ees

(33)

Analyse de donn´ees

Tests de comparaison de moyennes et de proportions

Test unilat´ eral, α = 5%

H 1 : µ 6= µ 0 H 1 : µ > µ 0

−4 −2 0 2 4

0.0 0.1 0.2 0.3 0.4

Densité de probabilité α

2

α 2

ε 0.05 = 1.96

−4 −2 0 2 4

0.0 0.1 0.2 0.3 0.4

α

ε 0.1 = 1.645

32 [email protected] Analyse de donn´ees

Références

Documents relatifs

Pour p 0,10, valeurs pour lesquelles l’approximation binomiale peut être pratiquement envisagée, des développements en série limitée permettent de calculer

– Ces réactions sont endergoniques (énergie nécessaire) – La synthèse des protéines et la photosynthèse sont deux – La synthèse des protéines et la photosynthèse sont

– Les molécules de classe I sont exprimées par toutes les cellules nucléées. – Les molécules de classe II sont exprimées par les cellules

• Environnementale : L’étude des microorganismes dans leur environnement pour une meilleure.. compréhension des mécanismes de l’écologie et une meilleure conservation

Le nombre de bons de commande trait´es dans cette journ´ee est assez important pour qu’on puisse assimiler ce pr´el`evement ` a un tirage avec remise de 100 bons de commande..

Le nombre de bons de commande trait´ es dans cette journ´ ee est assez important pour qu’on puisse assimiler ce pr´ el` evement ` a un tirage avec remise de 100 bons de commande.. On

Si l'éther, sans opposer de résistance au mouvement des astres, est légèrement entraîné par eux, ou encore si des turbulences se produisent en son sein lors du passage de

Caluler la probabilité pour ette mahine de tomber en panne plus d'une fois au ours d'un mois de trente jours2. Le par est omposé de n = 200 mahines et la probabilité pour une de