Analyse des données

(1)

Analyse des données

(2)

Plan

• Lien entre les statistiques et l’analyse des données

• Propagation des erreurs

• Ajustement de fonctions

(3)

Échantillon vs population

• Une mesure échantillonne une population

• La distribution de l’échantillon approxime celle de la population

• La précision sur les estimations augmente

avec la taille de l’échantillon N

(4)

Exemple de comptage

(5)

n = 100

09 ,

0 /

92 ,

0 07 ,

0

100 



n µ

n



(6)

n = 1000

03 ,

0 /

01 ,

1 03 ,

0 1000



n µ

n



(7)

n = 1 000 000

001 ,

0 /

0003 ,

1 00076 ,

0 1000000



n µ

n



(8)

Précision sur la moyenne

• L’estimation de la moyenne s’affine avec N

 



^x ^µ



µ N x

N x µ

i i

i



 









2 2 2 2

1 1 1

Population

Échantillon

(9)

Erreur sur une variable dépendante

3 , 3 10

3 /









 y x

x

y

(10)

Erreur sur une variable dépendante

15 5 3









 y x

x

y

(11)

Erreur sur une variable dépendante

x x y

y 

 





(12)

Propagation d’erreurs

?

) ,

(

1 1















f

y y

y

x x

x

y x

f

(13)

Propagation d’erreurs

(14)

Propagation d’erreurs

• x et y sont des variables indépendantes

• Et x et y sont des erreurs indépendantes

• Leurs effets s’additionnent quadratiquement

(15)

Propagation d’erreur

 

² ²

_

²

^ ^...



 







 

 



 







 



 y

y f x

x f f

pour des incertitudes indépendantes

(16)

Propagation d’erreurs

y x

axy f f

b a

by ax

f

x y f

y x

f



 



















2 2 2

2 2

2

2 2 2 2

2

(sans corrélations)

(17)

Moyenne pondérée

• Plusieurs mesures de x (x

₁

, x

₂

, ... x

_i,

, ... x

_n

)

• Différentes précisions ( 

₁

, 

₂

, ... 

_i,

, ... 

_n

)

• On cherche la meilleure évaluation de la moyenne µ

• Les mesures précises doivent contribuer

davantage

(18)

Moyenne pondérée



 



2 2

1 1

1

i µ

i i

x

i

µ



Si tous les 

_i

sont égaux,

x 

²



(19)

Ajustement de courbes

• Soit f(x) une fonction physique

• On fait une mesure de f(x) en x = x

₁

• On cherche la probabilité que la mesure soit

bonne

(20)

1 y y 2

(21)

) 2 ( 2

1

2

1

^ ^_^ ^ ^_^



ⁱ

i

i y

x f

i

e

P

^





(22)

• La probabilité totale est



 

  



 





 



 















 



 

 



 



 















 



 

 ^^

 



 



2

2 ) 2

( 2

1

2 exp 1

2 1

) ( 2

exp 1 2

1

2 1

i

i i

i

y x

f

i i

y x

f e P

P ⁱ

i i

 



 









(23)

• La valeur de P ou de 

²

nous dit si les

mesures représentent bien la théorie

(24)

Ajustement

• En général, la situation est inversée

• On ne connaît pas f(x)

• Mais on connaît (ou on essaye) une forme

– droite

– polynôme

– fonction arbitraire

(25)

Ajustement

• On cherche les a_i qui maximisent P

– Vraisemblance maximale – Maximum likelihood

• Ou qui minimisent ²

– Moindres carrés

) ,

( ,...)

, , ,

( )

( x f x a b c f x a

_i

f  

(26)

Régression linéaire

• On veut passer la meilleure droite à travers n points expérimentaux

bx a

x

f ( )  

(27)

Régression linéaire

• On cherche a et b qui minimisent 

²

• 2 équations, 2 inconnus (a et b)

0

2





 



b a



(28)

Régression linéaire

 



 

 



 

 



 

 



  

 



 



 



0 2

) (

2

2 2

2

i i

i

i i

i

i i

i

i i

y bx

a x

y bx

a a

y bx

a y

x f









 

(29)

 

0 1 0

2 2







 









 





i i i i

i i

i i i

i

i i i

i i

i

i i

y x b x

a x y

x bx

ax

y b x

y a bx

a













 

 











 

 











 







2 2

2

2 2 2

2 2

1 1

1

i i i

i i

i i i

i i i i

i i

i

i i i

i i

y x

y b x

y x x

y a x

x x



(30)

Incertitudes égales (votre calculatrice)

 

 _ _ _ 







 











i i i

i i

i

y x x

y x

a

x x

N

1

₂

2 2



(31)

Régression linéaire

• 5 mesures

• f(x) = 3x + 7

• a=7 b=3

² = 10,1

• a = 5,9 b = 2,9

²_min = 5,9

(32)

Contours du 

²

(33)

Incertitude sur les paramètres

• a et b dépendent des y

_i

• 

_a

et 

_b

dépendent des 

_i

• On applique la règle de propagation

  ⁽ ^égaux)

1

égaux) (

1 1

égaux) (

1

2 2 2

2 2

2

2 2

2 2 2

2 2

i i

i i i

i b

i i

i i i

i a

x x

x N x

y N b

x x y

a

 



 











 











 



 



 



 

 



 







 

 



 





 



 







 

(34)

Incertitude sur les paramètres

2 2 2

2

2 2

2

2 2

2

1

1 1

1











 



 



 



 



 







 



 





 



 







 



i i i

i i

i i i

b

i i i

i a

x x

y b

x y

a

 



 



 



17 0

4 1

92 ,

2 5,9

, , b

a

b a





(35)

Incertitude et 

²

87 , 6 1

87 , 5

min2 min2









(36)

Incertitude et 

²

• La régression linéaire trouve le minimum du



²

• Un écart-type sur les paramètres correspond à une augmentation de 1 du 

²

. Pourquoi ?

• Les courbes de niveau indiquent la corrélation

(37)

Incertitude et 

²



 





 



 



 



  



 



 







2

2 2

2

2 exp 1

2 1

) (

 





 

i

i i i

i i

P

y y

x f

Gaussienne d’écart-type = 1

L’incertitude représente une variation de 1 du 

²

(38)

Corrélation linéaire

• On peut toujours passer une droite par des points

• Mais ces points peuvent-ils être décrits par une droite ?

• Le coefficient de corrélation linéaire r nous

donne la réponse

(39)

Corrélation linéaire

• b = 2,7 b’ = 0,33

• r = sqrt(bb’) = 0,95

• b = 0,29 b’ = 0,33

• r = sqrt(bb’) = 0,31

(40)

Élimination de données suspectes Critère de Chauvenet (pp. 154-156)

• Soit 5 mesures : 38 35 39 39 34 18

• Faut-il rejeter la dernière valeur ?

• Si on peut expliquer notre erreur, oui.

• Sinon, il faut réfléchir

• <x> = 34 =8

• Si on enlève, on a <x> = 37

• La valeur de 18 s’écarte de 2 de la moyenne

(41)

• Ceci n’est jamais impossible et devrait se produire

~ 1 fois sur 20

• Mais on n’a que 6 données

• On attend donc ~ 0,3 données de ce type et on l’écarte

• Critère de Chauvenet

• On écarte si

5 ,

 0

 NP

n

(42)

Attention à l’auto-censure

• Expérience de Millikan

• e = 1,592 × 10

^-19

C

• e = 1,602 × 10

^-19

C

• Temps de vie du muon