Analyse des données
Plan
• Lien entre les statistiques et l’analyse des données
• Propagation des erreurs
• Ajustement de fonctions
Échantillon vs population
• Une mesure échantillonne une population
• La distribution de l’échantillon approxime celle de la population
• La précision sur les estimations augmente
avec la taille de l’échantillon N
Exemple de comptage
n = 100
09 ,
0 /
92 ,
0
07 ,
0
100
n µ
n
n = 1000
03 ,
0 /
01 ,
1
03 ,
0
1000
n µ
n
n = 1 000 000
001 ,
0 /
0003 ,
1
00076 ,
0
1000000
n µ
n
Précision sur la moyenne
• L’estimation de la moyenne s’affine avec N
x µ
µ N x
N x µ
i i
i
2 2 2 2
1 1 1
Population
Échantillon
Erreur sur une variable dépendante
3 , 3 10
3 /
y x
x
y
Erreur sur une variable dépendante
15 5 3
y x
x
y
Erreur sur une variable dépendante
x x y
y
Propagation d’erreurs
?
) ,
(
1 1
f
y y
y
x x
x
y x
f
f
Propagation d’erreurs
Propagation d’erreurs
• x et y sont des variables indépendantes
• Et x et y sont des erreurs indépendantes
• Leurs effets s’additionnent quadratiquement
Propagation d’erreur
2 2
2 ...
y
y f x
x f f
pour des incertitudes indépendantes
Propagation d’erreurs
y x
axy f f
b a
by ax
f
x y f
y x
f
2 2 2
2 2
2
2 2 2 2
2
(sans corrélations)
Moyenne pondérée
• Plusieurs mesures de x (x
1, x
2, ... x
i,, ... x
n)
• Différentes précisions (
1,
2, ...
i,, ...
n)
• On cherche la meilleure évaluation de la moyenne µ
• Les mesures précises doivent contribuer
davantage
Moyenne pondérée
2 2
2 2
1 1
1
i µ
i i
x
iµ
Si tous les
isont égaux,
x
2
Ajustement de courbes
• Soit f(x) une fonction physique
• On fait une mesure de f(x) en x = x
1• On cherche la probabilité que la mesure soit
bonne
1 y y 2
) 2 ( 2
1
2
1
ii
i y
x f
i
i
e
P
• La probabilité totale est
2
2 ) 2
( 2
1
2 exp 1
2 1
) ( 2
exp 1 2
1
2 1
i
i
i i
i
y x
f
i i
y x
f e P
P i
i i
• La valeur de P ou de
2nous dit si les
mesures représentent bien la théorie
Ajustement
• En général, la situation est inversée
• On ne connaît pas f(x)
• Mais on connaît (ou on essaye) une forme
– droite
– polynôme
– fonction arbitraire
Ajustement
• On cherche les ai qui maximisent P
– Vraisemblance maximale – Maximum likelihood
• Ou qui minimisent 2
– Moindres carrés
) ,
( ,...)
, , ,
( )
( x f x a b c f x a
if
Régression linéaire
• On veut passer la meilleure droite à travers n points expérimentaux
bx a
x
f ( )
Régression linéaire
• On cherche a et b qui minimisent
2• 2 équations, 2 inconnus (a et b)
0
0
2
2
b a
Régression linéaire
0 2
0 2
) (
2
2 2
2 2
2
i i
i
i
i i
i
i i
i
i i
y bx
a x
y bx
a a
y bx
a y
x f
0 1 0
2 2
2 2
2 2
2 2
2 2
i i i i
i i
i i
i i i
i
i i i
i i
i
i i
y x b x
a x y
x bx
ax
y b x
y a bx
a
2 2
2 2
2 2
2 2
2
2 2 2
2 2
1 1
1
1
i i i
i i
i i i
i i i i
i i
i i
i
i i i
i i
y x
y b x
y x x
y a x
x x
Incertitudes égales (votre calculatrice)
i i i
i i
i i
i
y x x
y x
a
x x
N
1
1
22 2
Régression linéaire
• 5 mesures
• f(x) = 3x + 7
• a=7 b=3
2 = 10,1
• a = 5,9 b = 2,9
2min = 5,9
Contours du
2Incertitude sur les paramètres
• a et b dépendent des y
i•
aet
bdépendent des
i• On applique la règle de propagation
( égaux)
1
égaux) (
1 1
égaux) (
1
2 2 2
2 2
2
2 2
2 2
2 2 2
2 2
i i
i i
i i
i i
i i i
i b
i i
i i i
i a
x x
x N x
y N b
x x y
a
Incertitude sur les paramètres
2 2 2
2
2 2
2
2 2
2
1
1 1
1
i i i
i i
i i i
b
i i i
i a
x x
y b
x y
a
17 0
4 1
92 ,
2 5,9
, , b
a
b a
Incertitude et
287 , 6 1
87 , 5
min2 min2
Incertitude et
2• La régression linéaire trouve le minimum du
2• Un écart-type sur les paramètres correspond à une augmentation de 1 du
2. Pourquoi ?
• Les courbes de niveau indiquent la corrélation
Incertitude et
2
2
2 2
2
2 exp 1
2 1
) (
i
i i i
i i
P
y y
x f
Gaussienne d’écart-type = 1
L’incertitude représente une variation de 1 du
2Corrélation linéaire
• On peut toujours passer une droite par des points
• Mais ces points peuvent-ils être décrits par une droite ?
• Le coefficient de corrélation linéaire r nous
donne la réponse
Corrélation linéaire
• b = 2,7 b’ = 0,33
• r = sqrt(bb’) = 0,95
• b = 0,29 b’ = 0,33
• r = sqrt(bb’) = 0,31
Élimination de données suspectes Critère de Chauvenet (pp. 154-156)
• Soit 5 mesures : 38 35 39 39 34 18
• Faut-il rejeter la dernière valeur ?
• Si on peut expliquer notre erreur, oui.
• Sinon, il faut réfléchir
• <x> = 34 =8
• Si on enlève, on a <x> = 37
• La valeur de 18 s’écarte de 2 de la moyenne
• Ceci n’est jamais impossible et devrait se produire
~ 1 fois sur 20
• Mais on n’a que 6 données
• On attend donc ~ 0,3 données de ce type et on l’écarte
• Critère de Chauvenet
• On écarte si