• Aucun résultat trouvé

Analyse des données

N/A
N/A
Protected

Academic year: 2021

Partager "Analyse des données"

Copied!
42
0
0

Texte intégral

(1)

Analyse des données

(2)

Plan

• Lien entre les statistiques et l’analyse des données

• Propagation des erreurs

• Ajustement de fonctions

(3)

Échantillon vs population

• Une mesure échantillonne une population

• La distribution de l’échantillon approxime celle de la population

• La précision sur les estimations augmente

avec la taille de l’échantillon N

(4)

Exemple de comptage

(5)

n = 100

09 ,

0 /

92 ,

0

07 ,

0

100

n µ

n

(6)

n = 1000

03 ,

0 /

01 ,

1

03 ,

0

1000

n µ

n

(7)

n = 1 000 000

001 ,

0 /

0003 ,

1

00076 ,

0

1000000

n µ

n

(8)

Précision sur la moyenne

• L’estimation de la moyenne s’affine avec N

 

x µ

µ N x

N x µ

i i

i

 

2 2 2 2

1 1 1

Population

Échantillon

(9)

Erreur sur une variable dépendante

3 , 3 10

3 /

y x

x

y

(10)

Erreur sur une variable dépendante

15 5 3

y x

x

y

(11)

Erreur sur une variable dépendante

x x y

y

 

(12)

Propagation d’erreurs

?

) ,

(

1 1

f

y y

y

x x

x

y x

f

f

(13)

Propagation d’erreurs

(14)

Propagation d’erreurs

x et y sont des variables indépendantes

• Et x et y sont des erreurs indépendantes

• Leurs effets s’additionnent quadratiquement

(15)

Propagation d’erreur

 

2 2



2

...

 

 

 

 

 

y

y f x

x f f

pour des incertitudes indépendantes

(16)

Propagation d’erreurs

y x

axy f f

b a

by ax

f

x y f

y x

f

 

2 2 2

2 2

2

2 2 2 2

2

(sans corrélations)

(17)

Moyenne pondérée

• Plusieurs mesures de x (x

1

, x

2

, ... x

i,

, ... x

n

)

• Différentes précisions ( 

1

, 

2

, ... 

i,

, ... 

n

)

• On cherche la meilleure évaluation de la moyenne µ

• Les mesures précises doivent contribuer

davantage

(18)

Moyenne pondérée

 

2 2

2 2

1 1

1

i µ

i i

x

i

µ

Si tous les 

i

sont égaux,

x

2

(19)

Ajustement de courbes

• Soit f(x) une fonction physique

• On fait une mesure de f(x) en x = x

1

• On cherche la probabilité que la mesure soit

bonne

(20)

1 y y 2

(21)

) 2 ( 2

1

2

1

 

i

i

i y

x f

i

i

e

P

(22)

• La probabilité totale est

 

  



 





 

 







 

 

 

 

 











 

 





2

2 ) 2

( 2

1

2 exp 1

2 1

) ( 2

exp 1 2

1

2 1

i

i

i i

i

y x

f

i i

y x

f e P

P i

i i

 

 

(23)

• La valeur de P ou de 

2

nous dit si les

mesures représentent bien la théorie

(24)

Ajustement

• En général, la situation est inversée

• On ne connaît pas f(x)

• Mais on connaît (ou on essaye) une forme

– droite

– polynôme

– fonction arbitraire

(25)

Ajustement

• On cherche les ai qui maximisent P

– Vraisemblance maximale – Maximum likelihood

• Ou qui minimisent 2

– Moindres carrés

) ,

( ,...)

, , ,

( )

( x f x a b c f x a

i

f  

(26)

Régression linéaire

• On veut passer la meilleure droite à travers n points expérimentaux

bx a

x

f ( )  

(27)

Régression linéaire

• On cherche a et b qui minimisent 

2

• 2 équations, 2 inconnus (a et b)

0

0

2

2

 

b a

(28)

Régression linéaire

 

 

 

 

 

 

 

 

  

 

 

 

0 2

0 2

) (

2

2 2

2 2

2

i i

i

i

i i

i

i i

i

i i

y bx

a x

y bx

a a

y bx

a y

x f

 

(29)

 

0 1 0

2 2

2 2

2 2

2 2

2 2

 

 

i i i i

i i

i i

i i i

i

i i i

i i

i

i i

y x b x

a x y

x bx

ax

y b x

y a bx

a

2 2

2 2

2 2

2 2

2

2 2 2

2 2

1 1

1

1

i i i

i i

i i i

i i i i

i i

i i

i

i i i

i i

y x

y b x

y x x

y a x

x x

(30)

Incertitudes égales (votre calculatrice)

 

 

 

i i i

i i

i i

i

y x x

y x

a

x x

N

1

1

2

2 2

(31)

Régression linéaire

• 5 mesures

f(x) = 3x + 7

a=7 b=3

2 = 10,1

a = 5,9 b = 2,9

2min = 5,9

(32)

Contours du 

2

(33)

Incertitude sur les paramètres

a et b dépendent des y

i

• 

a

et

b

dépendent des

i

• On applique la règle de propagation

( égaux)

1

égaux) (

1 1

égaux) (

1

2 2 2

2 2

2

2 2

2 2

2 2 2

2 2

i i

i i

i i

i i

i i i

i b

i i

i i i

i a

x x

x N x

y N b

x x y

a























(34)

Incertitude sur les paramètres

2 2 2

2

2 2

2

2 2

2

1

1 1

1

















i i i

i i

i i i

b

i i i

i a

x x

y b

x y

a

17 0

4 1

92 ,

2 5,9

, , b

a

b a

(35)

Incertitude et 

2

87 , 6 1

87 , 5

min2 min2

(36)

Incertitude et 

2

• La régression linéaire trouve le minimum du

2

• Un écart-type sur les paramètres correspond à une augmentation de 1 du 

2

. Pourquoi ?

• Les courbes de niveau indiquent la corrélation

(37)

Incertitude et 

2



 





 

 



 

  



 

 

2

2 2

2

2 exp 1

2 1

) (

 

 

i

i i i

i i

P

y y

x f

Gaussienne d’écart-type = 1

L’incertitude représente une variation de 1 du 

2

(38)

Corrélation linéaire

• On peut toujours passer une droite par des points

• Mais ces points peuvent-ils être décrits par une droite ?

• Le coefficient de corrélation linéaire r nous

donne la réponse

(39)

Corrélation linéaire

b = 2,7 b’ = 0,33

r = sqrt(bb’) = 0,95

b = 0,29 b’ = 0,33

r = sqrt(bb’) = 0,31

(40)

Élimination de données suspectes Critère de Chauvenet (pp. 154-156)

• Soit 5 mesures : 38 35 39 39 34 18

• Faut-il rejeter la dernière valeur ?

• Si on peut expliquer notre erreur, oui.

• Sinon, il faut réfléchir

• <x> = 34 =8

• Si on enlève, on a <x> = 37

• La valeur de 18 s’écarte de 2 de la moyenne

(41)

• Ceci n’est jamais impossible et devrait se produire

~ 1 fois sur 20

• Mais on n’a que 6 données

• On attend donc ~ 0,3 données de ce type et on l’écarte

Critère de Chauvenet

• On écarte si

5 ,

 0

NP

n

(42)

Attention à l’auto-censure

• Expérience de Millikan

e = 1,592 × 10

-19

C

e = 1,602 × 10

-19

C

• Temps de vie du muon

Références

Documents relatifs

En 1846, Auguste Bravais publia dans les Mémoires de l'Institut de France une commu- nication intitulée : « Analyse mathématique sur les probabili- tés des erreurs de situation d'un

des relations entre variables ou les ressemblances entre individus, incite à penser que les méthodes les plus classiques, Analyse en Composantes Principales

Type: Droite linéaire Sens: positive Type: Droite linéaire.

Temps de calcul mesuré sur un I5 (R) quad-core à 2.9 GHz sous linux 64 bits, pour le produit de 2 matrices aléatoires N×N en simple précision, via le produit « naïf », avec MATMUL

Temps de calcul pour le produit de 2 matrices aléatoires N×N en simple et double précision, à l’aide du produit « naïf », avec MATMUL et avec GEMM de openblas en

On reprend les données Eval-Cours.stw. On veut estimer la variable Qual-Glob en utilisant comme prédicteurs les 5 autres variables. Déterminer l'équation

La méthode du gradient conjugué est plus rapide lorsqu’on s’approche du minimum, car l’approximation quadratique est alors bien meilleure. NB : On peut donc chercher à combiner

« Moins mauvaise » solution obtenue en cherchant non plus à annuler Ap − b, mais à minimiser sa norme kA · p − bk, par des méthodes directes ou itératives selon la nature