• Aucun résultat trouvé

“faraut” — 2006/9/18 — 11:05 — page 112 — #120

N/A
N/A
Protected

Academic year: 2022

Partager "“faraut” — 2006/9/18 — 11:05 — page 112 — #120"

Copied!
150
0
0

Texte intégral

(1)
(2)

“faraut” — 2006/9/18 — 11:05 — page 112 — #120 i

i

i i

i i

i i

(3)

ANALYSE STATISTIQUE

DES DONNEES EXPERIMENTALES

(4)

Grenoble Sciences

Grenoble Sciences poursuit un triple objectif :

• realiser des ouvrages correspondant a un projet clairement defini, sans contrainte de mode ou de programme,

• garantir les qualites scientifique et pedagogique des ouvrages retenus,

• proposer des ouvrages a un prix accessible au public le plus large possible.

Chaque projet est selectionne au niveau de Grenoble Sciences avec le concours de referees anonymes. Puis les auteurs travaillent pendant une annee (en moyenne) avec les membres d'un comite de lecture interactif, dont les noms apparaissent au debut de 1'ouvrage. Celui-ci est ensuite publie chez 1'editeur le plus adapte.

(Contact: Tel.: (33)4 76 51 46 95 - E-mail: Grenoble.Sciences@ujf-grenoble.fr) Deux collections existent chez EDP Sciences :

• la Collection Grenoble Sciences, connue pour son originalite de projets et sa qualite

• Grenoble Sciences - Rencontres Scientificjues, collection presentant des themes de recherche d'actualite, traites par des scientifiques de premier plan issus de disciplines differentes.

Directeur scientifique de Grenoble Sciences

Jean BORNAREL, Professeur a 1'Universite Joseph Fourier, Grenoble 1

Comite de lecture pour

"Analyse statistique des donnees experimentales"

J.P. BERTRANDIAS, Professeur a 1'Universite Joseph Fourier, Grenoble 1 C. FURGET, Maitre de conferences a 1'Universite Joseph Fourier, Grenoble 1 B. HOUCHMANDZADEH, Directeur de recherches au CNRS, Grenoble M. LESIEUR, Professeur a 1'Institut National Polytechnique, Grenoble C. MlSBAH, Directeur de recherches au CNRS, Grenoble

J.L. PORTESEIL, Professeur a 1'Universite Joseph Fourier, Grenoble 1

P. VlLLEMAIN, Maitre de conferences a I'Universite Joseph Fourier, Grenoble 1

Grenoble Sciences rec.oit le soutien

du Ministere de 1'Education nationals, du Ministere de la Recherche, de la Region Rhone-Alpes, du Conseil general de 1'Isere

et de la Ville de Grenoble.

ISBN 2-86883-590-2

© EDP Sciences, 2002 ISBN 2-86883-456-6

(5)

ANALYSE STATISTIQUE DES DONNEES EXPERIMENT ALES

Konstantin PROTASSOV

SCIENCES 17, avenue du Hoggar

Pare d'Activite de Courtabceuf, BP 112 91944 Les Ulis Cedex A, France

(6)

Ouvrages Grenoble Sciences edites par EDP Sciences Collection Grenoble Sciences

Chimie. Le minimum vital a savoir (/. Le Coarer) - Electrochimie des solides (C. Deportes et al.) - Thermodynamique chimique CM. Oturan & M. Robert) - Chimie organometallique CD. Astruc)

Introduction a la mecanique statistique (E. Belorizky & W. Gorecki) - Mecanique statistique. Exercices et problemes corriges (E. Belorizky & W. Gorecki) - La symetrie en mathematiques, physique et chimie (J. Sivardiere) - La cavitation. Mecanismes physiques et aspects industriels (J.P. Franc et al.) - La turbulence (M. Lesieur) - Magnetisme : I Fondements, II Materiaux et applications (sous la direction d'E. du Tremolet de Lacheisserie) - Du Soleil a la Terre. Aeronomie et meteorologie de 1'espace (J. Lilensten & P.L. Blelly) - Sous les feux du Soleil. Vers une meteorologie de 1'espace (J. Lilensten & J. Bornarel) - Mecanique. De la formulation lagrangienne au chaos hamiltonien (C. Gignoux & B. Silvestre-Brac) - La mecanique quantique. Problemes resolus, Tomes 1 et 2 (V.M. Galitsky, B.M. Karnakov & V.I. Kogan)

Exercices corriges d'analyse, Tomes 1 et 2 CD. Alibert) - Introduction aux varietes differentielles (J. Lafontaine) - Analyse numerique et equations differentielles (J.P. Demailly) - Mathematiques pour les sciences de la vie, de la nature et de la sante (F. & J.P. Bertrandias) - Approximation hilbertienne. Splines, ondelettes, fractales (M. Atteia & J. Caches) - Mathematiques pour 1'etudiant scientifique, Tomes 1 et 2 (Ph.]. Haug)

Bacteries et environnement. Adaptations physiologiques (/. Pelmont) - Enzymes.

Catalyseurs du monde vivant (J. Pelmont) - La plongee sous-marine a 1'air.

L'adaptation de 1'organisme et ses limites (Ph. Foster) - L'ergomotricite. Le corps, le travail et la sante (M. Gendrier) - Endocrinologie et communications cellulaires (S. Idelman & J. Verdetti)

L'Asie, source de sciences et de techniques (M. Soutif) - La biologie, des origines a nos jours (P. Vignais) - Naissance de la physique. De la Sicile a la Chine CM. Soutif) Minimum Competence in Scientific English (J. Upjohn, S. Blattes & V. Jans) - Listening Comprehension for Scientific English (J. Upjohn) - Speaking Skills in Scientific English (J. Upjohn, M.H. Fries & D. Amadis)

Grenoble Sciences - Rencontres Scientifiques

Radiopharmaceutiques. Chimie des radiotraceurs et applications biologiques (sous la direction de M. Comet & M. Vidal) - Turbulence et determinisme (sous la direction de M. Lesieur) - Methodes et techniques de la chimie organique (sous la direction de D. Astruc)

(7)

PREFACE

Le but de ce petit ouvrage est de repondre aux questions les plus frequentes que se pose un experimentateur et de permettre a un etudiant d'analyser, d'une fagon autonome, ses resultats et leurs precisions. C'est cet esprit assez "utilitaire" qui a determine le style de presentation.

Dans 1'analyse des donnees experiment ales, il existe plusieurs niveaux qui sont condi- tionnes par notre desir d'obtenir une information plus ou moins riche, mais aussi par le temps que nous sommes prets a y consacrer. Frequemment, nous voulons juste obtenir la valeur d'une grandeur physique sans nous preoccuper de verifier les hypotheses a la base de notre demarche. Parfois, cependant, les resultats obtenus nous paraissent etre en contradiction avec nos estimations preliminaries et ainsi nous sommes obliges d'effectuer un travail plus scrupuleux. Ce livre est ecrit pour permettre au lecteur de choisir le niveau d'analyse necessaire.

La partie "indispensable" du texte correspondant au premier niveau est composee avec une police de caracteres normale. Les questions qui correspondent a une analyse plus approfondie et qui necessitent un appareil mathematique plus complexe sont composees avec une police de caracteres speciale. Cette partie du livre peut etre sautee lors d'une premiere lecture.

A la base de toute analyse des donnees experimentales, on trouve une approche statistique qui exige des considerations mathematiques rigoureuses et parfois com- plexes. Neanmoins, Pexperimentateur n'a pas toujours besoin de connaitre les details et les subtilites mathematiques. De plus, rares sont les situations ou les conditions experimentales correspondent exactement aux conditions d'application de tel ou tel theoreme. C'est pourquoi 1'accent est mis non pas sur la demonstration des resultats mathematiques mais sur leur signification et leur interpretation physique. Parfois, pour alleger la presentation, la rigueur mathematique est volontairement sacrifice et remplacee par une argumentation "physiquement evidente".

Le plan du livre est simple. Dans 1'introduction, on presente les causes d'erreurs et on definit le langage utilise. Le premier chapitre rappelle les principaux resultats de statistique essentiels a 1'analyse des donnees. Le deuxieme chapitre presente des notions plus complexes de statistique, il est consacre aux fonctions de varables alea- toires. Dans le troisieme chapitre qui est la partie la plus importante, on s'efforce de repondre aux questions les plus frequentes qui se posent dans 1'analyse des donnees experimentales. Le dernier chapitre est consacre aux methodes les plus frequemment utilisees pour 1'ajustement de parametres.

(8)

ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES Bien que ce livre soit particulierernent adapte au travail d'etudiants de second cycle, il pourra etre egalement utile aux jeunes chercheurs, aux ingenieurs et a tons ceux qui sont amenes a realiser des mesures.

J'airnerais remercier mes collegues enseignants et chercheurs qui ont lu le manuscrit et qui m'ont fait des propositions pour arneliorer son contenu. Je voudrais exprimer ma profonde gratitude a M. Elie Belorizky qui m'a encourage a ecrire ce livre et avec qui j'ai eu des discussions tres fructueuses.

6

(9)

POURQUOI LES INCERTITUDES EXISTENT-ELLES ?

Le but de la majorite des experiences en physique consiste a comprendre un phenomene et a le modeliser correctement. Nous effectuons des mesures et nous avons sou vent a nous poser la question : "quelle est la valeur de telle ou telle grandeur ?", parfois sans nous demander prealablement si cette formulation est correcte et si nous serons capables de trouver une reponse.

La necessite de cette interrogation prealable devient evidente des qu'on rnesure la meme grandeur plusieurs fois. L'experimentateur qui le fait est frequemment con- fronte a une situation assez interessante : s'il utilise des appareils suffisamment pre- cis, il s'apergoit que des mesures repetees de la meme grandeur donnent parfois des resultats qui sont un peu differents de celui de la premiere mesure. Ce phenomene est general, que les mesures soient simples ou sophist iquees. Meme les mesures repetees de la longueur d'une tige metallique peuvent donner des valeurs differentes. La repetition de 1'experience montre que, d'une part les resultats sont toujours un peu differents et d'autre part cette difference n'est en general pas tres grande. Dans la plupart des cas, on reste proche d'une certaine valeur moyenne, mais de temps en temps on trouve des valeurs qui sont differentes de celle-ci. Plus les resultats sont eloignes de cette moyenne, plus ils sont rares.

Pourquoi cette dispersion existe-t-elle ? D'ou vient cette variation ? Une raison de cet effet est evidente : les conditions de deroulement d'une experience varient toujours legerement, ce qui modifie la grandeur mesurable. Par exemple, quand on determine plusieurs fois la longueur d'une tige metallique, c'est la temperature ambiante qui peut varier et ainsi faire varier la longueur. Cette variation des conditions exterieures (et la variation correspondante de la valeur physique) peut etre plus ou moins importante, mais elle est inevitable et, dans les conditions reelles d'une experience physique, on ne peut pas s'en affranchir.

Nous sommes "condamnes" a effectuer des mesures de grandeurs qui ne sont presque jamais constantes. C'est pourquoi meme la question de savoir quelle est la valeur d'un parametre peut ne pas etre absolument correcte. II faut poser cette question de maniere pertinente et trouver des moyens adequats pour decrire les grandeurs physiques. II faut trouver une definition qui puisse exprimer cette particularity physique. Cette definition doit refleter le fait que la valeur physique varie toujours, mais que ses variations se regroupent autour d'une valeur moyenne.

La solution est de caracteriser une grandeur physique non pas par une valeur, mais plutot par la probabilite de trouver dans une experience telle ou telle valeur. Pour cela on introduit une fonction appelee distribution de probabilite de detection d'une valeur physique, ou plus simplement la distribution d'une valeur physique, qui montre

(10)

8 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES quelles sont les valeurs les plus frequentes ou les plus rares. II faut souligner une fois encore que, dans cette approche, il ne s'agit pas tellement de la valeur concrete d'une grandeur physique, mais surtout de la probabilite de trouver differentes valeurs.

On verra par la suite que cette fonction — la distribution d'une valeur physique — est heureusement suffisamment simple (en tout cas, dans la majorite des experiences).

Elle a deux caracteristiques. La premiere est sa valeur moyenne qui est aussi la valeur la plus probable. La deuxieme caracteristique de cette fonction de distribution indique, grosso modo, la region autour de cette moyenne dans laquelle se regroupe la majorite des resultats des mesures. Elle caracterise la largeur de cette distribution et est appelee 1'incertitude. Comme nous pourrons le voir par la suite, cette largeur a une interpretation rigoureuse en terme de probabilites. Pour des raisons de simplicite nous appellerons cette incertitude "1'incertitude naturelle" ou "initiale" de la grandeur physique elle-meme. Ce n'est pas tout a fait vrai, puisque cette erreur ou incertitude est souvent due aux conditions experimentales. Bien que cette definition ne soit pas parfaitement rigoureuse, elle est tres utile pour la comprehension.

Le fait que, dans la plupart des experiences, le resultat puisse etre caracterise par seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons commence notre discussion : "Peut-on se demander quelle est la valeur d'un parametre physique ?" II se trouve que dans le cas ou deux parametres sont necessaires et suffisants pour caracteriser une grandeur physique, on peut reconcilier notre envie de poser cette question et la rigueur de 1'interpretation d'un resultat en termes de probabilites. La solution existe : on appellera valeur physique la valeur moyenne de la distribution et incertitude ou erreur de la valeur physique la largeur de la distribution1. C'est une convention admise de dire que "la grandeur physique a une valeur donnee avec une incertitude donnee". Cela signifie que 1'on presente la valeur moyenne et la largeur d'une distribution et que cette reponse a une interpretation precise en termes de probabilites.

Le but des mesures physiques est la determination de cette fonction de distribution ou, au moins, de ses deux parametres majeurs : la moyenne et la largeur. Pour determiner une distribution on doit repeter plusieurs fois une mesure pour connaitre la frequence d'apparition des valeurs. Pour obtenir 1'ensemble des valeurs possibles ainsi que leurs probabilites d'apparition, on devrait en fait effectuer un nombre infini de mesures. C'est tres long, trop cher, et personne n'en a besoin.

On se limite done a un nombre fmi de mesures. Bien sur, cela introduit une erreur

Pour des raisons historiques, les deux termes "incertitude" et "erreur" sont utilises en physique pour decrire la largeur d'une distribution. Depuis quelques annees, les organismes scientifiques internationaux essaient d'introduire des normes pour utiliser correctement ces deux termes (de la meme fagon que 1'on a introduit le systeme international d'unites). Aujourd'hui, on appelle une erreur la difference entre le resultat d'une mesure et la vraie valeur de la grandeur mesuree. Tandis que 1'incertitude de mesure est un parametre, associe au resultat d'une mesure, qui caracterise la dispersion des valeurs qui peuvent raisonnablement etre attributes a la grandeur mesuree. Dans ce livre, nous tacherons de suivre ces normes, mais parfois nous utiliserons des expressions plus habituelles pour un physicien. Par exernple, une formule tres connue dans 1'analyse des donnees experimenatles porte le nom de "la formule de propagation des erreurs". Nous utiliserons toujours ce nom bien connu bien que, selon les normes actuelles, nous aurions du 1'appeller "la formule de propagation des incertitudes". Le lecteur interesse trouvera dans la bibliographie toutes les references sur les normes actuelles.

(11)

POURQUOI LES INCERTITUDES EXISTENT-ELLES ?

(incertitude) supplementaire. Cette incertitude, due a 1'impossibilite de mesurer avec une precision absolue la distribution initiale (naturelle), s'appelle 1'erreur statistique ou rerreur accidentelle. II est assez facile, du moms en theorie, de diminuer cette erreur : il suffit d'augmenter le nombre de mesures. En principe, on peut la rendre negligeable devant I'incertitude initiale de la grandeur physique. Cependant un autre probleme plus delicat apparait.

II est lie au fait que, dans chaque experience physique existe un appareil, plus ou moins complique, entre 1'experimentateur et 1'objet mesurable. Get appareil apporte inevitablement des modifications de la distribution initiale : il la deforme. Dans le cas le plus simple, ces changements peuvent etre de deux types : I'appareil peut "decaler"

la valeur moyenne et il peut elargir la distribution.

Le decalage de la valeur moyenne est un exemple de ce qu'on appelle les "erreurs systematiques". Ce nom exprime que ces erreurs apparaissent dans chaque mesure.

L'appareil donne systematiquement une valeur qui est differente (plus grande ou plus petite) de la valeur "reelle". Mesurer avec un appareil dont le zero est mal regie est 1'exemple le plus frequent de ce genre d'erreurs. Malheureusement, il est tres difficile de combattre ce type d'erreurs : il est a la fois difficile de les deceler et de les corriger.

Pour cela, il n'y a pas de methodes generates et il faut etudier chaque cas.

Par contre, il est plus facile de maitriser 1'elargissement de la distribution introduit par I'appareil. On verra que cette incertitude ayant la meme origine que les incerti- tudes initiales (naturelles) s'ajoute "simplement" a celles-ci. Dans un grand nombre d'experiences, 1'elargissement du a I'appareil permet de simplifier les mesures : sup- posons que nous commissions I'incertitude (la largeur) introduite par un appareil et que celle-ci soit nettement plus grande que I'incertitude initiale. II est possible de negliger I'incertitude naturelle par rapport a I'incertitude d'appareillage. II suf- fit done de faire une seule mesure et de prendre I'incertitude de I'appareil comme incertitude de la mesure. Evidemment, dans ce genre d'experience, il faut etre sur que I'incertitude de I'appareil domine I'incertitude naturelle, mais on peut toujours le verifier en faisant des mesures repetitives. L'appareil peu precis ne permettra pas d'obtenir les variations dues a la largeur initiale.

II faut remarquer que la separation entre incertitude d'appareillage et incertitude naturelle reste assez conventionnelle : on peut toujours dire que la variation des conditions d'experience fait partie de I'incertitude d'appareillage. Dans ce livre, on ne parle pas des mesures en mecanique quantique, ou existe une incertitude de la valeur physique a cause de la relation d'incertitude de Heisenberg. En mecanique quantique, 1'interference appareil—objet devient plus compliquee et interessante. Cependant nos conclusions generales ne sont pas modifiees puisque, en mecanique quantique, la notion de probabilite est non seulement utile et naturelle, mais elle est indispensable.

Nous avons compris que pour determiner experimentalement une valeur physique il est necessaire (mais pas toujours suffisant) de trouver la moyenne (la valeur) et la largeur (I'incertitude). Sans la determination de I'incertitude, 1'experience n'est pas com- plete : on ne peut la comparer ni avec une theorie ni avec une autre experience. Nous avons egalement vu que cette incertitude contient trois contributions possibles. La premiere est I'incertitude naturelle liee aux changements des conditions d'experience ou a la nature-meme des grandeurs (en statistique ou en mecanique quantique). La

9

(12)

10 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES deuxieme est 1'incertitude statistique due a 1'impossibilite de mesurer precisement la distribution initiale. La troisieme est 1'incertitude d'appareillage due a 1'irnperfection des outils de travail de Pexperimentateur.

Un experimentateur se pose toujours deux questions. Premierement, comment peut- on mesurer une grandeur physique, c'est-a-dire les caracteristiques de sa distribution : la moyenne et la largeur ? Deuxiemement, comment et jusqu'ou faut-il diminuer cette incertitude (largeur) de 1'experience ? C'est pourquoi 1'experimentateur doit comprendre les relations entre les trois composantes de 1'incertitude et trouver com- ment les minimiser : on peut diminuer 1'incertitude naturelle en changeant les condi- tions de 1'experience, 1'incertitude statistique en augmentant le nombre de mesures, 1'incertitude d'appareillage en utilisant des appareils plus precis.

Cependant, on ne peut pas reduire les incertitudes infiniment. II existe une limite raisonnable de 1'incertitude. L'evaluation de cette limite est non seulement une ques- tion de temps et d'argent depenses, mais c'est aussi une question de physique. II ne faut pas oublier que, quelle que soit la grandeur a mesurer, nous ne pourrons jamais tenir compte de tous les facteurs physiques qui peuvent influencer sa valeur. De plus, tous nos raisonnements et discussions sont effectues dans le cadre d'un modele ou, plus generalement, de notre vision du monde. Ce cadre peut ne pas etre exact.

C'est pourquoi notre probleme est de choisir des methodes experimentales et des methodes d'estimation des incertitudes en adequation avec la precision souhaitable et possible.

Diverses situations existent selon la precision desiree. Dans la premiere nous voulons seulement obtenir 1'ordre de grandeur de la valeur mesuree ; dans ce cas, 1'incertitude doit aussi etre evaluee grossierement. Dans la seconde nous desirous obtenir une precision de 1'ordre de un a dix pour cent ; il faut alors faire attention en determinant les incertitudes, car les methodes choisies doivent evoluer en fonction de la precision requise. Plus on cherche de precision, plus la methode doit etre elaboree, mais le prix a payer est la lenteur des calculs et leur volume. Dans la troisieme nous cherchons a obtenir une precision du meme ordre de grandeur que celle de Petalon correspondant au parametre physique mesure ; le probleme de 1'incertitude peut alors etre plus important que celui de la valeur.

Dans cet ouvrage, nous considerons seulement les methodes d'estimation d'erreurs dans la seconde situation. La plupart des paragraphes apporte reponse a une ques- tion concrete : comment calcule-t-on les incertitudes pour une experience avec un petit nombre de mesures ? comment peut-on ajuster les parametres d'une courbe ? comment compare-t-on une experience et une theorie ? quel est le nombre de chiffres significatifs ? etc. Le lecteur qui connait les bases de la statistique peut omettre sans probleme les premiers paragraphes et chercher la reponse a sa question. Dans le cas contraire, 1'ouvrage lui apporte 1'information necessaire sur les parties de la statistique utiles au traitement des incertitudes.

(13)

CHAPITRE 1 RAPPELS SUR LA THEORIE DES PROBABILITES

Dans ce chapitre, nous avons reuni des notions de base de la theorie des probabilites : la definition d'une probability et ses proprietes elementaires ainsi que 1'introduction des distributions les plus frequemment utilisees dans 1'analyse des donnees experi- mentales. Parmi ces distributions, celle de Gauss joue un role tres particulier, c'est pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacree car elle et est indispensable a la comprehension du reste du livre.

1.1 PROBABILITES

Pour pouvoir decrire une grandeur physique en termes de probability il faut rappeler les definitions et les proprietes les plus simples. Pour les mesures les plus frequentes faites en laboratoire nous n'avons pas besoin de toute la panoplie des methodes de la statistique mathematique et notre experience du monde est largement sumsante pour comprendre et assimiler les proprietes fondamentales des probabilites. Logiquement, chaque lecteur de ce livre a deja eu 1'occasion dans sa vie de jouer, au moins aux cartes et ainsi la notion de probabilite ne lui est pas etrangere.

1.1.1 DEFINITIONS ET PROPRIETES

Supposons que 1'on observe un evenement E repete Ne fois (on dit que 1'on prend un echantillon de Ne evenements). Dans n cas, cet evenement est caracterise par une marque distinctive a (appelee aussi caractere). Si les resultats des evenements dans cette suite sont independants, alors la probabilite P(a) que la marque a se manifeste est definie comme

On voit toute de suite que la probabilite varie de 0 a 1

(14)

12 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES et que la somme sur tous les caracteres (de meme nature) possibles {/}, i = a,b,c,...

est egale a 1

Un exemple d'evenement est le tirage d'une carte du jeu. La marque distinctive serait la categoric de couleur (pique, coeur, carreau ou trefle). Pour un jeu de 52 cartes, la probabilite d'une categoric de couleur est egale a 1/4. On notera par A 1'ensemble d'evenements ou ce signe s'est manifested

Introduisons deux operations tres simples avec les probabilites. Definissons par A + B 1'ensemble des evenements dans lesquels la marque a ou la marque 6, ou les deux, sont presentes (ici a et 6 peuvent etre de nature differente). Par exemple, a est une categoric de couleur, 6 est la valeur de la carte (le roi, la dame, etc.) De plus, defmissons par AB 1'ensemble des evenements dans lesquels ces deux signes se manifestent simultanement.

Alors,

C'est-a-dire, pour trouver la probabilite qu'un evenement possede au moins une des marques nous devons, d'abord, ajouter deux probabilites P(A) et P(B). Cependant, certains evenements peuvent avoir les deux signes en meme temps et on les a comptes deux fois. C'est pourquoi il faut soustraire la probabilite P(AB}.

Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le valet et 10 cartes numerotees de 1 a 10). Pour une carte tiree au hasard, la probabilite d'etre soit le roi soit une carte de cceur (a etant le roi, 6 une carte de coeur) est egale a

P("soit le roi, soit une carte de coeur")

= P("roi") + 7>("cceur") - P("roi de cceur")

Introduisons une notion un peu plus compliquee. Supposons que 1'evenement A puisse se produire de na manieres differentes, 1'evenement B de n^ manieres et 1'evenement AB de nab manieres. Si le nombre total de realisations possibles est egal a N (ne pas confondre avec le nombre Ne d'evenements introduit au debut du paragraphe), alors

On peut reecrire P(AB') comme

Parmi les na cas ou 1'evenement A se produit, il y a une proportion

1'evenement B s'est egalement produit. On peut introduire la probabilite correspon- dante qui s'appelle la probabilite conditionnelle P(A/B) de 1'evenement B, c'est-a-dire la probabilite d'observer B sous reserve que A se soit produit.

(15)

I - RAPPELS SUR LA THEORIE DBS PROBABILITES 13 Ainsi, la derniere formule prend la forme

Si 1'evenement A n'a pas d'influence sur la probabilite d'evenement B, on dit alors que les deux evenements sont independents et

Dans ces conditions, on obtient pour la probabilite d'apparition de deux evenements a la fois P(AB) une relation tres importante :

ce qui montre que les probabilites des evenements independants se multiplient. On utilisera cette propriete plusieurs fois dans ce livre.

Considerons 1'exemple de notre jeu de 52 cartes. Soit A "un roi", B "une carte de coeur". Done na = 4, 77.5 = 13, N = 52 et les probabilites correspondantes :

Vu que P(AB) = "P("roi de cceur") = 1/52, on conclut que

et ainsi, dans le jeu de 52 cartes, ces deux evenements sont independants.

Ajoutons juste une carte a notre jeu — un joker qui n'appartient a aucune categoric de couleur. na, a nouveau, est egal a 4, n^ a 13, mais N est egal a 53. Done,

On s'apergoit facilement que

et ainsi ces deux evenements ne sont plus independants dans le jeu de 53 cartes ! L'explication de cette difference est relativement simple : si nous savons qu'une carte est un roi alors elle ne peut pas etre le joker, et ainsi nous avons deja obtenu une certaine information pour determiner sa categoric de couleur.

1.1.2 GRANDEURS DISCRETES ET CONTINUES, FONCTIONS DE DISTRIBUTION

Une grandeur physique peut avoir une valeur numerique discrete ou continue. Dans le premier cas, on 1'appellera grandeur "discrete", dans le deuxieme, "continue". Les exemples de grandeurs discretes sont la categoric de couleur, la valeur de la carte, si

(16)

14 ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES

Figure 1.1 : Histogramme de la premiere serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition

Ton reprend notre exemple, ou le comptage d'un detecteur, si 1'on considere des exem- ples plus physiques. Mais plus frequemment en physique, on mesure des grandeurs continues, comme la longueur, la duree, le courant, etc.

Cette distinction des valeurs (ou des grandeurs) discretes et continues est tout a fait justifiee. Neanmoins, en physique, on decrit assez souvent une grandeur continue par une valeur discrete et vice versa. De ce point de vue, cette separation est, en partie, conventionnelle et les proprietes (ou meme Pecriture) valables pour les valeurs discretes seront utilisees pour les valeurs continues et inversement. On franchira cette frontiere regulierement, meme parfois sans se rendre compte de ce que Ton fait. Cette attitude correspond a un parti pris de presentation. Le lecteur ne doit pas en deduire que le passage a la limite s'effectue dans tous les cas sans difficulte.

Pour illustrer le caractere conventionnel de cette distinction, considerons un exem- ple de mesure de la longueur d'une chambre (il est evident que la longueur est une grandeur continue) a 1'aide d'un decimetre qui possede aussi des divisions cen- timetriques. Le fait meme que nous disposions d'un decimetre avec des divisions nous oblige a decrire une grandeur continue a 1'aide de valeurs entieres done discretes (on aura un certain nombre de decimetres ou de centimetres). On peut aller plus loin et dire que la representation d'une longueur par un nombre fini de chiffres est un passage oblige d'une valeur continue a une valeur discrete.

Bien sur, il existe des situations ou une valeur discrete ne peut pas etre remplacee par une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont rares dans les experiences de physique. Nous observerons par la suite des passages des valeurs d'un type a 1'autre. Les proprietes de probabilite resteront les memes dans

(17)

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES 15 les deux cas. C'est pourquoi nous donnerons les demonstrations generales pour les variables continues et considererons que les resultats s'appliquent aussi aux variables discretes.

Continuons notre experience mentale. Supposons qu'apres avoir fait une dizaine de mesures rapides, nous ayons trouve une fois la longueur de la chambre egale a 323 centimetres, cinq fois — 324 cm et quatre fois — 325 cm. Les resultats sont presentes sur la figure 1.1 qui s'appelle un "histogramme". Sur 1'axe des abscisses, on montre la valeur mesuree et, sur 1'axe des ordonnees, le nombre relatif (HI mesures de la valeur / par rapport au nombre total N de mesures) c'est-a-dire la frequence d'apparition de chaque valeur. Le sol n'etait pas plat, notre decimetre n'etait pas toujours droit, la longueur etait, la plupart du temps, comprise entre 324 et 325 cm et nous ne savions pas dans quel sens il fallait Tarrondir. D'ou la dispersion de nos resultats.

Pour clarifler la situation nous avons pris un instrument de mesure gradue en mil- limetres et en augmentant sensiblement le nombre de mesures nous avons obtenu les nouveaux resultats representes sur la figure 1.2. Avec une autre echelle on retrouve les memes tendances : les resultats sont legerement differents et se regroupent autour d'une certaine valeur.

Figure 1.2 : Histogramme de la deuxieme serie de mesures de la longueur / : sont portees sur 1'axe des abscisses la valeur mesuree et sur 1'axe des ordonnees la frequence de son apparition

On peut continuer ainsi notre experience en diminuant 1'echelle et en augmentant le nombre de mesures dans chaque serie. La forme des histogrammes tendra vers une forme en cloche qui, lorsque le nombre de mesures tend vers I'infmi, peut etre decrite par une fonction continue f(x) (figure 1.3).

Chaque histogramme donne le nombre relatif de resultats se trouvant dans un inter-

(18)

16 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Figure 1.3 : Fonction de la densite de probabilite

valle donne. Ainsi, dans le cas d'un grand nombre de mesures et selon notre definition (1), le produit f(x}dx donne la probabilite que la grandeur mesuree se trouve dans 1'intervalle La fonction f(x) represente la densite de probabilite.

On 1'appellera aussi la fonction de distribution de probabilite. x varie au hasard et s'appelle variable aleatoire.

D'apres notre definition, la probabilite P de trouver la valeur dans 1'intervalle compris entre xi et x<i est egale a

qui est la somme (1'integrale) de f(x] pour toutes les valeurs de x entre x\ et x^.

Selon (2), f(x) obeit a la condition

ce qui signifie que la probabilite de trouver une valeur de x quelconque est egale a 1.

Par commodite mathematique, nous avons pris ici des limites infmies pour 1'integrale.

Mais une grandeur physique, par exemple la longueur, peut ne pas varier dans ces limites (elle ne peut pas etre negative). Cela signifie que la fonction /(a?) utilisee pour decrire cette grandeur doit devenir tres petite en dehors des limites que nous choisissons effectivement.

Pour une grandeur discrete qui prend les valeurs numeriques X{ = {x\, x % , . . . } nous

(19)

I — RAPPELS SUE LA THEORIE DBS PROBABILITES 17 avons exactement la meme relation de normalisation :

ou 'P(xi) est la probabilite de trouver la valeur Xi.

On peut souligner que le passage d'un histogramme a une fonction continue est ana- logue a la notion d'integrale comme limite de la somme des aires de rectangles ele- ment aires sous la courbe representant une fonction quand le nombre de divisions tend vers 1'infini.

1.1.3 PROPRIETES DE LA FONCTION DE DISTRIBUTION

Comment pouvons-nous caracteriser la fonction de distribution de probabilite f(x] ? Theoriquement, il faut la connaitre a chaque point x mais il est evident que ceci n'est pas realisable experimentalement : nous ne pouvons pas mesurer la probabilite pour chaque valeur x.

A priori, cette fonction f(x] doit etre positive, vu sa relation avec la probabilite, tendre vers zero a plus l'infini et a moins 1'infini assez rapidement pour que 1'integrale (5) existe, et avoir la forme de la courbe presentee sur la figure 1.3. II est logique d'introduire au moins deux parametres qui decrivent la. position de la courbe (c'est- a-dire celle de son maximum) sur 1'axe et son etalement.

Ainsi la premiere caracteristique de la distribution de probabilite f(x) est la valeur moyenne de x

Chaque valeur possible de x est multipliee par la probabilite de son apparition f(x)dx et la somme (1'integrale) est effectuee sur toutes les valeurs possibles.

Pour une variable discrete

La barre sur x est la notation standard indiquant la valeur moyenne arithmetique.

Bien evidemment, nous supposons que cette integrate (cette somme) ainsi que les integrates (les sommes) que nous allons definir existent. C'est une hypothese physique naturelle mais nous discuterons aussi d'exemples ou elle n'est pas valable.

L'etalement de la distribution peut etre decrit par la variance ou le carre de I'ecart- type et defini par

(20)

18 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES pour une variable continue, et par

pour une variable discrete.

Pour chaque valeur de a?, on considere 1'ecart par rapport a la valeur moyenne af et on calcule la valeur moyenne du carre de cet ecart. Pourquoi avoir choisi cette caracteristique plutot qu'une autre ? Parce que la simple valeur moyenne de 1'ecart mais nous verrons est nulle. Nous aurions pu prendre comme caracteristique \x — x

a la fin de ce paragraphe que, sous cette forme, la variance ne presente pas certaines proprietes remarquables et fort utiles.

II est facile de demontrer qu'avec la definition (7) le carre de 1'ecart-type s'ecrit

Prenons 1'exemple le plus simple : une distribution de probability constante (voir figure 1.4) d'une grandeur x qui peut varier de a a &

La valeur de cette constante est definie par la condition de normalisation (5).

Figure 1.4 : Distribution constante

La valeur moyenne de x pour cette fonction de distribution est

et sa variance :

(21)

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES 19

Les deux seules caracteristiques, peuvent ne pas etre suffisantes pour decrire la fonction f(x). On peut alors defmir les valeurs moyennes du cube, de la quatrieme puissance de I'ecart etc. De cette facon, on obtient un moment central d'ordre n :

Le mot "central" souligne le fait que le moment est calcule par rapport a la valeur moyenne

~x. Notons que, par definition,

Parfois, il est utile d'introduire des moments sans rapport avec la valeur moyenne

Les moments (ou les moments centraux), ainsi defmis, determinent la distribution f(x) d'une facon unique. On demontre facilement que si deux densites de probabilites fi(x) et /2(x) ont les memes moments, elles sont identiques Laissons au lecteur interesse le soin d'effectuer cette demonstration.

La connaissance de tous les moments {fi'n} (ou {pn}} donne une information complete sur la fonction de distribution de probabilite f(x). Cependant, il est plus rationnel de travailler avec une seule fonction contenant tous les moments dans son expression. Cette fonction s'appelle la fonction generatrice des moments defmie par :

La fonction exponentielle peut etre developpee en serie

On voit que [i'n est le coefficient peut egalement etre determinee a partir des derivees de la fonction M'x(t} :

(22)

20 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES Done pour t = 0, on obtient

D'une facon analogue, on introduit la fonction generatrice des moments centraux :

La relation entre ces deux fonctions est done :

Conformement au theoreme que Ton vient d'enoncer, on peut affirmer que I'egalite des deux fonctions g e n e r a t r i c e s , i m p l i q u e I'egalite des deux fonctions de distribution de probabilite :

Pour un lecteur interesse par les aspects mathematiques du probleme, notons que cette definition de la fonction generatrice n'est pas la seule utilisee dans la litterature. On peut remplacer la fonction exponentielle d'un argument reel e^par la fonction d'un argument purement complexe etxt. Dans le premier cas, la definition est etroitement liee a la transformation de Laplace, alors que dans le deuxieme elle est liee a la transformation de Fourier. Les deux transformations integrates sont tres proches I'une de I'autre : une rotation de 7T/2 dans le plan complexe de t permet de passer d'une transformation a I'autre.

L'introduction de la fonction generatrice peut etre consideree comme une astuce permet- tant de faciliter les diverses demonstrations (ce que nous verrons plus tard). Mais on peut lui donner une interpretation physique plus profonde qui sort du cadre de ce livre.

1.1.4 FONCTION DE DISTRIBUTION DE PLUSIEURS VARIABLES

Examinons maintenant la situation un peu plus complexe ou nous avons affaire a deux grandeurs (variables) x\ et x^. Par exemple, nous mesurons la longueur et la largeur d'une piece. Ou encore, nous faisons deux mesures independantes de la rneme grandeur : dans ce cas nous pouvons aussi dire que nous travaillons avec deux grandeurs.

La construction et les definitions sont absolument analogues au cas d'une seule varia- ble. Pour deux grandeurs continues, on doit introduire la densite de probabilite qui depend de deux variables /(a?i, x ^ } . Ainsi la probabilite de trouver la premiere valeur dans Pintervalle compris entre x\ et x\ + dx\ et la deuxieme valeur dans 1'intervalle compris entre

avec la condition de normalisation :

(23)

I - RAPPELS SUR LA THEORIE DBS PROBABILITES 21 La generalisation de ces definitions au cas de N variables est evidente.

Parmi toutes les fonctions il existe un cas particulierement important et interessant en physique. C'est celui ou deux variables x\ et x-2 sont independantes.

Alors, selon la formule (3), la fonction f ( x \ , X 2 ) se separe en un produit de deux fonctions :

ou chaque fonction represente la densite de probabilite de la variable correspondante.

Etudions les proprietes remarquables des valeurs moyennes et des variances dans un cas particulier mais tres frequent en physique : la somme de deux grandeurs independantes x\ -+- x^. Ces deux grandeurs x\ et x^ peuvent etre deux resultats de mesure de la meme grandeur x. Leur somme nous sera utile pour calculer la valeur moyenne sur deux experiences.

L'hypothese de leur independance nous permet d'utiliser la propriete (16) et, par definition, la valeur moyenne de la somme est egale a

la somme des deux valeurs moyennes.

Pour calculer la variance on procede aussi par definition :

(24)

22 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES On separe cette expression en trois integrates et on utilise la propriete (16)

On obtient finalement une relation simple

qui montre que la variance de la somme de deux grandeurs independantes est egale a la somme de leur variance. Cette formule est la base du traitement des incertitudes et elle est utilisee continuellement en physique.

On voit d'ailleurs 1'avantage d'une telle definition de la variance. Nous avons dit qu'il etait "a priori" possible de caracteriser 1'etalement d'une distribution f(x) par par exemple. Mais, avec cette definition, on ne peut obtenir une relation aussi simple que celle donnee par la formule (17).

Par analogic, pour TV grandeurs independantes x±, x % , . . . , XN, on a

On introduit la somme

de ces grandeurs. La moyenne de la somme X est egale a

c'est-a-dire a la somme des moyennes et la variance de X est donnee par

soit la somme des variances.

Pour la fonction generatrice des moments

(25)

I — RAPPELS SUR LA THEORIE DBS PROBABILITIES 23 on obtient facilement d'apres (18)

Cela signifie que la fonction generatrice des moments d'une somme de grandeurs indepen- dantes est egale au produit des fonctions generatrices individuelles.

De plus, si toutes les grandeurs dans cette somme ont la meme fonction de distribution

on a la meme fonction generatrice de moments pour toutes les grandeurs

et pour la somme X on obtient une expression encore plus simple

1.1.5 CORRELATIONS

Jusqu'a present, nous n'avons considere que des exemples de grandeurs physiques (varia- bles aleatoires) independantes. Mais on rencontre aussi des variables correlees (c'est-a-dire non independantes). A la fin du paragraphe 1.1.1 (voir (4)), nous avons vu un tel exemple avec une carte ajoutee a un jeu normal de 52 cartes, ce qui entrafne que la probabilite de deux evenements A et B simultanes P(AB) n'est pas egale au produit des probabilites

Cette inegalite est le signe de deux evenements correles.

On peut penser que de tels exemples sont relativement rares en physique. En effet, dans la plupart des situations reelles, nous avons affaire a des variables aleatoires indepen- dantes comme les mesures d'une meme grandeur {x,}. Bien evidemment, il existe des situations ou une mesure peut influencer la suivante, comme la mesure d'un courant avec un amperemetre electromecanique (de mauvaise qualite) dont le ressort est usage et se deforme facilement. Dans ce cas, chaque mesure risque de dependre des precedentes. La statistique n'est d'aucun secours dans ce type de situations. C'est un exemple d'erreur systematique qu'il est assez difficile de detecter et de corriger. En physique experimen- tale, il existe beaucoup de situations ou, pour une experience precise, on doit utiliser un unique appareil dont on ne connatt pas tres bien les proprietes. Ce manque de connais- sance de I'appareillage conduit parfois a des erreurs systematiques et meme a de fausses decouvertes.

(26)

24 ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES

Neanmoins, en statistique, il existe "un mecanisme" tout a fait nature! et frequent d'appa- rition des correlations. Meme si les variables {a??-} sont independantes, leurs fonctions peuvent etre correlees.

Nous caracteriserons la dependance entre deux variables X{ et Xj (avec des valeurs moyennes et des variances par le coefficient de correlation q^j defmi par :

Les ecarts quadratiques moyens crz et <TJ sont introduits dans la definition par commodite.

Nous utiliserons aussi la covariance de deux variables :

En particulier, pour i = j

Si les variables X{ et Xj sont independantes, le coefficient de correlation est nul : q^j — 0.

Si Xi est proportionnelle a X j , c'est-a-dire ce coefficient est egal a ±1 ; Dans un cas general,

Prenons un exemple, presque trivial, qui donne une illustration de ce mecanisme d'appa- rition des correlations. Soient x\ et x^ deux grandeurs physiques independantes avec la meme moyenne /j, et la meme variance a2. Introduisons deux grandeurs y{ et y^ qui leur sont liees par une relation lineaire :

Calculons la covariance cov(2/1,7/2) (23).

Tout d'abord, determinons les moyennes de 7/1 et de 7/2 :

yT= auxi +012^2 = aii^I+ 012^2"= (an + 012)^ , y2 = azixi + 022^2 = (<*2i + ^22)^-

(27)

I - RAPPELS SUR LA THEORIE DBS PROBABILITES 25

Autrement dit, dans le cas general les deux variables y\ et yi ne sont pas independantes mais sont correlees.

Get exemple donne une illustration de la notion de correlation.

Neanmoins, la notion d'independance de deux variables n'est pas toujours evidente. Con- siderons I'exemple simple de la correlation des deux variables x et y = x2. A priori, nous pouvons penser qu'elles sont correlees.

D'apres la definition (23), la covariance est donnee par

Dans le cas general, cette expression est differente de zero, c'est-a-dire que x et x2 sont effectivement correlees. Mais il suffit que Ton prenne le cas particulier d'une fonction de distribution f(x) paire, par exemple la distribution de Gauss (voir paragraphe suivant) avec fj, = 0, pour que et pour que la correlation disparaisse ! Get exemple n'est pas tres exotique : dans le cas d'un gaz dont les vitesses des molecules obeissent a la distribution de Maxwell (voir paragraphe 3.1.3), les composantes de la vitesse (vx, vy

et vz) et I'energie ne sont pas correlees. A posteriori, on peut comprendre qualitativement ce resultat : la valeur de x est caracterisee par son module et son signe tandis que x2 n'est caracterise que par le module de x. Les signes + et — sont equiprobables en vertu de la symetrie de f(x), c'est pourquoi x et x2 se trouvent decorrelees.

1.2 DISTRIBUTION DE GAUSS

La premiere distribution continue que Ton etudie ici est la distribution de Gauss.

Cette distribution est la plus frequente en physique, c'est pourquoi, dans la litterature, on Tappelle aussi la distribution normale. Dans cet ouvrage, nous utiliserons les deux denominations. Nous verrons, dans le paragraphe suivant consacre au theoreme central limite, pourquoi cette distribution joue un role si particulier. Pour 1'instant nous etudions surtout ses proprietes.

On a alors :

(28)

26 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Figure 1.5 : Les distributions de Gauss pour plusieurs jeux de parametres /j, et <r

Supposons qu'une valeur physique varie d'une fagon continue dans un intervalle de moins 1'infmi jusqu'a plus I'mfini1. La densite de probabilite f(x] de trouver la valeur physique aleatoire x pour une distribution normale est donnee par

La distribution normale est caracterisee par deux parametres ^ et a. Leur sens est clairement visible sur la figure 1.5 ou nous avons presente plusieurs distributions correspondant a des /j. et a differents : ^ donne la position de la distribution, <r son etalement.

Notons que le facteur devant la fonction exponentielle est choisi pour que la probabilite totale soit normee :

Nous avons deja dit, au paragraphe precedent, que la plupart des valeurs physiques varient dans des limites finies, mais, dans les situations experimentales concretes, les valeurs reelles ne sont jamais proches des limites et ainsi 1'hypothese d'infinite de 1'intervalle de variation n'a aucune consequence sur 1'applicabilite des resultats obtenus.

(29)

I — RAPPELS SUR LA THEORIE DBS PROBABILITIES 27

Rappelons au lecteur que le calcul de I'integrale

qui se rencontre souvent en physique est simple.

II suffit de considerer 72 (integrale sur tout le plan xy) et de passer en coordonnees polaires dans Tintegrale double :

Calculons la moyenne et la variance de cette distribution. Par definition, la valeur moyenne de x est egale a

Ainsi, le parametre p peut etre interprete comme la valeur moyenne de x. Notons aussi que x = ^ est le maximum de la fonction f(x] et que cette distribution est symetrique par rapport a ce point.

De la meme fagon, on calcule la variance de la distribution normale :

(La derniere integrale peut etre calculee, par integration par parties.) Nous voyons pourquoi, des le debut, nous avons designe par a le deuxieme parametre de cette distribution.

II est relativement facile de calculer des moments d'ordre plus eleve de la distribution de Gauss. II faut introduire la fonction generatrice des moments centraux qui, par definition, est egale a

(30)

28 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Pour la calculer il suffit de faire le changement de variable

completer ('argument de la fonction exponentielle en faisant apparattre Ces changements de variable nous permettent de retrouver I'integrale (25).

Ainsi, pour la fonction generatrice des moments centraux on obtient I'expression

On voit que tous les moments impairs sont nuls ce qui est evident en vertu de la symetrie de la distribution normale par rapport a x = //. Les moments pairs sont

Pour voir I'utilite des fonctions generatrices, prenons un exemple qui interviendra au paragraphe suivant. Considerons la distribution d'une grandeur physique y — ax + b qui est une fonction lineaire d'une autre grandeur x distribute selon la loi normale avec une moyenne /^ et une variance <r2.

La fonction generatrice des moments est egale a

done

Selon notre hypothese, la distribution de x est une distribution de Gauss (26). D'ou

Cette expression prouve que la grandeur y a aussi une distribution normale de valeur moyenne a/j, + b et de variance a2<r2. Les deux resultats sont presque evidents : la trans- lation change juste la valeur moyenne et le changement d'echelle multiplie la moyenne par a et la variance par a2 (le resultat etait previsible vu les dimensions de ces grandeurs).

Comme la distribution de Gauss est entierement determinee par les deux valeurs //, <r et que la plupart des grandeurs physiques peuvent etre decrites par cette distribution, les resultats experimentaux peuvent etre caracterises par deux valeurs seulement. Par convention, on presente ces derniers sous la forme

II faut expliquer ce que cette ecriture symbolique signifie. Premierement, en presen- tant un resultat de cette maniere, on suppose que la distribution de la grandeur

2 Les normes ISO proposent d'utiliser la notation ux plutot que Ao\ Cependant, dans ce livre, nous garderons 1'ecriture Ao: plus habituelle pour les physiciens.

(31)

I - RAPPELS SUR LA THEORIE DBS PROBABILITES 29

physique mesuree est gaussienne. Deuxiemement, on prend la valeur rnoyenne de la distribution pour la valeur "reelle" de la grandeur x et sa largeur a pour 1'erreur. Cette forme d'ecriture est une convention generate que tout le rnonde accepte en gardant bien en tete ces hypotheses. On ne peut pas dire que la valeur "reelle" de x varie de la valeur minimale xmin = [i — a a une valeur maximale C'est faux ! Sous cette ecriture se cache une interpretation en termes de probabilite.

Rappelons que la probabilite de trouver une valeur physique dans un intervalle de x\

a X2 est egale a 1'integrale de la densite de probabilite dans ces limites. Pour une dis- tribution donnee, on peut calculer les integrales qui nous interessent numeriquement.

En particulier, pour la distribution de Gauss (figure 1.6), la probabilite de trouver la valeur x dans 1'intervalle

dans 1'intervalle

dans 1'intervalle

Ces resultats montrent encore une fois a quel point 1'interpretation comme valeurs maximale et rninimale possibles de x est approximative.

Pour une distribution de Gauss, la probabilite de retrouver x en dehors de cet in- tervalle est egale a 1/3, c'est-a-dire tres importante ! Autrement dit, si Ton mesure

Figure 1.6 : La distribution de Gauss

(32)

30 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES une grandeur x plusieurs fois, environ un tiers des resultats se trouve en dehors de jU ± <T et seulement deux tiers dans I'intervalle. De ce point de vue, il n'y a rien de dramatique si le resultat sort de cet intervalle. Par centre, si le resultat se trouve aussi en dehors de I'intervalle la situation devient beaucoup plus preoccupante. La probabilite d'un tel evenement pour la distribution de Gauss est seulement de 0,3 %, c'est-a-dire qu'elle est negligeable, vu le nombre d'experiences realisees habituellement au laboratoire (de quelques unites jusqu'a quelques dizaines).

L'apparition du resultat en dehors de I'intervalle de 3er signifie, la plupart du temps, qu'il existe une erreur soit dans le deroulement de 1'experience, soit dans les calculs de // et de a.

Dans le paragraphe 3.1, nous reviendrons sur la definition de fi et de a a partir d'un nombre limite de mesures ainsi que sur la precision d'une telle determination. Si 1'on ne peut obtenir la valeur de a experimentale qu'a un facteur 2 pres, on ne doit pas prendre a la lettre les valeurs des probabilites obtenues avec un a theorique.

Pour 1'instant, que retenir sur la distribution de Gauss (ou normale) ? D'abord, le fait qu'une tres grande majorite de grandeurs physiques se decrit, au moins en premiere approximation, par cette distribution. Cette circonstance explique son importance en physique. Cette distribution est caracterisee par deux parametres : la valeur moyenne H associee a la'Vraie" valeur de la grandeur physique et la largeur a associee a 1'erreur experimentale. C'est la raison pour laquelle le resultat d'une experience s'ecrit sous la forme /L* ± a ; 1'interpretation d'une telle ecriture est que la probabilite pour que la valeur physique mesuree se trouve dans cet intervalle est egale a 2/3. Si le resultat sort de I'intervalle fj, ± 3u, alors il est tres probable qu'une erreur se soit glissee dans nos mesures ou dans les calculs de /J ou de a.

1.3 AUTRES DISTRIBUTIONS ELEMENTAIRES

Au paragraphe precedent, nous avons souligne que la distribution de Gauss est la plus frequente dans la nature. Cependant, elle n'est pas la seule possible. D'autres distributions de probabilite interviennent frequemment dans la vie courante ; men- tionnons en particulier les distributions de Student, de Poisson, de Lorentz, ainsi que la distribution binomiale et celle du x2.

Les distributions de Student et du x2 son^ indispensables en physique, mais elles sont relativement complexes. Nous leur consacrerons les paragraphes speciaux dans le troixeme chapitre du livre ou nous aborderons des problemes plus avances.

La distribution binomiale sera la premiere etudiee parmi celles qui decrivent des grandeurs discretes. II faut dire qu'elle n'est pas frequemment rencontree dans les experiences mais elle est simple et instructive.

Nous obtiendrons la distribution de Poisson comme une certaine limite de la distri- bution binomiale. Cette "transformation" sera le premier exemple du passage d'une distribution vers une autre. Plus tard, nous verrons que ces distributions se trans- forment en une distribution normale dans la limite d'un grand nombre de mesures.

La formulation plus rigoureuse de cette propriete sera donnee au paragraphe suivant ou nous demontrerons qu'il s'agit d'un resultat general valable pour presque toutes les

(33)

I - RAPPELS SUR LA THEORIE DBS PROBABILITES 31 distributions. La seule exception (physiquement interessante) a cette regie est donnee par la distribution de Lorentz.

Ici, il faut noter que la "transformation" d'une distribution en une autre n'est pas d'un interet purement academique ou pedagogique. C'est un probleme pratique car une telle operation peut nous permettre de remplacer, au moins dans une premiere approche, plusieurs distributions de probabilite complexes par des distributions plus simples et plus generales et trouver ainsi un langage commun pour une description uniforme de grandeurs physiques tres diverses.

1.3.1 DISTRIBUTION BINOMIALE

Cette distribution decrit des grandeurs discretes qui peuvent prendre seulement deux valeurs. Supposons qu'un evenement ait deux realisations possibles ^4 et B. Soient p la probability de la realisation A, q = I — p la probabilite de la realisation B. Si cet evenement se repete N fois, on peut determiner la probabilite PN(H) que la realisation A se produise n fois. La probabilite d'obtenir successivement n fois la realisation A puis N — n fois la realisation B est egale . Vu que 1'ordre de realisations .4 et B est sans importance, il faut multiplier cette probabilite par le nombre de possibilites d'extraire n objets parmi N objets, c'est-a-dire par

Finalement, la probabilite P^(n) que la realisation A se produise n fois est egale a :

Cette densite de probabilite est celle de la distribution binomiale. Elle est caracterisee par deux parametres N et p. Plusieurs exemples de cette distribution sont donnes sur la figure 1.7.

Comme exemple physique simple, considerons N particules d'un gaz sans interaction distributes uniformement dans un volume V. Chaque particule a une position alea- toire dans ce volume et a une probabilite p = v/V de se manifester dans une partie v du volume V. Dans ces conditions la probabilite P/v(n) de trouver n particules dans v est donnee par (30).

II est facile de verifier que la densite de probabilite (30) est normee conformement a 1'equation (2) :

Determinons la moyenne du nombre n. Par definition (voir (6')), elle est egale a

(34)

32 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES

Figure 1.7 : La distribution binomiale pour trois valeurs du parametre p, N etant fixe : N = 10

Nous avons utilise le fait que le terme avec n — 0 est nul ; changeons la variable de sommation en posant k = n — 1 :

Nous aurions pu prevoir ce resultat directement car si la probabilite de realisation A est egale a p, a la suite de Af evenements, le nombre moyen de realisations A doit etre egale a Np.

Pour calculer 1'ecart-type, prenons la definition (7') et utilisons 1'expression (8) :

(35)

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES 33 Pour calculer la premiere somme, nous utilisons la meme astuce que pour le calcul de n dans (32) :

Autrement dit, 1'ecart-type est egal a :

La fonction generatrice des moments (14) de la distribution binomiale est

La premiere et la deuxieme derivees de cette fonction en t = 0 defmissent les moments

Ainsi la moyenne et la variance de la distribution binomiale sont donnees par :

conformement a (32) et (33).

Les resultats (32) et (33) peuvent paraitre triviaux mais ils sont fondamentaux pour toute la statistique : la valeur moyenne n est proportionnelle au nombre de mesures

(36)

34 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES tandis que 1'ecart-type est proportionnel a la racine de N

Pour comprendre 1'importance de ces resultats, rappelons que la valeur moyenne est associee a la valeur d'une grandeur physique xexp et 1'ecart-type a son incertitude (voir la discussion suivant la formule (29)). Si Ton definit 1'erreur (1'incertitude) relative 6 comme le rapport

on voit que cette valeur est inversement proportionnelle au nombre de mesures TV

Cela signifie que, plus 1'on fait de mesures, plus la precision est grande : une conclusion evidente, presque triviale. Ce qui est beaucoup moins evident, c'est la dependance fonctionnelle de 8 avec N. La formule (35) montre que la precision relative decroit seulement comme la racine de N. Pour augmenter la precision par un facteur de 10, il faut multiplier le nombre d'experiences, et ainsi le cout, par 100 ! Une experience precise peut couter tres cher et, ici, on en comprend la raison. Vu qu'une bonne precision est chere, il faut savoir de quelle precision on a vraiment besoin. C'est une question non triviale et nous y reviendrons a la fin du livre.

Nous avons obtenu la formule (35) a partir de la distribution binomiale mais elle restera valable quelle que soit la situation experimental. Nous reviendrons sur cette question au paragraphe 2.1.

1.3.2 DISTRIBUTION DE POISSON

Etudions maintenant un autre phenomene particulierement interessant : la trans- formation d'une distribution dans une autre. Prenons comme point de depart la distribution binomiale dans laquelle nous augmentons le nombre de mesures N. Nous considerons la limite quand N est tres grand mais en imposant que le produit Np reste constant Np = const = // (c'est-a-dire p —>• 0).

Nous voulons trouver la probabilite P/^(n) que la realisation A se produise n fois au cours de toutes les mesures :

et du fait que

(37)

I - RAPPELS SUR LA THEORIE DBS PROBABILITIES 35 Rappelons que n restant fini, il est toujours petit par rapport a N. Done,

Finalement, pour la probability P^(n), on obtient .,1 C'est la distribution de Poisson.

On peut verifier aisement qu'elle est normee :

Nous aurions pu prevoir ces resultats a partir des expressions relatives a la distribu- tion binomiale (32—33).

La fonction generatrice des moments (14) de la distribution de Poisson est lorsque TV tend vers Pinfini.

On peut reecrire (1 — p)N~n comme

L'expression dans le denominateur tend vers 1 quand N —> oo, par centre

que sa moyenne est egale a // :

et que sa variance est p, (soit un ecart-type

(38)

36 ANALYSE STATISTIQUE DBS DONNEES EXPERIMENTALES Le lecteur interesse retrouvera aisement la moyenne et la variance de cette distribution a I'aide des deux premieres derivees de la fonction M^{t] prises en t = 0.

Notons que la distribution de Poisson ne depend que d'un seul parametre // = Np. La forme de cette distribution pour plusieurs valeurs de p est presentee sur la figure 1.8.

Figure 1.8 : La distribution de Poisson pour plusieurs valeurs du parametre p,

Cette distribution de probability est souvent rencontree en physique atomique ou en physique nucleaire, car le nombre de particules comptees par un detecteur est distribue selon cette loi a condition que le flux de particules reste constant.

Prenons un exemple. Supposons qu'a I'aide d'un detecteur on compte des particules et que 1'on enregistre leur nombre pendant une certaine duree, disons 1 seconde. Ces mesures seront decrites par la distribution de Poisson.

Pour le verifier, divisons notre intervalle de temps (de 1 s) en A*" petits sous-intervalles, disons de 1 nanoseconde (1 ns = 10~9 s). Supposons que le nombre moyen de par- ticules enregistrees pendant 1 s soit egal a // = 8. Alors la probabilite de detection d'une particule dans un sous-intervalle est egale a p = II est important que cette valeur soit faible pour que Ton puisse negliger la probabilite de detection de deux particules dans un sous-intervalle de temps.

En principe, c'est une distribution binomiale ou la realisation A est 1'apparition d'une particule dans le detecteur et la realisation B est son absence. Les conditions de la limite const) sont satisfaites

et la distribution devient une distribution de Poisson avec une moyenne JJL = 8

(39)

I - RAPPELS SUR LA THEORIE DES PROBABILITES 37 (figure 1.8). n est le nombre de particules detectees pendant 1 seconde. Get exemple montre un "passage" entre differentes distributions. On a remplace une distribution a deux parametres (binomiale) par une autre beaucoup plus simple (de Poisson) qui ne contient qu'un seul parametre.

1.3.3 DISTRIBUTION DE LORENTZ

La distribution de Lorentz, qui porte parfois aussi le nom de Cauchy, a une place particuliere en statistique.

D'une part, la fonction de Lorentz (37) est tres importante en physique car elle decrit des systemes qui se trouvent dans un etat dit de resonance. Ce phenomene se carac- terise par une grande amplification des parametres du systeme. II est connu et utilise en mecanique (pour mettre en marche une balangoire, un enfant doit effectuer ses mouvements periodiques avec une certaine frequence) ou en electromagnetisme (tous les postes de radio ou de television utilisent le phenomene de resonance pour choisir une station). En physique microscopique, une resonance decrit, entre autres, la duree de vie d'une particule ou d'un systeme de particules.

D'autre part, la fonction de Lorentz apparait comme une distribution de proba- bilite surtout en mecanique quantique, c'est-a-dire en physique microscopique. C'est pourquoi cette distribution de probabilite se manifeste relativement rarement dans les problemes macroscopiques et, en particulier, dans les experiences en travaux pra- tiques.

Neanmoins, elle donne un exemple de distribution pour laquelle les definitions stan- dards de la statistique ne sont pas toujours valables. Cette raison a elle seule est suffisante pour que 1'on etudie cette distribution de maniere plus approfondie.

La distribution de Lorentz est donnee par la fonction

qui depend de deux parameteres XQ et a (figure 1.9).

Le coefficient devant la fonction est choisi pour que la probabilite totale de trouver une valeur quelconque de x soit egale a 1.

Le calcul de cette integrate ne represente aucune difficulte car la primitive de cette fonction est bien connue (arctangente).

On peut voir facilement que cette distribution est symetrique par rapport a XQ qui est aussi le maximum de cette fonction. En ce qui concerne le coefficient a, son interpretation est aussi claire : il represente la moitie de la largeur a mi-hauteur et caracterise ainsi 1'etalement de cette fonction.

Cependant, on rencontre de vrais problemes quand on veut trouver la moyenne et la variance en utilisant nos definitions habituelles.

(40)

38 ANALYSE STATISTIQUE DES DONNEES EXPERIMENTALES

Figure 1.9 : La distribution de Lorentz

Le deuxieme terme est egal a XQ en vertu de la normalisation de la distribution. On peut dire que la premiere integrale est nulle car la fonction que Ton integre est impaire par rapport a £ — 0. Formellement, ceci est faux. Du point de vue mathematique, cette integrale est divergente. Elle n'est egale a zero que si 1'on considere ce que Ton appelle sa valeur principale. Autrement dit, si Ton prend d'abord un intervalle d'integration fini et symetrique (—R,R) et si Ton calcule ensuite la limite lorsque R —>• oo. Done, la valeur moyenne peut etre consideree egale a XQ mais 1'on constate que le calcul de 1'integrale est un peu delicat.

Le vrai probleme apparait quand on veut etablir la variance, car 1'integrale correspon- dante

diverge. Cela signifie que Pecart-type, qui etait pour nous la caracteristique de la largeur d'une distribution, n'existe pas au sens de la definition (7). Neanmoins, 1'etalement de la fonction de Lorentz peut etre decrit par le parametre a.

D'apres la definition (6), la valeur moyenne de x est egale a

Pour calculer cette integrale, faisons le changement de variable

Références

Documents relatifs

Important meuble dressoir en bois naturel mouluré sculpté ouvrant en façade par trois tiroirs en ceinture et trois vantaux à décor de paniers fleuris. Surmonté d’un dressoir

« C'est le fait de réfléchir, mais pas seulement », « la capacité d'utiliser ses connaissances pour résoudre un problème », « la possibilité de s'organiser et de s'adapter à

[r]

Q1 : Trouver toutes les configurations possibles de 4 points distincts du plan tels que l’ensemble des distances entre deux points quelconques a exactement deux éléments.. Q2 :

Néanmoins, seuls les marchés du commerce de gros de revêtements décoratifs sont concernés par l’opération dans la mesure où Dyrup n’est pas présente sur les marchés de vente

Dans l’hypothèse d’un marché comprenant un grand nombre de petites entreprises, le risque d’interactions stratégiques entre elles est faible mais un effet &#34;prescripteur&#34;

limbe : forme larges, ovales oblongues (cle Bor) étroitement ovale lancéolé (clé Bor) calice : dents : couleur rouge (cle Bor) blanchatre (cle Bor).. Danet pour le cliché,

Calculer la moyenne générale de l’élève sachant que l’écrit compte 4 fois plus que l’oral.. Calculer le poids moyen d’un