R EVUE DE STATISTIQUE APPLIQUÉE
J. F LESSELLES
Un mode de présentation des résultats d’essais comparatifs entre laboratoires portant sur l’évaluation de la
qualité d’une méthode de mesure
Revue de statistique appliquée, tome 28, n
o3 (1980), p. 29-43
<http://www.numdam.org/item?id=RSA_1980__28_3_29_0>
© Société française de statistique, 1980, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
29
UN MODE DE PRÉSENTATION
DES RÉSULTATS D’ESSAIS COMPARATIFS
ENTRE LABORATOIRES PORTANT SUR L’ÉVALUATION
DE LA QUALITÉ D’UNE MÉTHODE DE MESURE
J.
FLESSELLES
Ingénieur en Chef, (SEITA) Direction du Développement
SOMMAIRE
Pour émettre un jugement
précis
sur la validité d’une méthode de mesure on est fré-quemment conduit à organiser des expériences comparatives entre laboratoires, lesquelles permettent de déterminer la répétabilité et la reproductibilité de la méthode testée, para- mètres qui caractérisent sa
qualité.
A partir de
développements
théoriques simples, illustrés par un exemple concret cor- respondant à une méthode de détermination de taux d’humidité dans le tabac, on montre l’intérêt d’une présentation des résultats d’analyse statistique,spécifique
de ce typed’expé-
rience comparative, qui permet notamment de définir l’ajustement et la cohérence de chaque laboratoire par rapport à l’ensemble de ceux qui ont pris part à l’expérience : Un diagramme
"en cible" est
proposé
qui permet d’illustrer de façon parlante et synthétique la situation relative de chacun des laboratoires par rapport à l’optimum.I. ASPECTS GENERAUX DE LA METHODE
1.1. POSITION DU PROBLEME
Il est
fréquent
que desexpériences
collectives soientorganisées
entre diverslaboratoires afin d’estimer la
répétabilité
et lareproductibilité
d’une méthode demesure.
Un document très
complet
a étépublié
en 1970 par l’AFNOR sous la réfé-rence NF X
06-041, exposant
les théoriesstatistiques auxquelles
il est faitappel
en la matière et décrivant en détail les
techniques d’analyse
etd’interprétation
àmettre en oeuvre dans les divers cas
qui peuvent
seprésenter.
Nous renvoyons le lecteur intéressé à cette norme fondamentale
qui
cons-titue un outil de travail de
qualité
pour résoudre cetype
deproblème.
Nous
extrayons simplement
de cette norme, afin de fixer lesidées,
lesquelques
définitions suivantes :- La
fidélité
d’une méthode de mesure caractérise "l’étroitesse de l’accord entre les valeursexpérimentales
obtenues au cours d’un ensembled’expériences
faites dans des conditions déterminées.
Revue de Statistique Appliquée, 1980, vol. XXVIII, n° 3
- La
reproductibilité
est la "fidélité déterminée dans le casd’opérateurs
travaillant dans des laboratoires différents ou dans le même laboratoire à des
époques différentes,
chacun d’eux obtenant avec la même méthode des résultats individuels sur unproduit identique
soumis à l’essai" .Ces définitions
appellent
les commentaires suivants :a)
Les notions derépétabilité
et dereproductibilité
définiesci-dessus,
sonten
pratique
concrétisées par la détermination de deuxparamètres numériques, ayant
les dimensions d’une variance(ou
del’écart-type correspondant qui
est saracine
carrée),
dénommés : variance derépétabilité
et variance dereproductibi-
lité.
Ce sont ces deux
paramètres numériques qui
caractérisent enquelque
sortela
qualité
de laméthode,
c’est-à-dire sonadéquation
au butrecherché, compte
tenu des niveaux de
précision
recherchés.Ces deux variances se déterminent à
partir
des résultatsd’analyse
de variancesclassiques
déduits duplan d’expérience
monté à cette fin.La nature des calculs à effectuer
dépend
de la structure de ceplan
et enparticulier
du nombre de niveaux(un
ouplusieurs)
considérés au cours del’expé-
rience collective.
b)
Les définitions mêmes de larépétabilité
et de lareproductibilité
im-pliquent,
en théorie dumoins,
que les essais soient conduits sur desproduits
iden-tiques
et cela est d’ailleurs fortcompréhensible :
La
qualité
de la mesure elle-même doits’exprimer
defaçon absolue,
c’est-à-dire en éliminant les fluctuations dues à la variabilité de l’échantillon soumis au test.
Il existe des cas où il est effectivement
possible
de conduire lesexpériences
avec des échantillons réllement
identiques.
Ces cas sontcependant
assez rares,soit que la mesure soit
destructive,
soitqu’il faille,
pour des raisonspratiques,
dis-poser simultanément de
plusieurs
échantillons.Or on ne
peut jamais
être certain que des échantillons rendus aussiidentiques
que
possible
les uns des autres le soient absolument. Onpeut
même être certain du contraire.La fluctuation entre échantillons est
quelquefois importante,
selon la naturedu
produit
dont ils sont extraits.C’est
précisément
l’un des rôles duplan d’expérience, généalement
construitavec des
répétitions,
c’est-à-dire la conduite d’une série de mesuresportant
sur unemême modalité
(même appareil,
mêmeopérateur,
même moment ou moment con-sécutif),
depermettre
de saisir et de déterminer la variabilité due à l’échantillon- nage.Nous n’insisterons pas
davantage
sur cestechniques
maintenant assezlarge-
ment
répandues
etutilisées,
et nous nous tournerons vers un desaspects
connexes de cetype
d’étude.1.2. COMPARAISONS ENTRE LABORATOIRES
Au cours des
analyses
de résultats mentionnéesci-dessus,
on est conduit àcomparer les laboratoires entre eux, notamment pour éliminer ceux dont les ré- sultats sont
aberrants,
c’est-à-dire s’écartent des résultats moyens d’une valeurtelle
qu’avec
un haut niveau deprobabilité
on doit conclurequ’ils
ne sont pasalignés
avec l’ensemble du groupeparticipant
àl’expérience.
De
même,
certains laboratoiresalignés
correctementpeuvent
néanmoinsêtre aussi considérés comme
aberrants,
dans la mesure où ladispersion
de leursrésultats est
significativement trop élevée, comparée
à celle des autres.Enfin,
dans lesexpériences
àplusieurs niveaux,
c’est-à-direportant
surplu-
sieurs valeurs
possibles
duparamètre,
onpeut
êtreégalement conduit,
par des mé- thodesd’analyses adéquates,
à examiner laqualité
de la mesure soit niveau parniveau,
soitglobalement
pour l’ensemble des niveaux.Parallèlement aux
objectifs initiaux, qui consistent,
nous lerappelons,
àpré-
ciser la
qualité
de laméthode,
onpeut
se proposerégalement
de voir comment serépartissent
les différents laboratoires les uns parrapport
aux autres. Nous sug-gérons
à cette fin un mode deprésentation
des résultatsqui permet
de visualiser defaçon
très concrète lespositions
des laboratoiresrespectifs,
par l’introduction desnotions d’ajustement
et de cohérence que nousprécisons ci-après.
Afin de rendre notre
exposé plus parlant,
nous allons nousplacer
dans un casconcret. Nous
développerons
lesaspects théoriques
de nospropositions.
Nous il-lustrerons ensuite notre propos par un
exemple
tiré d’uneexpérience
réellementconduite.
1.3. CADRE DE L’EXPERIENCE
Soient k laboratoires
participant
à uneexpérience
collective destinée à tester une méthode de détermination de la teneur en eau du tabac.Chaque résultat, exprimé
en%,
est cequ’on désigne
habituellement par"taux d’humidité" .
Nous supposerons en outre que
l’expérience comporte
nniveaux,
c’est-à-direqu’à chaque
laboratoire est fourni une série de n échantillons différents les uns des autres par leur teneur en eau, mais"identiques"
chacun à chacun pour un même niveau dans les différents laboratoires.Sur chacun des n
échantillons, chaque
laboratoireprocède
à r mesures ourépétitions.
Nous avons ainsi une
expérience
factorielleclassique
1.4. Définition de
l’ajustement
et de la cohérenceDésignons
parhl , h2 ,
... ,hi
...hn,
les moyennesrespectives
de k la-boratoires pour chacun des n niveaux
(ou variantes).
Soit
hij
la valeurcorrespondant
à la moyenne des rrépétitions
du labora-toire j
pour le niveau i.Posons
qui représente
l’écart dulaboratoire j
à la moyenne du groupe pour le niveau iet
5j
est l’écartarithmétique
moyen du laboratoire parrapport
à la moyenne, sur l’en- semble des niveaux ou variantes.Posons d’autre
part
E est une sorte d’écart
quadratique
moyen,chaque
écart étantrapporté
non pas àune même
base,
mais à la valeur du niveaucorrespondant.
Il résulte des formules
classiques d’analyse
de la variance et des formules dedéfinition
(1)
et(2)
ci-dessus queE?
sedécompose
en la somme de deux carrés.C? représente
la variance des écarts5 ij
pour lelaboratoire j.
Développant
cetteexpression,
il vientComme il vient
ou encore
Soit encore de
façon générale, quel
que soit lelaboratoire j
Nous
désignerons
8 par écartd’ajustement
et C par écart de cohérence.
Ces
désignations
sejustifient
par les considérations suivantes :8 caractérise l’écart moyen du laboratoire considéré par
rapport
à la moyenne du groupe.Si 8 =
0,
le laboratoire est, en moyenne sur les nniveaux, ajusté
à la moyen-ne du groupe.
Concrètement,
il n’est pas décalé en moyenne. C estl’écart-type
des écarts de ce laboratoire considérés sur l’ensemble des niveaux.
Plus C est
faible, plus
l’écart moyen 5précédent
estsignificatif,
autrementdit, plus
ledécalage
observé est cohérent d’un niveau à un autre.A la
limite,
si C =0,
celasignifie
que le laboratoirereproduit
les résultats moyens du groupe pour chacun des niveaux avec undécalage
fixe.Cette notion de cohérence est très
importante
enpratique.
Il est en effet relativement
fréquent
que des laboratoires travaillentsoigneu-
sement, maisqu’une
erreur demanipulation
ou de lecture entraîne undécalage systématique :
ilpeut
être utiled’apprécier
cedécalage
et d’estimer sasignification.
Un cas concret,
typique
del’exemple
que nousprésentons plus loin, porte
sur la lecture d’un volume d’eau dans une recettegraduée.
Si lesrègles
derépérage
mutueldu
ménisque
et de lagraduation
ne sont pas ou suffisammentprécisées
ou obser-vées,
de telsdécalages peuvent
se manifester de manièresystématique.
I.5.
Représentation graphique
des résultatsDans un
plan
orthonormégradué respectivement
en 03B4 de -00 à +00 et enC de 0 à+ 00 (C
étant strictement >0),
onporte
l’ensemble despoints
correspon- dant àchaque
laboratoirerepéré
par ses deux coordonnéesbj
etCj.
L’origine
0 des coordonnéescorrespondant
à la moyenne des laboratoiresparticipants,
oncomplète
lediagramme
par un faisceau de cerclesconcentriques
de centre
0, correspondant
à des valeurs de E enprogression arithmétique.
Ce schéma-cible visualise de manière assez
parlante
l’ensemble des résultats.L’écart
quadratique Ej, caractéristique
dechaque laboratoire,
estipso
factodécomposé
en sescomposants
ô et C du fait de la relationSur ce
diagramme
onpeut également porter
les limitesacceptables
pourlô 1
et
C,
ainsi que le cercle de rayonEM correspondant
à la valeur maximale admissible pour l’écartquadratique
total.Ainsi se trouve
présentée globalement
la situation de l’ensemble des labo- ratoiresquant
à leurajustement
parrapport
à la moyenne et la cohérence de cetajustement
selon les niveaux.A titre
d’exemple
onpeut
déduire dudiagramme présenté
les conclusions suivantes :- le laboratoire 5 est celui
qui
est leplus proche
de la moyenne du groupe(E minimal),
- le laboratoire 2 est bien
ajusté
maisprésente
un écart de cohérencetrop important (la
fluctuation de ses écarts à la moyennedépend
fortement des niveauxconsidérés),
- le laboratoire
3,
aucontraire,
estcohérent,
mais sondécalage
estexcessif,
- le laboratoire 7 est à la fois
trop
décalé et peu cohérent.Les autres laboratoires constituent le groupe
acceptable,
leurspoints figu-
ratifs se trouvant à l’intérieur de la zone admissible.
II. CAS
CONCRET,
APPLICATIONPRATIQUE
11.1. Données de
l’expérience
collective12 laboratoires ont
pris part
à uneexpérience
collective(*) portant
sur l’éva- luation d’une méthode de détermination du taux d’humidité du tabac. Ils’agit
dela méthode par distillation
azéotropique
aucyclohexane proposée
par leprojet
denorme ISO
n°
6488 .Chacun d’eux a travaillé sur trois types de tabac donnant 3 niveaux d’humi- dité différents. Pour
chaque
combinaison laboratoire xtraitement,
chacun d’euxa
procédé
à 5répétitions.
(*)
organisée
par le CORESTA (Centre deCoopération
pour les Recherches Scienti-fiques relatives au Tabac).
L’expérience
est donc dutype
factoriel 12 x 3 x 5.Remarque :
Cette situation necorrespond
pas totalement au casthéorique
que nousavons défini
précédemment,
en ce sens que les trois niveauxd’humidité,
ou "va-riantes de
traitement",
ne résultent pasuniquement
d’une variation d’humiditéprovoquée
sur des échantillonsidentiques,
mais du choix délibéré d’échantillons de tabac de variétésdifférentes,
dont les humidités se trouvent différentes. Dans le cas del’expérience,
deux des moyennes sont d’ailleurs voisines.Cette circonstance
n’empêche cependant
pasd’appliquer
la méthode de dé-composition
des écarts enajustement
et cohérence telle que nous l’avons décrite.11.2. Résultats
Le tableau I donne les résultats individuels et les moyennes trouvées pour
chaque
variante "traitement" ou "lot" etchaque
combinaison "laboratoire x trai- tement".Ces résultats sont
interprétés
par lesgraphiques ln
et20.
Graphique 1
Expérience collective CORESTA
1979 Tauxd’humidite
Graphique 2
Le
graphique 2
n’estqu’une transposition
dugraphique qui prépare
àla
décomposition
des écarts.Au lieu de
porter
les valeurs de l’humiditéelles-mêmes,
onporte
les écarts à la moyenne du lotcorrespondant.
Cecipermet
en outre de rendre legraphique plus
clair et dedégager
visuellement certains faitsmarquants.
Ainsi,
laligne
0correspond,
pourchaque lot,
à la valeur de sa moyenne.Les observations les
plus
directes que l’onpuisse
faire sont les suivantes:a)
deux laboratoiresapparaissent
nettement détachés du groupe : les labo- ratoires 4 et5,
b)
le faisceau des autres courbes est à la foisgroupé
etprésente
des sous-ensembles d’allures
parallèles,
c)
le laboratoiren° 7, quoique ajusté
en moyenne parrapport
à laligne
moyenne,
présente
pour le lot B un résultatapparemment "peu
cohérent" avecl’ensemble ;
il en est de même du laboratoiren° 12,
dont lepoint représentatif
du lot C est hors
épure.
11.3.
Analyse
des résultatsCes observations demandent naturellement à être
précisées
et fondées surune
analyse rigoureuse.
L’analyse
de varianceclassique,
effectuée lot parlot,
donne les résultats suivants :Elle met
principalement
en évidence l’effet laboratoire trèssignificatif qui
est assez bien illustré par le
graphique
mentionnéprécédemment.
Par
ailleurs, l’observation a)
ci-dessuspeut
être testée cequi permet
de consi- dérer dupoint
de vue des moyennes, les laboratoires 4 et 5 comme effectivement excentrés.Le tableau II montre le calcul
correspondant.
Analyse
sur les moyennes : Elimination des laboratoires excentrésConsidérons le tableau des moyennes par lot et par laboratoire et calculons les moyennes par laboratoire
qui figurent
en dernière colonne.Les valeurs moyennes
qui correspondent
aux laboratoires 4 et 5 sont anor-malement
basses, respectivement 13,31
et13,22.
Les observations
b)
etc)
émises auparagraphe 2°
ci-dessus sont alors testées par ladécomposition
enajustement
et cohérence.(Les
moyennesprises
encompte
sont celles
qui
résultent de l’élimination des laboratoires 4 et5).
, Le tableau III
développe
ce calcul. Il donne pour les 10 laboratoires retenus, c’est-à-dire non éliminés pour défautd’ajustement global,
les écartsrespectifs exprimés
en1/100
depoint,
entre les valeurs dechaque
laboratoire et la moyenne de celles-ci pourchaque
lotA, B,
C.On observe alors que si les
ajustements globaux
sont satisfaisants(0,26 point
pour le laboratoire le
plus
décentré et0,02 point
pour le mieuxajusté),
il n’en estpas de même de la cohérence. Pour ce
paramètre,
les deux laboratoiresn°
7 etn°
12 ont des écarts de cohérenceC2
anormalement élevés.TABLEAU II
TABLEAU III
A l’ensemble des laboratoires restant
(10 laboratoires) correspond une
moyenne de 13,94 et un écart-type
de 0,1824
Intervalle de confiance pour une valeur:
Tout laboratoire dont la moyenne est extérieure à l’intervalle
doit être considéré comme n’appar-
tenant pas à cette population.
Intervalle de confiance à 95 % de
probabilité :
Les laboratoires 4 et 5 ont des résultats extérieurs à cet intervalle.
On les élimine pour l’analyse ulté-
rieure.
Ceci
s’explique
d’ailleursparfaitement
par l’examen attentif desrésultats,
la valeur trouvée par le laboratoiren°
7 pour le lot B étant anormalement basse(non
cohérente avec le niveau moyen dulaboratoire)
et la valeur trouvée par le laboratoiren°
12 pour le lot C étant au contraire anormalement élevée.On
peut
d’ailleurs tester ces variances en formant lerapport
F entre celles-ci et la valeur moyenne de
C2 qui
vaut :C2
moyen= 35,4.
Les
rapports
F des variances estimées(à
16ddl)
valentrespectivement 19,2
et
13,2
etdépassent largement
la valeurthéorique
au seuil deprobabilité
à 95 % deF à
2/16 ddQ,
soit F= 3,63
On constate donc effectivement que les laboratoires 7 et 12 sont caractérisés par des valeurs de
C2
trèssignificativement supérieures
à la valeur moyenne deC2
des autres laboratoires.IL4. Illustration des résultats
Si l’on
porte
alors lepoint représentatif
dechaque
laboratoire dans leplan 5, C,
on obtient lediagramme
ciblen°
3.Cette
représentation permet
de visualiser defaçon synthétique
la situation de l’ensemble des laboratoires dans le cadre del’expérience.
Plus le
point représentatif
estproche
du centre de lacible,
meilleure estsa
position
enajustement
et cohérence.Tout écart
parallèle
à l’axe des abscissess’interprète
comme un défautd’ajus-
tement
positif
ounégatif.
Tout écart
positif parallèle
à l’axe des ordonnéess’interprète
comme undéfaut de cohérence.
Expérience collective CORESTA 1979-Détermination
du tauxd’humidité -
Tout
point
situé à l’intérieur du cercle limite de rayonE max
doit être consi- déré commeacceptable.
Aucontraire,
les-points
extérieurs àce cercle
correspon-dent à des laboratoires dont les résultats sont
globalement sujets
à caution.II.5.
Analyse
définitiveLes laboratoires 7 et 12 étant non retenus dans
l’analyse
définitive pour défaut decohérence,
il subsiste huit laboratoires.Nous ne conservons pas
également
le laboratoiren° 10,
ce pour desimples
raisons
techniques :
ce laboratoire n’a fourni que deux valeurs(au
lieu decinq)
par combinaison labo x lot et cette circonstance rend difficilement
praticable
son inclusion dans le
plan d’analyse
de variance à deux facteurs contrôlés avecrépétitions (on peut
en ce casprocéder
à uneanalyse
lot parlot,
comme il l’a été faitprécédemment,
mais non à uneanalyse globale).
L’analyse
de variance effectuée sur les laboratoires restants1, 2, 3, 6, 8, 9,
11donne les résultats suivants :
Commentaires
L’effet lot
apparaît
très hautementsignificatif :
cela estlogique puisque
ladifférence entre lots existe par construction.
On note encore une différence
significative
entre laboratoires. Elle est d’am-plitude faible,
mais elle estsignificative.
Les moyennes
générales
des laboratoires sont les suivantes :Les écarts maximaux
imputables
au hasard entre deux laboratoires sontfacilement déduits de la variance résiduelle
S2=
0.0082.Variance d’une moyenne de 3 x 5 = 15 mesures
(3
lots x 5répétitions)
Variance de la différence :
Malgré
ladisjonction significative
entrelaboratoires,
six d’entre eux sonttrès
groupés.
Enfin,
on observe que l’interaction lot x labo.apparaît
commesignificative,
mais assez faiblement.
Estimations définitives des variances de
répétabilité
et dereproductibilité A)
La variance derépétabilité
est donnée paroù
Qr
est la somme des carrés résiduelleQr
= 0.688p le nombre de laboratoires p = 7
q le nombre de
niveaux,
c’est-à-dire de lots q = 3pq (n - 1)
= 84n le nombre de
répétitions
n = 5Ecart-type
derépétabilité
B)
La variance dereproductibilité
est donnée par(*) Voir NF X 06-041. Note technique n° 2.
OÙ
QL
est la somme des carrés "laboratoires"QI
la somme des carrés "d’interaction"’Qr,
n, p, qayant
lessignifications précédentes.
d’où
Ecart-type
dereproductibilité
L’analyse
est ainsipoussée
à son terme.III. CONCLUSION
Nous avons montré que, dans une
expérience
factorielle entreplusieurs
laboratoires destinée à déterminer les variances de
répétabilité
et dereproducti- bilité,
onpouvait, parallèlement
aux calculs menés defaçon classique
pour aboutir à cesvaleurs,
effectuer unedécomposition
de la variance des résultats propre à éclairer lejugement global
à émettre sur laqualité
des résultats fournis parchaque laboratoire, lorsque
lagrandeur
mesurée a été traitée àplusieurs
niveaux.Introduisant les notions
d’ajustement
et decohérence,
nous avons ainsiproposé
unereprésentation graphique
assezparlante
de la situation déduite desrésultats, laquelle permet
dejuger
d’un coup d’oeil de laposition
de chacun des laboratoiresquant
à ces deux critères.Cette méthode est suffisamment
générale
pours’appliquer
dans laquasi
totalité des