R EVUE DE STATISTIQUE APPLIQUÉE
C. P ERRUCHET
G. S ADO
Détection de données aberrantes dans le cas d’essais interlaboratoires et fidélité multidimensionnelle
Revue de statistique appliquée, tome 42, n
o1 (1994), p. 81-105
<http://www.numdam.org/item?id=RSA_1994__42_1_81_0>
© Société française de statistique, 1994, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DÉTECTION DE DONNÉES ABERRANTES
DANS LE CAS D’ESSAIS INTERLABORATOIRES
ET FIDELITÉ MULTIDIMENSIONNELLE
C. Perruchet
(1),
G. Sado(2)
(1) UTAC, Autodrome, BP 212, F-91311
Montlhery
(2) TOTAL, Centre de Recherches, BP 27, F-76700Harfleur
cedexRÉSUMÉ
Dans le cas d’essais interlaboratoires où
plusieurs
laboratoires testent un ouplusieurs produits
pour diversescaractéristiques,
nous proposons uneapproche
pour la détection de données aberrantes tenant compte de la nature multidimensionnelle des données. En outre uneextension multidimensionnelle des concepts de
répétabilité
et dereproductibilité, quantifiant
la fidélité de la méthode d’essai est
proposée.
Mots-clés : Données aberrantes,
répétabilité, reproductibilité, fidélité
d’une méthode d’essai.SUMMARY
For
interlaboratory
tests, when several laboratories test one or moreproducts
for several characteristics, anapproach
for outliers identification,taking
into account the multidimensional nature of the data, isproposed.
Moreover a multidimensionalgeneralisation
ofrepeatability
and
reproducibility,
whichquantify
theprecision
of a test method isgiven.
Key-words :
Outliers,repeatability, reproducibility, precision of a
test method.1. Introduction
Le
problème
de la détection et du traitement des données dites :aberrantes,
douteuses ouétrangères («outliers»)
estposé
par lesexpérimentateurs depuis
denombreuses années.
En 1755 Boscovich
qui
tentait d’évaluerl’ellipticité
de la terre enmoyennant
dix valeurs del’angle
entrel’équateur
et un despôles, rejeta
deux valeurs extrêmescomme aberrantes.
En
revanche,
en 1777 Bemouilliqui
traitait d’observationsastronomiques,
concluait que la seule raison valable pour
rejeter
unedonnée,
était l’existence d’un incident dans le processus deproduction
de l’information.Depuis
cettedate,
de nombreuses méthodes de détection des donnéesétrangères
ont été
proposées.
Un ouvragespécialisé
paru en 1984[1] recensait déjà près
de 700références
bibliographiques
sur lesujet.
Cette abondance de littérature et
l’importance
dudébat,
sont certainement duesau fait que le
concept
d’«outliers» n’est pasprécisément défini,
et que les auteurs travaillant sur lesujet
ne s’accordent sur aucune définitionrigoureuse
sur leplan mathématique.
Les données
étrangères peuvent
être définies commeproduites
par unphénomène étranger
à celui étudié.Toutefois,
cette définition ne donne pas les moyens derépondre
au
probléme
de leur identification.S’il est clair
qu’il
convient de détecter les donnéesrépondant
à cettedéfinition,
pour ne pas déformer les conclusions d’une
expérimentation
et doncqu’il
convient de mettre en oeuvre uneméthodologie adaptée,
il faut aussisouligner qu’une
utilisationinadéquate
ou abusive des méthodes de détection des donnéesétrangères,
conduitaussi à déformer les conclusions d’un essai.
Les travaux menés par l’AFNOR et l’ISO donnent des éléments de
réponse
auproblème
de la détection des valeursaberrantes,
parl’usage
de testsd’hypothèse,
ense limitant toutefois au cas monodimensionnel
[5].
Le cas multidimensionnel a
cependant déjà
faitl’objet
depropositions,
on entrouvera en
particulier
unexemple
dans[3]
où une fonction d’influence est définie àpartir
du RV estimant la corrélation vectorielle entre variables aléatoires.L’objet
de cet article est de proposer unegénéralisation
au cas multidimension- nel à l’aide deconcepts simples
à mettre en oeuvre.En outre, les mêmes
concepts
sont utilisés pourgénéraliser
la fidélité d’une méthoded’essai, quantifiée
par sarépétabilité
et sareproductibilité,
dans le casmultidimensionnel.
Les données traitées dans cet
article,
sont des données recueillies lors d’essaisinterlaboratoires,
où K laboratoirestestent
un ouplusieurs produits
en mesurant leurperformance
pour différentescaractéristiques, généralement
enrépétant
les essais.Les
caractéristiques
mesuréespeuvent
être de nature différente(masses, pressions, forces,...)
ou de même nature pour desproduits
différents(le
terme d’essai par niveaux est alorsgénéralement employé).
La nature multidimensionnelle des données est donc une
conséquence
dumesurage de différentes variables ou de mêmes variables à différents niveaux.
Le tableau de données se
présente
donc de lafaçon
suivante :Variables,
NiveauxLaboratoires
Il est à noter que les
répétitions
des laboratoires sontprésentées
sur leslignes
successives d’une même
colonne,
afin depouvoir :
- étudier la
dispersion
dans chacun des laboratoires(variance intra, répétabilité).
-
gérer
des nombres différents derépétitions
par laboratoire.Les
objectifs
de la démarcheproposée
sont :- de traiter les données dans leur nature multidimensionnelle afin de ne pas
ignorer
desphénomènes
aberrants en dimensionmultiple
mais non en monodimen-sionnel
[4].
- de
permettre
d’identifier les zones suspectes du tableau dedonnées, qu’il s’agisse
parexemple
d’un laboratoire(bloc ligne)
ou d’unerépétition
d’un labora- toire pour une variable ou un niveau(case
dutableau),
sans avoir à traiter le tableau colonne par colonne et blocligne
par blocligne
comme avec lesapproches
monodi-mensionnelles.
Les avantages de cette démarche sont :
- la
simplicité
desconcepts
et des calculs mis en oeuvre,-
l’usage
deconcepts ayant
fait leur preuve etlargement
diffusésgrâce
auxméthodes
d’analyse
desdonnées,
- la cohérence avec les
concepts classiques
derépétabilité
et dereproductibilité.
2.
Principes généraux
Dans le cas d’un essai
interlaboratoires,
une situation idéalecorrespond
àune variance intralaboratoire faible et à une variance interlaboratoires
faible,
cecientraînant une bonne
répétabilité
et une bonnereproductibilité.
Une
dispersion
faible sejuge
parrapport
à l’étendue des niveaux étudiés.Ainsi,
une
répétabilité
de 100 ppm est fortelorsque
le niveau est de 200 ppm; unerépétabilité
de 1000 mPa.s est faible
lorsque
le niveau est de 300 000 mPa.s.Des
situations suspectes correspondent
parexemple :
- à un laboratoire
éloigné
des autres, même s’il est de faible variance(cf.
Figure 1).
- à un laboratoire de forte
variance,
même s’il estproche
des autres(cf. Figure 2).
FIGURE 1
Comparaison
de laboratoiresun laboratoire excentré
de faible
varianceFIGURE 2
Comparaison
de laboratoiresun laboratoire centré
de forte
variance- ces structures
types
segénéralisent
àplus
d’unlaboratoire,
avec la situation extrême où tous les laboratoires sont de fortes variancesinégales
et sont touséloignés
les uns des autres.
Nous nous proposons donc de définir des indices
numériques simples permettant
d’identifier ces diverses situations.Le
paragraphe
4 est consacré àl’analyse
intralaboratoire et fournit des indicesnumériques
ainsi que des outilsgraphiques
permettant dejuger rapidement
de ladispersion
d’un laboratoire.Le
paragraphe
5 est consacré àl’analyse
interlaboratoires et fournitdes indices numériques
ainsi que des outilsgraphiques
permettant dejuger rapidement
del’excentrement d’un laboratoire.
Le
paragraphe
6 est consacré à unegénéralisation
desconcepts
derépétabilité
et de
reproductibilité
au cas multidimensionnel sur la base des éléments introduitsprécédemment.
Il est enparticulier
montré que larépétabilité
et lareproductibilité classiques
monodimensionnelles sont des casparticuliers
des outilsprésentés
danscet article.
Le
paragraphe
7 est uneapplication numérique
basée sur les données utilisées dans la norme NF - ISO 5725.3. Données
Le tableau de données est noté X =
{xji; 1 i I, 1 j J}
Les J colonnes
représentent
lescaractéristiques
mesurées ou les niveaux del’essai,
c’est-à-dire la nature multidimensionnelle duproblème.
Les unités
statistiques
sont les I vecteurs xi à Jcomposantes.
Lesdescripteurs
sont les J vecteurs
xi
à I composantes.Sur l’ensemble des I
lignes,
unepartition
est induite par les K laboratoiresL1,
...,LK participant
à l’essai etprésents l1
àlK
fois par le biais desrépétitions,
d’où :
Afin de se
placer
dans cequi
sera lapratique
dans lagrande majorité
desapplications,
l’ensemble des Ilignes
est muni d’une distanceeuclidienne,
et lesmasses des
lignes
sont touteségales
à l’unité.Toutefois,
lesdéveloppements qui
suivent segénéralisent
sans difficulté à unsystème
de massesquelconques.
Le centre de
gravité (ou moyenne)
du laboratoire k est notéavec
Le centre de
gravité (ou moyenne)
du nuage de l’ensemble des laboratoires est le vecteurnoté g
avec :Dans un espace euclidien avec des masses
égales
àl’unité,
onrappelle
que l’inertie totale du nuage par rapport à son centre degravité g
est définie par :MT2
=03A3{d2(xi, g); 1
iI},
oùd(xi, g) désigne
la distance entre xi et g(4)
et vérifie :
MT2
=MW2
+MB2
où
MW2 représente
l’inertie intralaboratoire définie par :et MB2 représente
l’inertie interlaboratoires définie par :Pour tout ce
qui suit,
il est fait usage de la distance euclidienne usuelle.4.
Analyse
intralaboratoireL’analyse
intralaboratoires est basée sur ladécomposition
de l’inertie intrala- boratoireMW2
en fonction des laboratoires et des variables.Pour chacun des K
laboratoires,
l’inertie parrapport
à son centre degravité,
notée
Mk2
est calculée :où Mk2 (j) z k 1 e Lk} représente
la contribution absolue de la variablej
à l’inertie du laboratoire k.La contribution relative du laboratoire k à l’inertie intralaboratoire est définie par :
Cet indice
vérité :03A3{CTWk; 1 k K} =
1Les laboratoires
dispersés
sont ceux dont les inerties intra ou les contributionsCTWk
sont lesplus
élevées.On construira donc un
diagramme
en bâton du typereprésenté
enfigure 3,
pour
juger rapidement
desdispersions
relatives des laboratoires enprésentant
leslaboratoires par contribution décroissante.
Si les
dispersions
des laboratoires sont du même ordre degrandeur,
leur inertie intra commune estégale
à l’inertie intra moyenne etvautMW2/K.
Leur contribution relative commune vaut alors1/K.
L’ordonnée du
graphique présentera
donc les valeurs1/K
et21K
au-delà delaquelle
les laboratoires fortementdispersés apparaîtront.
FIGURE 3
Analyse
intralaboratoireidentification
des laboratoiresde forte
variancePour les laboratoires de forte
inertie,
l’inertie seradécomposée
en calculant lescontributions relatives :
Cet indice vérifie : Vk
Une
représentation graphique
du mêmetype
permettra pour chacun des labora- toires d’identifierrapidement
les variablesengendrant
une forte inertie du laboratoire.Il est à noter que
si,
pour un laboratoiredonné,
les variables ont la même influence lesMk2 ( j )
ont pour valeur commune, la valeur moyenneégale
àMk2 / J.
Leur contribution relative commune
(i. e.
la contribution relativemoyenne)
vautalors :
1 / J.
L’ordonnée du
graphique
associé àchaque
laboratoire fera doncapparaître
lavaleur
1/J
et la valeur2/J
au-delà delaquelle
les variables hautementsignificatives
apparaîtront (cf. Figure 4).
Analyse
intralaboratoireidentification
des variablesengendrant une forte
variance5.
Analyse
interlaboratoiresL’analyse
interlaboratoires est basée sur ladécomposition
de l’inertie interlab- oratoiresMB2
en fonction des laboratoires et des variables.FIGURE 4
lkd2(03B3k, g) représente
la contribution absolue du laboratoire k à l’inertie interlabora- toires.Cette
quantité
sedécompose
comme la somme desMB2 (j)
=lk(gjk - gj)2
MB2( j ) = 03A3{lk(gjk - gj)2; 1 k K} représente
la contribution absolue de lavariable j
à l’inertie interlaboratoires.La contribution relative du laboratoire k à l’inertie interlaboratoires est définie par :
Cet indice vérifie :
Les laboratoires excentrés sont ceux dont les contributions sont les
plus
élevées.On construira donc un
diagramme
en bâton dutype présenté
enfigure
5 pourjuger rapidement
des excentrements relatifs des laboratoires.Si les excentrements des laboratoires sont du même ordre de
grandeur,
leurcontribution absolue commune est
égale
à la contribution absolue moyenne et vautM2 IK.
Leur contribution relative commune vaut alors
1/K.
L’ordonnée du
graphique présentera
donc les valeurs1 / K
et2 / K
au-delà delaquelle
les laboratoires fortement excentrésapparaîtront.
FIGURE 5
Analyse
interlaboratoiresidentification
des laboratoiresfortement
excentrésPour un
laboratoire,
la contribution relative de lavariable j
au carré de sadistance à la moyenne des laboratoires est définie par :
Un
diagramme
en bâtonpermettra
de vérifierrapidement
si l’excentrement d’un laboratoire est dû à l’influence d’une variableparticulière
ou bien àplusieurs,
voire àl’ensemble des variables.
On
répondra
par ce moyen à l’identification de laboratoires aberrants nepouvant
être identifiés par des méthodes monodimensionnelles. Ils’agit
là de la situationclassique
et illustrée sur lafigure 6,
où le laboratoire L clairement aberrant ne l’est ni pour l’axe 1seul,
ni pour l’axe 2 seul.La
figure
7 illustrel’application numérique
de cesconcepts
à une situationsimple
pour 4 laboratoires notésA, B, C,
D.Cet indice vérifie :
FIGURE 6
Analyse
interlaboratoiresexemple
de la nécessité del’approche
multidimensionnelleFIGURE 7
Analyse
interlaboratoiresexemple
de calcul de contributions6. Fidélité multidimensionnelle 6.1
Répétabilité
multidimensionnelleLa
répétabilité
r, mesure de l’écartprobable
entre deux mesurages sur desobjets
de même nature, dans un mêmelaboratoire,
sous des conditionsopératoires
semblables,
est définie normativement[5]
dans le cas monodimensionnel par :où p est une
probabilité élevée, généralement égale
à0,95
etXl, X2
deux vari-ables
indépendamment
etidentiquement
distribuées(iid) gaussiennes d’espérance
etvariance inconnues.
Dans ce cas, on obtient : r =
1,96203C3 ~ 2, 77o, (13)
La
répétabilité
est utilisée pourquantifier
la fidélité de la méthode d’essai(cf. [5]).
Cependant,
dans le cas oùplusieurs caractéristiques
duproduit
sont mesurées,ou bien que l’essai est réalisé pour
plusieurs niveaux,
aucunerépétabilité globale
n’estdéfinie.
Il
s’agit donc, disposant
de deux vecteurs aléatoires iidgaussiens,
à valeur dansRJ, d’espérance
M et de matrice de covarianceV,
de rechercher le scalaire r tel que :où d est une distance donnée.
Il pourra
s’agir,
parexemple,
dedl
etd2
associés aux deux normes usuellesLi et L2 :
dl
etd2
sontéquivalentes
pour J = 1 etcorrespondent
à la définition normative de larépétabilité.
Enrevanche,
seul le cas ded2
sera traité par la suite.D’après
leshypothèses
surXl
etX2
où
V j j est.le jème
termediagonal
deV,
i. e. la variance commune dexi
etXj2.
Alors, Vj : (Xi - Xj2/2(2Vjj)
~>XI
loi du chi-deux à 1degré
de liberté.Ainsi,
si la matrice V estdiagonale :
et si les termes
diagonaux
de V sont constants(soit
V =0-2 Id) :
Alors
r2/(203C32)
est doncégal
auquantile
d’ordre p d’une loi de chi-deux à Jdegrés
deliberté noté
X2 i (p),
Il est alors trivial de constater que pour J =
1,
par définition de la loi duchi-deux, X 2 (p)
=~21(0,95) ~ 3, 84 ~ 1, 962.
La
répétabilité
d’un laboratoire dans le cas multidimensionnel est donc définie et est cohérente avec la définition normalisée.Son estimation l’est aussi et
peut
être définie par :où est un estimateur de cr.
Dans le cadre du modèle
utilisé,
l’estimateur de la variance choisi est celui du maximum de vraisemblance. Eneffet, l’usage
de l’estimateur sans biais de variance minimum conduit à desexpressions
des fidélités peu satisfaisantes en termesd’homogénéité
parrapport
àl’équation
dedécomposition
de l’inertie.Il est bien connu que rien ne
permet
deprivilégier systématiquement
l’un deces deux estimateurs
qui
sont par ailleurs tous deux presque sûrement convergents.Toutefois,
la norme NF-ISOprésente l’usage
de l’estimateur sans biais sans lejustifier.
En
pratique
il nous semblesimplement
nécessaire depréciser quel
estimateurde la variance est
utilisé, qu’il s’agisse
de l’un des estimateursprécédents
ou biend’un estimateur issu d’un modèle linéaire
adapté
aux données traitées.L’estimation de cr
peut
ici être faite dansquatre
situations différentes conduisant àquatre
estimations de larépétabilité
au moyen de la variance derépétabilité.
- la
répétabilité
monodimensionnelle pour un laboratoire( j
et kfixés)
à l’aide de :- la
répétabilité
multidimensionnelle pour un laboratoire(k fixé)
à l’aide de :- la
répétabilité
monodimensionnelle commune à tous les laboratoires(j fixé)
à l’aide de :
- la
répétabilité
multidimensionnelle commune à tous les laboratoires à l’aide de :Dans
chaque
cas l’estimation de larépétabilité
est donc définie par :Soit pour J =
1,
et un laboratoiredonné,
en notantN(p)
lequantile
d’ordre p d’une loigaussienne
centrée réduite :Il convient donc de noter, que les
concepts
utilisés pourl’analyse
intralaboratoireau
paragraphe 4,
sontparfaitement homogènes
avec leconcept
derépétabilité pris
aussi bien dans sa définition normative que dans la
généralisation
multidimensionnelleproposée.
6.2
Reproductibilité
multidimensionnelleLa
reproductibilité R, mesure
de l’écartprobable
entre deux mesurages sur desobjets
de même nature, dans des laboratoiresdifférents,
est définie normativement[5]
dans le cas monodimensionnel par :où p est une
probabilité élevée, généralement égale
à0,95
etXl, X2
deux variables iidgaussiennes d’espérance
et variance inconnues.Dans ce cas on obtient : R =
1,96203C3R ~ 2, 7703C3R (19)
La
reproductibilité quantifie
la fidélité de la méthode d’essaiappliquée
dansdes laboratoires différents.
La variance de
reproductibilité ah
sedécompose
dans le cadre d’un modèle linéaire à effets aléatoires en :ai représentant
lacomposante
de la variance de l’effet interlaboratoires.u r 2 représentant
lacomposante
de l’effet intralaboratoire(variance
résiduelle dumodèle),
estimée au§6.1.
Dans une situation
multidimensionnelle,
enreprenant
les mêmeshypothèses
pour
X 1
etX2 qu’au paragraphe précédent,
on obtient :Cette définition est cohérente avec la définition monodimensionnelle de la
norme NF-ISO.
L’estimation de
ah
revient à l’estimation de03C32r présentée
ci-dessus et à celledes.
Comme dans le cas de la
répétabilité
l’estimation deai peut
êtreprésentée
dans deux situations :
- la
reproductibilité
monodimensionnelle(j fixé) :
- la
reproductibilité
multidimensionnelle :L’estimation multidimensionnelle de la variance de
reproductibilité
s’écritdonc :
Soit une définition
généralisant
la définition normative de lareproductibilité.
Il convient donc de noter, que
les concepts
utilisés pourl’analyse
interlabo-ratoires au
paragraphe 5,
sontparfaitement homogènes
avec leconcept
de repro- ductibilitépris
aussi bien dans sa définitionnormative,
que dans lagénéralisation
multidimensionnelle
proposée.
7.
Application
Dans ce
paragraphe,
nous allons illustrer la méthodeexposée
en utilisant lejeu
de données de la norme NF ISO
5725,
donnéesportant
sur ledosage
de la créosote.Nous avons fait ce choix pour que le lecteur
puisse
comparer la méthode multidimensionnelle que nous avonsdéveloppée
aux tests monodimensionnels de Dixon et de Cochran de la norme NF-ISO.7.1 Présentation des données
Elles sont
présentées
sur leslignes
L 1 à L9 du tableau1,
sous forme d’un tableau à 5 colonnes : 5 niveaux de teneur en créosote et 18lignes représentant
lesanalyses répétées
2 fois par 9 laboratoires.J=5 I= 18 K 9
lk = 2,1 k 9,
7.2
Analyse préliminaire
Elle a pour but
d’analyser
l’inertie totaleM2T
en inertie intralaboratoireM2w
etinertie interlaboratoire
M2
7.2.1 Calcul du centre de
gravité
dechaque
laboratoireIl
s’agit
ici d’un centre degravité multidimensionnel,
i. e. d’un vecteur à Jcomposantes.
On
applique
la formule(1)
pour obtenir lesligne
gl à gg du tableau 1.Ainsi pour le laboratoire 1 :
7.2.2 Calcul du centre de
gravité
du nuage depoints
Il
s’agit
là aussi d’un vecteur à Jcomposantes
où lescomposantes
se calculent de deuxfaçons possibles
à l’aide des formules(2)
ou(3).
g se trouve au milieu du tableau 1.
g =
{3,993; 8, 399; 14,508; 15,993; 20,511}
Les
composantes de g
sont les moyennes par niveau.7.2.3 Calcul de
l’inertie
totale du nuage par rapport à son centre degravité
g Onapplique
la formule(4).
MT2
est la somme des carrés des distances des vecteurs xi au vecteur g, les xiet g ayant J
composantes.
TABLEAU 1
7.2.4 Calcul de l’inertie intralaboratoire On
applique
la formule(7).
En bas du tableau
1,
le sous-tableau desM2k(j) présente
pourchaque niveau j (5 colonnes)
etchaque
laboratoire k(9 lignes),
le carré de la distance des résultats d’un laboratoire à sa moyenne.L’inertie intralaboratoire
M2W,
est obtenue de deuxfaçons possibles :
- c’est la somme pour les J niveaux et les K laboratoires des
Mf(j)
- on peut aussi sommer d’abord sur les différents
j,
on obtient les K valeursMf puis
onapplique
la formule(5) :
7.2.5 Calcul de l’inertie interlaboratoire
On
applique
les formules(6)
et(10)
où les gk et g sont des vecteurs à Jcomposantes.
On calcule d’abord
M, (j) puis M2B.
7.2.6
Analyse
de l’inertie totaleOn retrouve bien la
décomposition :
7.3
Analyse
intralaboratoireOn calcule l’inertie
Mf
dechaque
laboratoire parrapport
à son centre degravité
par
application
de la formule(7).
Ces calculs nous ont
permis
d’obtenirM 2W
au§7.2.4.
et le vecteurM2K
à Kcomposantes
estprésenté
au tableau 1.M 2
0, 16545; 0, 160 1; 0, 2800; 0, 09345; 0, 1370; 2, 1402; 0, 9800; 0, 06975; 0, 543751
La contribution relative du laboratoire k à l’inertie intralaboratoire
CTWK
estdonnée
par’la
formule(8).
L’ensemble des contributions relatives
CTWK (j) (cf.
formule(9))
estprésenté
au tableau 2.
La
représentation graphique
enfigure
8 montre les contributionscomparées
dechacun des laboratoires.
TABLEAU 2
analyse
intra et inter-laboSi tous les laboratoires avaient une même contribution
relative,
celle-ci vaudrait1/K,
soit dans notreexemple 0,11.
A l’évidence le laboratoire 6 et, dans une moindre mesure, le laboratoire 7 ont une très forte contribution à l’inertie intralaboratoire : ils ont une très médiocre
répétabilité.
,On
peut
alors se demander pourquels
niveaux cephénomène
est trèsmarqué.
laboratoires FIGURE 8
Analyse
intralaboratoire donnéesCREOSOTE (NF
ISO5725)
Le
graphique
de lafigure
9représente
les contributionsCTWK (j)
à l’inertieintralaboratoire des laboratoires 6 et 7 pour les 5 niveaux.
FIGURE 9
Analyse
intralaboratoire données CREOSOTE labos 6& 7 On yyoit
clairement que :- le laboratoire 6 a «raté» la mesure au
niveau j
==5,
celapeut
être considérécomme un accident de parcours. Ses résultats sont écartés pour ce seul niveau.
- le laboratoire 7 a une forte contribution pour les niveaux 4 et 5. En
conséquence,
ce laboratoire devrait peut être revoir saprocédure d’application
dela méthode de mesure de la teneur en créosote.
7.4
Analyse
interlaboratoireLa
décomposition
de l’inertie interlaboratoireM2B
se fait selon les laboratoires et les niveaux.On
applique
la formule(10).
Les résultatsnumériques
sontprésentés
autableau 2.
On y trouve ensuite les contributions
CT BK ( j )
à l’inertie interlaboratoire pourchaque
laboratoire etchaque
niveau.La
figure
10représente
la contributionCTBK
de chacun des laboratoires à l’inertie interlaboratoire.FIGURE 10
Analyse
interlaboratoire données CREOSOTE(NF
ISO5725)
Si les laboratoires avaient des contributions
égales
elles vaudraient0,11(=
1/K).
On voit donc que le laboratoire 1 a une contribution considérable à l’inertie
interlaboratoire,
et, dans une moindre mesure, le laboratoire 6.Ces laboratoires seront
responsables
d’unereproductibilité importante.
La
figure
11 montre que :- le laboratoire 1 a une contribution à l’inertie très
importante
pour les niveauxj = 3, 4 et 5.
Il doit donc être écarté car il fournit des résultats
trop
différents des autres laboratoires : ses résultats sontbeaucoup trop
élevés.- le laboratoire 6 a fourni des résultats trop différents pour le niveau 5. On avait
déjà
vu au§7.3
que pour ceniveau,
ses résultats étaientbeaucoup trop dispersés.
Lavaleur
16,58
trop faiblepeut
êtreresponsable
de tout cela. Ces résultats ontdéjà
étéécartés.
FIGURE 11
Analyse
interlaboratoire données CREOSOTE labos 1 & 6 7.5 Fidélité multidimensionnelle 7.5.1Répétabilité
multidimensionnelleL’analyse
de la variancepermet
d’atteindre larépétabilité correspondant
àquatre
situations différentes.-
Répétabilité
monodimensionnelle(j
et kfixés). L’application
des formules(13)
et(15)
permet de dresser le début du tableau 3qui
fournit une estimation de larépétabilité
pourchaque
laboratoire àchaque
niveau.-
Répétabilité
multidimensionnelle(k fixé).
En marge de droite et en haut du tableau
3,
on trouve pourchaque
laboratoire larépétabilité
multidimensionnelle(tous
niveauxconfondus)
parapplication
desformules
(14)
et(16).
TABLEAU 3
-
Répétabilité
monodimensionnelle commune à tous les laboratoires.Elle est obtenue par
application
des formules(13)
et(17)
et se trouve en marge inférieure du sous-tableau desrépétabilités.
-
Répétabilité
multidimensionnelle commune à tous les laboratoires Elle s’obtient parapplication
des formules(14)
et(18).
Elle est
représentée
en bas à droite du sous-tableau desrépétabilités.
7.5.2
Reproductibilité
multidimensionnelleLa variance de
reproductibilité
est obtenue parapplication
de la formule(20).
où
u 2 : composante
de la variance de l’effet interlaboratoire etu r 2: composante
de l’effet intralaboratoire.Comme dans le cas de la
répétabilité,
l’estimation deah
nécessite l’estimation deai qui peut
êtreprésentée
dans deux situations :- La
reproductibilité
monodimensionnelle( j fixé)
selon la formule(19).
Les résultats sont
rapportés
sur le tableau 3à
laligne V2
oùL 2 ( j ) MB 2 (j)/7.
Sur la
ligne Y2
estrapportée
lacomposante
de variance intralaboratoirecorrespondante,
soit :V2r(j) = M2W(j)/I,
oùM2w (j)
est l’inertie intralaboratoire de lavariable j.
Sur la
ligne YR
est le résultat del’application
de la formule(20)
pourchaque niveau j, Soit &2 (j).
La
ligne Hj représente
lareproductibilité
monodimensionnelle pourchaque
niveau J.
- La
reproductibilité
multidimensionnelle est obtenue enappliquant
les for-mules
(21)
et(24) :
11,07
étant lequantile
d’ordre0,95
d’une loi du chi-deux à 5degrés
de liberté.8. Conclusion
Cet article propose, d’une
part
des méthodessimples
de détection de valeurs aberrantes dans des situationsmultidimensionnelles,
d’autrepart
unegénéralisation
multidimensionnelle du
concept
normalisé de fidélité.Ces
outils, qui
donnent unéclairage
multidimensionnel au tableau dedonnées,
viennent en
complément
des méthodes normaliséesqui s’appliquent
niveau par niveau.Ces méthodes viennent donc utilement appuyer
l’analyste,
enparticulier lorsqu’
il est
engagé
dans une démarche d’assurancequalité,
d’accréditation ou de certifica- tion.A l’heure
actuelle,
ces outils sont mis en oeuvre à l’UTAC pourl’analyse
d’essais interlaboratoires et
permettent
desynthétiser
une informationcomplexe.
Toutefois,
des travaux restent à mener sur lasignification
concrète de la fidélité multidimensionnellequand
lesdescripteurs statistiques
sont de nature ou de niveaudifférents.
En
effet,
lerecodage abrupt
oul’opération classique
de réductionpeuvent
conduire à éliminer des données lesphénomènes
d’intérêt(eg.
rendre le nuagesphérique quand
on s’intéresse auxdispersions).
En outre, les
hypothèses
usuelles de normalité sont icicomplétées
pour la facilité des calculs d’unehypothèse
d’homoscédasticité dont lapertinence peut
être contestée.Nous souhaitons donc que les éléments
posés
dans cet article soient validés dans différents domainesd’application
etcomplétés
dedéveloppements
confortantcette
approche.
Remerciements
Les auteurs remercient la Rédaction de la Revue pour ses commentaires
pertinents
ainsi quePhilippe
Poirier(UTAC)
pour laprogrammation
en SAS desoutils
présentés
dans cet article.Références
[1]
BARNETTV.,
LEWIS T. Outliers in statistical data. -Wiley,
1984[2]
BECKMANR.J.,
COOK R.D. Outlier...s. -Technometrics, 25,2,
1983[3]
CLEROUXR.,
HELBLINGJ.M.,
RANGER N. Détection d’ensembles dedonnées aberrantes en
analyse
des donnéesmultivariées,
Revue deStatistique
Appliquée, 38,1,
1990[4]
GNANADESIKAN R. Methods for statistical dataanalysis
of multivariate observations. -Wiley,
1977[5]
NF-ISO Fidélité des méthodes d’essai. Détermination de larépétabilité
et de lareproductibilité
d’une méthode d’essai normalisée par essais interlaboratoires.Norme ISO 5725 -