Outils statistiques pour l’Analyse

(1)

I. Introduction

L’objet de cet article est de donner un aperçu sur les méthodes statistiques applicables à l’analyse dans le but d’optimiser soit les erreurs de mesure (aléatoires ou systématiques) pour apprécier au mieux la précision et l’exactitude des résultats trouvés lors d’une analyse, soit pour satisfaire l’étude des critères de validation dans le cas de la mise au point d’une nouvelle méthode d’analyse (quand les normes l’exigent: cas de l’industrie pharmaceutique). On donnera dans cet article un brève aperçu des tests statistiques les plus couramment utilisés en analyse avec des exemples d’applications.

II. Les méthodes statistiques (cas des petits échantillons)

Pour estimer les erreurs (systématiques ou aléatoires) affectant des analyses effectuées par des

expérimentateurs ou pour définir les critères permettant de valider une méthode d’analyses, il est nécessaire d’effectuer plusieurs analyses afin d’apprécier notamment les effets aléatoires ou imprévisibles.

Chaque effet aléatoire est estimé par un paramètre de dispersion qui est la variance ou son écart-type associé (racine carrée de la variance).

Ce paramètre est établi à partir de plusieurs mesures individuelles (y_i) supposées être indépendantes, de caractère aléatoire et de distribution normale (la vérification de la normalité et de l’indépendance peut être effectuée par le test de χ²qui ne sera pas décrit dans cet article).

II.1. Distribution normale centrée réduite

Une variable aléatoire (Y) est de distribution normale lorsque les différentes valeurs individuelles (y_i), que peut prendre cette variable, apparaissent selon

OUtils statistiqUes pOUr l’analyse

resUMe : Il est important, pour un expérimentateur, de savoir si le résultat d’une mesure peut être accepté avec confiance ou s’il faut au contraire le rejeter parce qu’il est faux. Il est important aussi pour un expérimentateur de savoir si une méthode d’analyse convient à l’emploi prévu. Enfin, il est important pour un chercheur analyste de savoir si on peut faire confiance à une nouvelle méthode mise au point et quels sont les critères ou les conditions à respecter pour s’assurer de sa validité c’est ce qu’on appelle les critères de validations.

L’outil statistique nous permet d’avoir une meilleure approche de tous ce qui précède.

Mots Clés : Tests statistiques, student, Fischer Snedecor, précision, exactitude.

Digua Khalid ¹ et Abdelaziz Bouklouze² E-mail : K.digua@univh2m.ac.ma

1 Laboratoire de Génie des Procédés et de Dépollution, Faculté des Sciences et Techniques Mohammedia 2 Laboratoire de Pharmacologie et Toxicologie, Faculté de Médecine et de Pharmacie de Rabat

(2)

une probabilité (p) définissant une courbe en forme de cloche dite « Courbe de Gauss » d’équation réduite :

( )

⁽²⁾

2

1 ^u

e u

p = ⋅ ⁻

π après un changement de variable : u=yσ−y

Loi Normale Centrée Réduite

II.2. Variance et écart-type

Soit V (X) = variance de la variable aléatoire X S_X = écart-type estimé de la variable aléatoire X

( ) ¹₁ ( ) ¹₁ ₁

1

2

2 1 1

2 2

= −











 



 





−

− ⋅

=

−

− ⋅

=

= ∑ ∑

∑₌ ^X ^X _n ₌ ^X ⁼ _n^X ^SCEx_n

S n X

V ⁿ

i

n

i i i

n

i X i

Avec X : moyenne des X_i soit ⁿ

X X

n i

∑

₌ i

= ¹

; CV = 100*S_x /X

n : taille du prélèvement ou nombre de X_i prélevés SCEx : Sommes des Carrés des Ecarts à la moyenne

CV: Coefficient de variation

II.3. Les Tests d’hypothèses

Les tests d’hypothèses ont pour but de vérifier si les données expérimentales sont conformes à certaines hypothèses théoriques.

1°) l’hypothèse nulle que l’on symbolise par H₀ considère que les deux éléments ou séries d’éléments sont égaux.

2°) la deuxième étape consiste à la mesure de l’écart entre les différentes caractéristiques.

3°) la troisième étape consiste à calculer la probabilité P d’avoir un tel écart si H₀ est vraie.

4°) la quatrième étape consiste à tirer les conclusions qui s’imposent :

si P est grand, on admet que H₀ est plausible, par

contre si P est petit, l’écart est incompatible avec H₀. La valeur limite de P que l’on se fixe pour déterminer si P est grand ou petit est le niveau de confiance ou le seuil de signification (généralement on choisit P = 0,95 comme niveau de confiance (α = 0,05 comme seuil de signification).

Quatre situations sont possibles : - acceptation de H₀ vraie

- rejet de H₀ vraie : erreur de première espèce (α) - acceptation de H₀ fausse : erreur de deuxième espèce (β)

- rejet de H₀ fausse

II.4. Test de Student

La loi de Student est notamment utilisée pour :

-la détermination de l’intervalle de confiance d’une moyenne

( ) ( ) n

t S X n m

t S

X − _p_,_υ ⋅ ≤ ≤ + _p_,_υ ⋅

bilatéral (avec

p = 1 - 2 α

; α : risque de 1^ère espèce)

- la comparaison d’une variable (ex.

moyenne) à une valeur de référence donnée (A)

( )p,υ

S t A X − ≤

(avec p = 1 – α ; avec α = risque de 1^ère espèce)

- la comparaison de deux variables

( 1,2)

2 2 2 1

2 1

υ

pυ

S t S

X

X ≤

+

−

(avec p = 1 – α ; avec α = risque de 1^ère espèce) υ : nombre de degré de liberté de S ; υ₁ et υ₂ : nombre de degré de liberté de S₁² et S₂².

a) Test bilatéral

(3)

Détermination de t : t(α, υ) est lu sur la table de Student en fonction du risque α et du degré de liberté υ. α est le risque de première espèce, c’est- à-dire le risque de déclarer l’hypothèse nulle fausse alors que dans la réalité elle est vraie. α est souvent pris égal à 0,05, 1–α = P niveau de confiance.

II.5. Test de Fisher

En général, la loi de Fisher est utilisée :

- pour des tests intervenant dans l’analyse de la variance ;

- pour la détermination de l’intervalle de confiance d’un rapport de deux variances ; - pour la comparaison de deux variances à une donnée …

Dans notre cas, le test de Fisher consiste à valider un résultat statistique à un risque α choisi en comparant deux variances indépendantes S¹² et S²² selon l’inégalité suivante :

(,1, 2)

2 2 2 1

υ

αυ

S F S >

α : risque de première espèce souvent pris égal à 5 % υ₁ : degré de liberté de S¹² ; υ₂: degré de liberté de S²²

La valeur de F(α υ_1,υ₂) est lue sur la table de Fisher Snedecor

Le test de Fisher est significatif lorsque l’inégalité ci-dessus est vérifiée.

II.6. Test de l’homogénéité des variances

Le test de Cochran permet de vérifier (à un risque α choisi) l’homogénéité des variances des valeurs individuelles, c’est-à-dire de vérifier que ces variances sont peu différentes entre elles.

Le test de Cochran consiste à comparer le critère de Cochran de ces variances avec celui lu sur la table correspondante à un risque α.

Soit un ensemble de p variance S_i², toutes calculées à partir du même nombre n de résultats de réplique, le critère de Cochran est :

∑

₌

= _p

i Si

C S

1 2 2 max

2

Si : Variance calculée à partir de n résultats d’un même groupe i

2

Smax : Ecart-type maximal de l’ensemble des p S_i² Le critère de Cochran ne teste que la plus forte valeur d’un ensemble de variances (ou ses écart- types associés) et est donc un test unilatéral de valeur aberrante.

Le test de Cochran correspond à vérifier l’inégalité suivante :

C < C(

α

n,p)

C(αn,p) est lu sur la table de Cochran en fonction du risque α = 5 % du nombre de répétitions (n) et du nombre de groupe p.

Remarque :

En pratique, le nombre n de répétitions peut légèrement varier d’un groupe à un autre en raison des données manquantes, redondantes ou aberrantes.

Dans le cas d’une validation, on admet cependant que dans une expérience correctement organisée, de telles variations sont limitées et peuvent être ignorées.

Le critère de Cochran est alors appliqué en prenant pour n la moyenne arrondie des nombres d’observations n_j des P groupes (ou séries de valeurs).

III. Quelques exemples d’applications des tests statistiques courants

III.1. Evaluation de la précision (fidélité) et de l’intervalle de confiance

La précision est une grandeur caractéristique de la dispersion des résultas autour de la moyenne. Elle est souvent caractérisée par l’écart type, la variance ou le coefficient de variation (CV) d’une série de mesure.

La précision d’un dosage peut être définie au sein d’une même série d’analyse d’un échantillon homogène dans des conditions prescrites ou d’une série à l’autre. La précision peut être définie par trois niveaux. La répétabilité, la précision intermédiaire, et la reproductibilité (voir définitions plus loin).

La répétabilité exprime la précision sous les même conditions opératoires dans un intervalle de temps

(4)

assez court (parfois appelée précision intra-essai).

La précision intermédiaire exprime la précision dans des conditions intra laboratoire différentes (ex.

techniciens différents, équipements différents, jours différents). La reproductibilité exprime la précision entre laboratoires.

On sait que la moyenne d’une série de mesures, composés chacune de n résultats (ce que l’on peut identifier à une série de valeurs extraites d’une population quelconque de moyenne m et d’écart type sigma) suit une loi d’autant plus voisine de la loi normale que le nombre de mesures est grand.

On calcule les estimateurs de la moyenne X et de l’écart type S et on détermine un intervalle de confiance à 95 %. La table de student fournit un coefficient t pour N= n - 1 et P = 0,95 (ou α = 0,05) : la valeur moyenne à 95 % de chance de se trouver dans les limites :

( ) ( ) n

t S X n m

t S

X − _p_,_υ ⋅ ≤ ≤ + _p_,_υ ⋅ La différence existant entre l’écart type (S ) et l’écart moyen (S_m = S/√n ) réside dans le fait que l’un affecte un résultat isolé et l’autre une moyenne.

Exemple: considérons, par exemple, une solution de Ca²⁺ que l’on analyse par spectrométrie d’absorption atomique. En répétant la mesure 10 fois de suite, on obtient les valeurs suivantes pour l’absorbance A_i : 0,152 ; 0,152 ; 0,157 ; 0,157 ; 0,156 ; 0,156 ; 0,156 ; 0,154 ; 0,154 ; 0,154.

La moyenne Ā = 0,155, la variance S² = 3,5 10^-6 est l’écart type S=1,89.10⁻³

≅

0,002.

Le coefficient de variation CV = 100*1,89*10^-3 /0,155 = 1,22%. Les limites de confiance peuvent être fixées par la formule :

S t

A Ai S t

A− ^(p,υ⁾ 〈 〈 + ^(p,υ⁾

pour toute nouvelle mesure

n t S

n A t S

A− (p,υ) 〈m〈 + (p,υ)

pour la moyenne

t étant le facteur de confiance (où t_cr = t critique) pour lequel les valeurs à utiliser sont données dans la table de student (en fonction du nombre de degrés de liberté N = (Σn_i) - 1 et de la probabilité P (ou

pour un risque α )).

Ainsi, pour 10 essais, il y a 95 % de chance que toute nouvelle mesure tombe dans l’intervalle (A

± 2,26 S) soit (0,155 ± 0,004) et 95 % de chance (si n est grand) pour que la moyenne tombe dans l’intervalle (A ± 2,26 S/√10) soit (0,155 ± 0,001).

Remarque : si la population d’origine n’est pas normale, on peut en extraire de petits échantillons et prendre les moyennes respectives. La distribution de ces moyennes tend très vite vers une distribution normale. On peut donc appliquer à ces moyennes les tests statistiques basés sur la distribution normale.

III.2. Evaluation d’une méthode de dosage (tests t et F)

Dans le cadre de la validation d’une méthode interne de dosage de l’acidité totale d’une boisson, les résultats suivants ont été obtenus avec une boisson de référence interne :

Expérimentateur A

Méthode interne 5,65 5,60 5,58 5,61 5,55 5,63 5,61 5,50 Méthode de référence 5,50 5,55 5,56 5,50 5,58 5,65

Expérimentateur B

Méthode interne 5,70 5,65 5,75 5,80 5,60 5,65 5,71 5,80

On utilisant un produit de référence certifié qui a une acidité totale de 5,55 ± 0,02, les résultats suivants ont été obtenus en utilisant la méthode interne :

Expérimentateur A 5,50 5,55 5,56 5,51 5,45 5,60 5,64

On se propose dans un premier temps, de traiter statistiquement ces résultats (estimation des variances, comparaison de moyennes).

III.2.1. Calcul des moyennes et des variances

expérimentateur a : boisson de référence interne Méthode Moyenne DDl Variance ecart

type interne 5,591250 7 0,002269 0,047640 référence 5,556667 5 0,003147 0,056095

expérimentateur B : boisson de référence interne Méthode Moyenne DDl Variance ecart type

interne 5,707500 7 0,005307 0,072850 Produit de référence Certifié

expérimentateur Moyenne DDl Variance ecart type a 5,544286 6 0,004095 0,063994

III.2.2. Comparaison des variances : Précision ou fidélité (test F)

(5)

III.2.2.1. Précision de la méthode interne/

référence (expérimentateur A) La valeur trouvée :

721 ,

2 0

int2 =

=

référence erne

S F S

; la valeur de la table : F _(95,7,5) = 4,88

F< F table : la différence entre la précision de la méthode interne et celle de la mé- thode de référence n’est pas significative (P=0,95 ; α=0,05) pour l’expérimentateur A III.2.2.2. Comparaison des deux variances internes

La valeur trouvée ₂ 0,4275

int 2int =

=

erne b

erne

Sa

F S

; la valeur de la table : F_(95,7,7) = 3,79

F < F table : les deux variances internes ne sont pas significativement différentes. La fidélité de l’expérimentateur A est similaire à celle de l’expérimentateur B.

On peut estimer l’écart type interne

0615 , 14 0

7 7 ²_int ²_int

int_erne = ×Sâ êrne + ×S^b êrne =

S

III.2.3. Comparaison des Moyennes (test t) Critère t :

2( ) 2(a) mb m

b a

S S

x t x

+

= − ;

a : Expérimentateur A ; b : Expérimentateur B

Comparaison des moyennes trouvées par la méthode interne par les expérimentateurs A et B.

778 , 8 3 / 005307 ,

0 8 / 002269 ,

0

591250 ,

5 707500 ,

5 =

+

= −

t ;

t table : t_(95,14)= 2,14

t trouvé > t table : la différence entre les deux moyennes trouvées, par les deux ex- périmentateurs A,B, par la méthode interne est significative

III.2.4. Evaluation de la justesse (exactitude) Critère t :

) (a m

vraie a

S x t x −

= ;

Calcul de t : 0,23

7 / 004095 ,

0

55 , 5 544286 ,

5 − =

=

t ;

Valeur de la table t : t_(95,6)= 2,447

t trouvé < t table, la différence entre la valeur trouvée par l’expérimentateur A et la valeur de référence n’est pas significative

III.2.5. Conclusion

On peut conclure qu’on se fiant uniquement à l’expérimentateur A, la méthode interne de dosage est bonne et le résultat trouvé est exacte.

IV. Conclusion générale

Dans cet article de synthèse, nous avons ni le temps ni la prétention de donner tous les outils statistiques nécessaire au traitement statistique des données analytiques, mais nous espérons et nous souhaitons que le lecteur a pris conscience de l’intérêt de l’outils statistique dans le domaine analytique (qualité des analyse, contrôle qualité et validation analytique…

etc.).

Références

1) Les plans d’expériences : De l’expérimentation à l’assurance qualité

Gilles Sado et Marie Christine Sado AFNOR, Edition 2000

2) Guide de validation analytique : Rapport d’une commission de SFSTP

I. Méthodologie.

J.Caporal-Gautier, J.M. Nivet, P. Algranti, M. Guilloteau, M. Histe, M. Lallier, J.J. N’Guyen-Huu et R. Russotto.

STP Pharma Pratiques 2 (4) 205-226 1992.

3) Analytical Method Development and Validation M.E. Swartz et Ira S. Krull

Marcel Dekker, 1997.