Intervalle de confiance de la moyenne d'un échantillon a. Intervalle de confiance

2.2. Rôle des intervalles de tolérance

2.2.1. Intervalle de confiance de la moyenne d'un échantillon a. Intervalle de confiance

Pour comprendre le rôle potentiel des intervalles de tolérance dans l'industrie pharmaceutique et en particulier durant les étapes du cycle de vie des méthodes d'analyse, il est important d'examiner d'abord les principaux types d'intervalles statistiques qui existent.

2.2.1. Intervalle de confiance de la moyenne d'un échantillon a. Intervalle de confiance

L'intervalle de confiance de la moyenne d'un échantillon est probablement l'intervalle statistique le plus connu. Au sens courant, c’est une “fourchette”.

Un intervalle de confiance bilatéral à 95% de la moyenne m d’une variable est un couple de variables aléatoires (L, U) telles queP L(   U) 0.95 . L’intervalle est défini par une probabilité de recouvrement : celle que la vraie valeur de m (inconnue) soit contenue dans l’intervalle aléatoire [L, U]. [68]”.

Soit par exemple x1, x2, x3,….xk k résultats obtenus à partir d’une méthode d'analyse quantitative. La valeur moyenne de cet échantillon de résultats peut être facilement calculée par:

ˆ 1 k

i i





^k

Eq. II‐9

Et la formule de l'intervalle de confiance de la moyenne avec 1‐ comme niveau de confiance:

( 1, 2)

ˆ ˆ Qk

 k

 _  Eq. II‐10

où σˆ est l’écart type estimé à partir de l’échantillon et ^Q_{k-1; 2}^  est la quantile /2 de la distribution de Student avec k‐1 degré de liberté.

Cet intervalle exprime que la vraie valeur µ de la moyenne de l'ensemble de la population est comprise dans cet intervalle avec une probabilité de 1‐. Ainsi, si les expériences sont

répétées cent fois, 95 fois sur 100, la vraie moyenne µ sera en moyenne comprise dans les intervalles de confiance calculés.

D'après ce que dit la théorie statistique, la valeur µ ne pourrait être connue qu’après avoir effectué un nombre infini de mesures. C'est donc un paramètre théorique qui sert à une modélisation mais qui n'est jamais connu. Pour remédier à cet inconvénient, on estime ce paramètre à partir d'un nombre réduit de mesures : la moyenne n'est donc qu'une estimation de la valeur vraie et, si on effectuait une autre série de mesures, on n'obtiendrait pas tout à fait la même moyenne. Il y a donc un risque que le résultat final retenu soit différent de µ [1]

L'intervalle de confiance de la moyenne permet non pas de supprimer ce risque, mais de le quantifier. Pour construire l'intervalle de confiance de la moyenne, on définit un ensemble de valeurs parmi lesquelles il y a un faible risque que la valeur vraie µ ne se trouve pas. Ce risque d'erreur, compris entre 0 et 1 (ou entre 0 % et 100 %) est appelé risque d'erreur de

première espèce et sera noté. Son complément 1 ‐  est le niveau de confiance de l'intervalle [1].

Si  est très petit, 1% par exemple, on peut avoir une confiance élevée dans l'intervalle choisi et il y a peu de chances que la valeur vraie ne s'y trouve pas, l'intervalle étant grand.

Inversement, si le risque est grand, 10 % par exemple, on a un risque plus élevé que la valeur vraie ne s'y trouve pas et l'intervalle est alors plus petit [1].

L'idée derrière ce calcul de l'intervalle de confiance est facile à comprendre pour un analyste car elle permet de répondre à une question classique :

«combien de répétitions dois‐je faire? ». En effet, c'est un statisticien connu sous le nom de Student qui a proposé une réponse à cette question en essayant de quantifier dans quelle mesure l'estimation de la moyenne est améliorée lorsqu'on augmente le nombre de répétitions: en d'autres termes, il a proposé une méthode pour évaluer dans quelle proportion on connaît mieux l'intervalle de confiance d'une moyenne si on l'estime avec 2, 3, 4 ... 100 répétitions ou plus.

‘(rd(r(dr(d

Figure II‐14‐ Densité de probabilité d’une loi de Student à 19 degrés de liberté [1]

b. Intervalle de tolérance

L’intervalle de tolérance, également appelé intervalle de prédiction, est de son côté moins connu. C'est un intervalle dans lequel on est capable de prédire où va se trouver en moyenne une proportion connue des mesures. Il diffère donc de l'intervalle de confiance en cela qu'il s'intéresse à la population des mesures alors que l’IC ne s’intéresse qu'à un paramètre, comme la moyenne ou l'écart‐type. En termes simples, l’intervalle de confiance caractérise le comportement de la moyenne tandis que l’intervalle de tolérance caractérise le comportement de l'ensemble des mesures. Il est donc très intéressant dans l'optique d'un contrôle de procédé et il est dommage que la notion d'intervalle de tolérance ne soit pas plus souvent évoquée. C'est sans doute parce qu'elle est un peu plus délicate à définir.

Cette notion a été introduite pour le contrôle de fabrication mais n'est pas limitée à ce cas.

En effet, dans un contrôle de la qualité d'un processus de production, comme la production d'un résultat d'analyse, ce n'est pas tant le résultat moyen de l'échantillon qui importe, mais plutôt entre quelles valeurs va se situer une forte proportion des mesures. Connaître la localisation de la moyenne vraie est d'autant moins intéressant que pour des raisons économiques, il est souvent avantageux de ne pas faire de répétitions, tout en essayant de définir une stratégie qui permette de rejeter au mieux des lots défectueux ou hors spécification.

Si on connaissait de manière très précise (certaine) la moyenne µ et l'écart‐type σ du lot et que les mesures suivaient effectivement une loi normale , alors on déterminerait des limites grâce à la formule [µ‐ u95%,σ ;µ+ u95% σ]. Par exemple, avec u95% = 1,96 correspondant au quantile 95 % de la loi normale. On pourrait alors affirmer que 95 % des mesures obtenues se situent entre ces deux limites.

C'est la démarche utilisée pour définir un intervalle de répartition. Mais, comme la moyenne et l'écart‐type sont estimés à partir d'un échantillon de mesures et il n'est plus possible de procéder ainsi. La moyenne et variance empiriques sont des variables aléatoires et non plus des paramètres fixes. On obtiendrait, en faisant différentes séries de mesures, des limites contenant tantôt, soit, plus de 95 % des valeurs, soit moins de 95 %. Ce qui ne résout pas le problème.

Pour calculer l'intervalle de tolérance, on va rechercher de manière indirecte des limites qui permettent d'affirmer qu'en moyenne une proportion, notée β, des mesures se situent entre ces limites bilatérales. En gardant les notations proposées, l'intervalle de tolérance s'exprime ainsi :

1 1

1 ; 1

IT IT

X K S X K S

I I

 

       

 

  Intervalle de tolérance (Eq. II‐11)

où k_IT est le facteur de couverture de l’intervalle de tolérance et I le nombre de données

Cette formule ressemble à celle de l’intervalle de confiance, fourni par l'équation (Eq. 10), à deux différences près. D'abord, l’écart‐type s est multiplié par un coefficient qui tient compte du nombre de mesures. Ensuite, l'intervalle est supposé contenir une proportion donnée de futures mesures X et non plus la moyenne théorique µ de la distribution.

Pour une loi normale, kIT est fournie par la formule suivante [73]:

1;1 2

IT I

K t __

  Facteur de couverture de l'intervalle de tolérance (Eq. II‐12)

Dans l’équation (Eq 12) la quantité _1-β

I-1;2

t représente le quantile de la loi de Student pour l‐1

degré de liberté et la probabilité (1‐ β)/2.

Dans le document Etude Critique des Différentes Approches de Validation des Méthodes Analytiques (Page 48-52)