• Aucun résultat trouvé

Chapitre 2 : Méthodes statistiques

2.4. Régression linéaire simple et multiple

On calcule aussi la variable centrée réduite T définie par :

3) On fixe la probabilité seuil 0,05 séparant (H0) et (H1).

4) On regarde la distribution de Student f(t ; 9) pour trouver la valeur p qui correspond à T pour la comparer à 0,05. On peut également trouver la valeur T0

de t correspondant à 0,05 soit dans ce cas T0 = − 2,3 et comparer T et T0 ; si

T < T0 on rejette (H0) et on accepte (H1) (la concentration a diminuée

significativement pendant les 10 jours) sinon on n’aura aucune raison de rejeter (H0).

2.4. Régression linéaire simple et multiple

On considère un ensemble de N points expérimentaux Pi (xi ; yi) et on cherche dans un

premier temps à trouver une fonction y = f(x) dont le graphe (Gf) passe par tous ces

points. Dans la plupart des cas, cela n’est possible qu’en utilisant une fonction à N paramètres qui tout en étant complexe, aura généralement un graphe d’allure serpentine. En plus, la capacité prédictive de cette équation sera souvent très faible puisque les valeurs xi et yi qui sont des grandeurs mesurées expérimentalement renferment certainement des erreurs de mesure qui interviendront dans la détermination des paramètres (Figure 2.1).

119

Figure 2. 1 Exemple d’une modélisation avec trop de paramètres

En partant de y = 2x – 1 comme relation théorique, les valeurs des coordonnées de 5 points choisis ont été légèrement modifiées en y introduisant une erreur aléatoire de ±5 %. Une fonction polynômiale de 4ème degré y = −

0,14630x4 + 1,7166x3 − 6,9286x2 + 13,079x − 6,7310 a été nécessaire pour

avoir un graphe passant par tous les points qui paraît nettement de valeur prédictive faible en serpentant autour du graphe exacte en le touchant juste 4 fois.

Pour corriger ces défauts, il faut être moins exigeant dans la formulation du problème : au lieu que le graphe passe par tous les points, on demande juste qu’il s’approche au maximum de ces points. Dans ce cas, f(x) aura certainement un nombre p de paramètres strictement inférieur au nombre N des points, soit donc p < N. La différence (N – p) > 0 est appelée « degré de liberté » et exprime comme le montre son nom, à quel degré le graphe (Gf) est-il libéré des points expérimentaux. Il faut noter que dans ce cas, on a

presque toujours yi ≠ f(xi) et on appelle « résidus » ou « erreurs » les différences εi = yi f(xi) ; un modèle est autant « bon » que les εi sont faibles. Pour déterminer les

paramètres, on a recours à des techniques mathématiques connues sous le nom de « calculs de régression ». Si f(x) est la fonction affine f(x) = ax + b, on parle d’une « régression linéaire simple ». Il existe beaucoup de méthodes pour calculer a et b, mais la méthode dite « droite des moindres carrés » minimisant la somme des carrés des erreurs (SCE) est la plus populaire :

Si on divise cette somme par N et on note par Ū la moyenne arithmétique d’une grandeur ui définie par Ū = Σ ui / N on aura :

120

On calcule les dérivées partielles de SCE/N par rapport à a et b :

La fonction SCE passe par un minimum lorsque ces dérivées partielles sont nulles et on aura après simplification le système d’équation suivant :

Soit en notation matricielle :

Ainsi, les valeurs de a et b sont facilement calculées :

Il reste à évaluer la qualité du modèle obtenu. Cela se fait grâce à un test connu sous le nom ANOVA (de l’anglais « ANalysis Of VAriance ») et qui veut dire « analyse de la variance ». Pour exposer cette méthode brièvement, on reprend l’expression de SCE/N en y remplaçant b en termes de a :

Les quantités et sont appelées les variances de y et x respectivement. D’après le modèle y = ax + b, le terme est la variation de

y due à la variation de x. La somme des carrés totale (SCT) et la somme des carrés de

régression (SCR) sont définies par :

121

Soit enfin : SCT = SCR + SCE qui veut dire que la variation totale de y est la somme de la variation expliquée par la régression et de la variation due à l’erreur.

On définit le « coefficient de détermination » R2 comme la proportion de la variation expliquée par le modèle dans la variation totale :

La racine carré R est appelée « coefficient de corrélation de Pearson » et a le même signe que la pente a. Une valeur de R2 qui s’approche de 1 montre que l’erreur du modèle est faible :

Malheureusement, l’expression de R2 ne prend en considération ni le nombre des points expérimentaux N, ni le nombre des paramètres p du modèle. Or, il est évident que si deux modèles ont même R2, celui ayant plus de points et moins de paramètres, sera un meilleur modèle ; de ce fait, on a définit un coefficient de détermination ajusté R2aj où la

SCE et la SCT sont divisées chacune par le nombre de degrés de liberté respectifs (N – p)

et (N – 1) : Le facteur est appelé « facteur d’ajustement » ; il est toujours supérieur à 1. Si ce

facteur devient de plus en plus grand, on aura l’exigence que R² soit de plus en plus grande afin d’avoir un ajustement suffisant du modèle.

122

Si R2 exprime tout le signal de sortie du modèle, R2aj exprime la partie du signal qui correspond à la vraie réponse. Parsuite, la différence (R2 – R2aj) peut être vue comme le bruit de fond du modèle. La statistique de Fisher F est calculée par :

Pour valider le modèle et être sûr qu’aucun des points expérimentaux n’est aberrant, on calcule un « coefficient de détermination de la prédiction » généralement noté Q2.

En écartant un à un les points expérimentaux, la régression permet de prédire ( i) la valeur écartée (yi) en utilisant les (N – 1) points restants ; Q2 est alors le R2 de l’équation = py + q.

Un exemple simple permet de fixer les idées :

Soient les 5 points A1 (0 ; 1), A2 (1 ; 3), A3 (2 ; 5), A4 (3 ; 4) et A5 (4 ; 6)

- La régression donne : = 0,9 x + 2,2 avec R2 = 81 %

- Puisque le nombre de points N = 5 et le nombre de paramètres p = 2, le coefficient ajusté de détermination :

R2aj = 1 – (1 – R2)(N – 1)/(N – p) = 1 – (1 – 0,81)(5 – 1)/(5 – 2) = 74,67 %

et par suite le rapport signal/bruit F = 0,81/(0,81 – 0,7467) = 12,79 - La régression sans A1 donne : 1 = 0,8 x + 2,5 soit donc 1= 2,5 ;

La régression sans A2 donne : 2 = 0,886 x + 2,257 soit donc 2= 3,143 ;

La régression sans A3 donne : 3 = 0,9 x + 1,95 soit donc 3 = 3,75 ;

La régression sans A4 donne : 4 = 1,029 x + 2,2 soit donc 4 = 5,287 ;

La régression sans A5 donne : 5 = 0,8 x + 2,3 soit donc 5 = 5,5 ;

Soit enfin la droite = 0,6607 y + 1,3932 avec Q2 = 62,84 %

La « régression linéaire multiple » est l’extension des mêmes principes illustrés ci-dessus mais avec plusieurs variables d’entrée :

123

Puisque la régression n’exige pas que les variables d’entrée soient indépendantes, on peut former des variables par multiplication des variables entre elles. Si par exemple on a deux variables d’entrée x1 et x2, et on désire modéliser la variable de sortie y par un polynôme de second degré, on peut exprimer y de la façon suivante :

y = a1x1 + a2x2 + a1,2 x1 x2 + a1,1 x12 + a2,2 x22 + a0

Pour comparer les effets des différentes variables d’entrée sur la variable de réponse, on a l’habitude d’utiliser des variables centrées en 0 et ayant des échelles normalisées entre

− 1 et + 1. Par exemple, si on désire tester x1 entre 100 et 300 ainsi que x2 entre 25 et

65, on les remplace par deux variables X1 et X2 co-centrées en 0 et de même échelle :