• Aucun résultat trouvé

Chapitre V : Méthodes statistiques

3. Outils de modélisation statistique

L’objectif des outils de modélisation statistique est l’établissement d’un modèle empirique de liaison entre un ensemble de variables réponses Y et un ensemble de variables explicatives X, dans le but de comprendre et décrire les relations entre X et Y.

3.1. Régressions Linéaires

La régression linéaire consiste à calculer les coefficients ai de la fonction polynomiale reliant,

selon le critère des moindres carrés, la variable Y à une seule variable X (régression simple) ou à plusieurs variables Xi indépendantes (régression multiple).

La qualité de l’ajustement peut être caractérisée par le coefficient de détermination R², égal au rapport de la variance expliquée sur la variance totale. Un test de Fischer permet également d'évaluer si les variables Xi sélectionnées apportent au modèle proposé une quantité

d'information suffisante pour expliquer la variable Y (variance inexpliquée ε petite). Plus la probabilité associée au F de Fisher est faible, plus les variables sont explicatives. En revanche, le coût de l'ajout d'une variable est pris en compte contrairement au R². Ainsi, l'ajout d'une variable qui contribue peu à l'explication de la variable Y risque d'entraîner une diminution de la probabilité associée.

Deux types de régressions linéaires ont été utilisés lors de notre étude : la régression linéaire multiple et la régression progressive.

3.1.1.

Régression linéaire multiple

La méthode de régression linéaire multiple a été utilisée pour exploiter les résultats concernant les purées reconstituées et les suspensions modèles dont les expériences ont été construites selon un plan d’expériences central composite (4 facteurs, 5 niveaux). Le but était de rechercher les effets des différents paramètres structuraux sur les paramètres instrumentaux

d’une part et les descripteurs sensoriels d’autre part, puis de calculer le modèle polynomial du second degré, incluant les effets quadratiques des facteurs ainsi que leurs interactions :

Y = a0 + a1 X1+ a2 X2 + … + ak Xk + a12 X1X2 + a13 X1X3 +…+ akkXk² + ε

où ε est la variance inexpliquée par le modèle.

Le modèle est dit linéaire car la réponse peut être écrite comme le produit des matrices des coefficients et du plan d’expériences. Un test de Student est réalisé pour chaque variable explicative et la valeur de la probabilité associée est interprétée. Plus elle est faible et plus la variable Xi a de l'importance dans le modèle. Si seul l'effet du premier degré de la variable X

est significatif, la variable Y augmente linéairement avec celle-ci. Si l'effet quadratique est également significatif, la surface de réponse est parabolique. Si l'effet de l'interaction entre deux variables XA et XB est significatif, l'allure de la courbe de Y en fonction de XA (droite ou

parabole) est modifiée en fonction de la variation de la deuxième variable XB.

Les surfaces de réponse ont ainsi pu être tracées à partir des modèles polynomiaux obtenus (Figure 47).

Figure 47 : Exemple de surface de réponse en fonction des 4 facteurs de structure F1 à F4, variant selon 5 niveaux

Elles ont été présentées sous forme de graphiques à 5 dimensions. Les quatre premières dimensions sont les quatre facteurs de structure (F1, F2, F3 et F4) variant selon les 5 niveaux du plan d’expériences. La cinquième dimension est la réponse Y qui varie selon un code couleur : de blanc, pour les valeurs les plus basses, à noir, pour les valeurs les plus élevées. De tels graphiques ont ainsi permis de visualiser les variations de la réponse Y en fonction de celle des 4 facteurs simultanément.

F1

F2

F4

F3

Partie 3 : Produits et méthodes de caractérisation Chapitre V: Méthodes statistiques

3.1.2.

Régression linéaire progressive

La régression linéaire progressive permet de sélectionner les variables explicatives qui donnent le meilleur modèle en introduisant et en enlevant les variables pas à pas. La première variable introduite est celle qui a le coefficient de détermination le plus élevé avec la variable à prédire. Chaque nouvelle variable est ensuite introduite pour augmenter le coefficient de détermination, compte tenu de l’information apportée par la variable précédente. L’effet de la nouvelle variable est testé pour savoir si l’apport est significatif ou non grâce à un test de Student. Si la variable possède une probabilité associée supérieure au seuil de 5%, son impact sur le modèle n’est pas significatif et elle n’est pas prise en compte. La méthode procède ainsi par l’ajout et le retrait progressif des variables. Si deux variables explicatives sont fortement corrélées, une seule d’entre elles sera choisie. L’intérêt de cette méthode est d’éviter l’utilisation redondante de variables explicatives corrélées et ainsi de relever les variables explicatives les plus intéressantes pour décrire la variable Y. Cette méthode peut cependant amener à supprimer des variables réellement significatives (Urdapilleta, et al., 2001).

Cette méthode a été utilisée dans le but de sélectionner les mesures instrumentales les plus pertinentes pour prédire la perception sensorielle.

3.2. Partial Least Square

La méthode Partial Least Square (PLS) (Wold, et al., 1984) est une méthode itérative qui permet de relier deux groupes de variables X et Y. Ce type de modélisation calcule d’abord des composantes PLS indépendantes et sur lesquelles est réalisée la régression. Ces axes sont des combinaisons linéaires des variables initiales, calculées de manière à décrire les plus grandes variations des données. Le nombre de variables Y à expliquer peut être supérieur ou égal à 1. On appelle PLS 1 l’analyse permettant d’expliquer une seule variable Y et PLS 2 l’analyse permettant d’expliquer au moins deux variables Y. Une réponse Y est considérée comme bien modélisée si le coefficient Q²cum est supérieur à 0,5 (Tenenhaus, 1998). Cette méthode peut être utilisée comme une alternative de la régression linéaire multiple lorsque le nombre d’observations est faible par rapport au nombre de variables explicatives ou bien en cas de multi-colinéarité des variables explicatives.

La PLS a été utilisée pour établir une prédiction des descripteurs sensoriels à partir des données instrumentales. Les résultats ont pu ainsi être comparés à ceux issus de la régression linéaire multiple progressive.

Documents relatifs