• Aucun résultat trouvé

Chapitre 2. Compréhension moléculaire et prédiction des propriétés produits

2.1 Méthodes statistiques prédictives

Plusieurs méthodes d’analyse de données basées sur des notions de statistique prévisionnelle ont été développées au cours des dernières décennies [57,74–76]. Parmi ces méthodes statistiques prédictives, les méthodes dites d’apprentissage supervisé sont les plus utilisées dans le cadre de la modélisation de propriétés physico-chimiques de produits pétroliers. Nous rappelons ci-dessous la méthodologie de l’apprentissage statistique supervisé.

2.1.1 Méthodologie de l’apprentissage statistique supervisé

L’apprentissage statistique concerne la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine (au sens large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou problématiques par des moyens algorithmiques plus classiques [57]. Elle traite du problème de la recherche d’une fonction prédictive basée sur des données. L’objectif général de l’apprentissage statistique est la modélisation qui peut se préciser en sous-objectifs à définir clairement préalablement à une étude car ceux-ci conditionnent en grande partie les méthodes qui pourront être mises en œuvre [74] :

36 x modéliser pour expliquer l’influence d’une variable ou facteur dans un modèle supposé connu

a priori ;

x modéliser pour prévoir et sélectionner un meilleur ensemble de prédicteurs ; x modéliser juste pour prévoir.

Il existe deux grands groupes de méthodes d’apprentissage selon la présence ou non d’une variable ܻ à expliquer [57,74] :

1. l’apprentissage supervisé qui consiste à trouver une fonction ݂ susceptible d’approcher « au mieux » ܻ

2. l’apprentissage non-supervisé où l’objectif et généralement la recherche d’une typologie ou taxinomie des observations.

L’apprentissage statistique supervisé consiste généralement en six étapes décrites ci-dessous [57,74] : 1. Constitution de la base de données (collecte et analyse d’échantillons)

2. Exploration des données pour la détection de valeurs aberrantes ou atypiques, d’incohérences, pour l’étude des distributions, des structures de corrélation, recherche de typologies, transformations de données, etc.

3. Partition des données en trois bases (base d’apprentissage, base de validation et base de test) 4. Etape dite d’apprentissage ou de calibration qui consiste à estimer le modèle pour une valeur

donnée d’un paramètre (ou de plusieurs) de complexité : nombre de variables, paramètres de seuillage, etc.

5. Etape de validation (si nécessaire) qui consiste à fixer au mieux ce(s) paramètre(s) suivant un critère prédéfini. Les étapes 4 et 5 sont répétées autant de fois que nécessaire.

6. Etape de test qui permet de juger de la qualité du modèle obtenu à l’issue des étapes 1 et 2. Suivant le modèle considéré, l’étape de validation n’est pas toujours requise. Par ailleurs, lorsqu’on dispose d’une base de données limitée les étapes d’apprentissage et de validation peuvent être confondues. Dans ce cas, on utilise des méthodes dites de « validation croisée ». Ces différentes étapes de l’apprentissage statistique sont indispensables pour s’assurer de la qualité d’un modèle prédictif. Les méthodes d’apprentissage statistique supervisé peuvent être classées en deux groupes [57] :

1. Les méthodes d’apprentissage paramétrique et semi-paramétrique 2. Les méthodes d’apprentissage non paramétrique

Nous nous limitons ici au cas des modèles de régression, c’est-à-dire que la variable à modéliser est quantitative.

2.1.1.1 Méthodes d’apprentissage paramétrique

Le principe des méthodes d’apprentissage paramétrique est d’approcher au mieux la variable réponse ݕ par une fonction mathématique dont la forme analytique est prédéfinie. Notons ݂ cette fonction. On appelle modèle de régression paramétrique toute équation de la forme [57] :

37

࢟ ൌ ࢌሺ࢞ǡ ࣂሻ ൅ ࢿ (Eq.1. 1)

où ߠ désigne l’ensemble des paramètres intrinsèques associés à l’expression analytique de ݂ et ߝ représente l’erreur de modélisation incluant le bruit sur la mesure de référence. Il existe deux types de modèle de régression suivant la forme de la fonction ݂ un modèle est dit linéaire (au sens général) si ݂ peut s’écrire comme une combinaison linéaire des composantes de ߠ (fonctions affines, polynômes,

etc.) ; sinon on parle de modèles non linéaires (cinétiques, thermodynamiques, etc.) [57]. Ces méthodes,

particulièrement simples à implémenter ont toutefois certaines limites : d’abord, la forme analytique de la fonction de modélisation influe fortement sur la qualité du modèle ; ensuite, les méthodes classiques d’estimation des paramètres ne sont en général valables que lorsque le nombre d’observations est supérieur au nombre de variables explicatives (condition qui n’est pas toujours vérifiée en chimiométrie).

2.1.1.2 Méthodes de régression multivariée ou chimiométriques

Les méthodes de régression multivariées permettent de surmonter les difficultés liées à la dimension de l’espace d’étude. Elles sont basées sur la notion de réduction d’espace qui consiste à substituer les variables explicatives initiales à de nouveaux facteurs en leur appliquant une transformation de sorte que le nombre ݎ de nouveaux facteurs soit inférieur au nombre d’observations ݊. La construction des facteurs de substitution se fait de manière itérative. L’objectif est de conserver le maximum d’information essentielle (au sens statistique). Les méthodes les plus souvent utilisées sont les méthodes de régression sur composantes orthogonales qui consistent à substituer aux variables initiales des facteurs deux à deux orthogonaux entre eux et qui sont des combinaisons linéaires des variables initiales. C’est le cas notamment de la PCR (Principal Components Regression) [57,74] et de la régression PLS (Partial Least Squares) [52,53].

2.1.1.3 Méthodes d’apprentissage non paramétrique

En l’absence de toute hypothèse sur la fonction de modélisation (contrairement au cas de l’apprentissage paramétrique) on parle de méthodes d’apprentissage non paramétrique. Certaines d’entre elles consistent à estimer la fonction de modélisation par une somme de fonctions élémentaires qui constituent une base de l’espace d’étude (estimation par des polynômes par morceaux, estimation sur des bases de splines, estimation par noyaux, estimation par polynômes locaux, estimation par projection sur des bases orthonormées, etc.) [57,74]. D’autres méthodes d’apprentissage non paramétrique plus sophistiquées sont de plus en plus préconisées pour la modélisation de propriétés complexes. C’est le cas des réseaux de neurones [77] ou des machines à vecteurs supports [78,79].

L’apprentissage non paramétrique offre plus de flexibilité que l’apprentissage paramétrique puisqu’il permet une adaptation automatique à des situations diverses (linéarité, non linéarité, irrégularité, etc). Les méthodes d’apprentissage non paramétrique sont cependant plus longues à implémenter et dans le cas de l’apprentissage automatique, elles requièrent une base de données

38 significative pour assurer la qualité du modèle. Les modèles obtenus sont par ailleurs difficiles à interpréter, ce qui explique sans doute pourquoi elles sont encore relativement peu utilisées en chimiométrie.

2.1.2 Qualité d’un modèle prédictif

Les performances d’un modèle prédictif s’évaluent par la qualité de ses prévisions. Cette dernière est caractérisée à la fois par la précision, c’est-à-dire la capacité du modèle à approcher les données d’apprentissage, et par la consistance ou capacité de généralisation à un ensemble de données distinctes des données d’apprentissage [57]. De nombreuses statistiques ont été définies dans la littérature pour évaluer ces critères [46] :

x La RMSE (Root Mean Square Error) qui désigne l’écart-type empirique des erreurs de prévision,

x La MAD (Mean Absolute Deviation) qui désigne l’écart absolu moyen entre la valeur mesurée et la valeur prédite,

x Le R2 qui mesure la corrélation entre les valeurs mesurées et les valeurs prédites

correspondantes.

Par la suite nous parlerons de RMSEC lorsque la RMSE sera estimée sur la base d’apprentissage et de RMSEP si elle est estimée sur une base de test.

Dans ce paragraphe nous avons rappelé certaines notions essentielles concernant le développement d’un modèle prédictif. Cela a pour but de faciliter la discussion sur les études qui ont été menées autour de la compréhension moléculaire et de la modélisation du PT de la coupe gazole et du VI de la coupe huile.

2.2 Compréhension moléculaire et prédiction des propriétés à froid dans les

Documents relatifs