• Aucun résultat trouvé

2.3 Tests par simulation de la capacité d’apprentissage de l’outil d’appren-

2.3.3 Ajustement des paramètres et calcul de la précision du modèle . 90

Nous avons ajusté les paramètres du modèle sur la base d’apprentissage et nous avons ensuite testé la qualité du modèle obtenu en calculant l’erreur associée à ce modèle sur la base de test.

Ajustement de ωd et fd

Afin de pouvoir réaliser plusieurs ajustements nous avons réalisé un échantillon-nage de la base d’apprentissage. En effet, avant chaque ajustement nous avons sé-lectionné 20 courbes au hasard parmi les 30 de la base d’apprentissage et nous avons

2.3. Tests par simulation de la capacité d’apprentissage de l’outil d’apprentissage statistique modélisant un phénomène de croissance

FIGURE 2.17 – La régression de Nadaraya-Watson reliant fdOpt et udOpt.

ajusté les paramètres sur ces 20 courbes sélectionnées. En procédant ainsi, nous avons réalisé 30 ajustements sur 20 courbes sélectionnées au hasard.

Pour déterminer les valeurs de ωd, rd, fd et ud, nous avons ajusté ωd et fd sur les courbes de la base d’apprentissage sélectionnées et nous en avons ensuite déduit les valeurs de rd et ud.

Pour ajuster la valeur des paramètres, nous avons utilisé l’algorithme d’optimisa-tion DIRECT permettant de trouver le couple pωd, fdq minimisant la fonction «objectif» donnée par l’équation (2.3.6).

fobjd, fdq “ RRSSpωd, fdq

n , (2.3.6)

où n est le nombre d’individus sur lesquels nous avons ajusté les paramètres ωd et fd. Á la fin des 30 ajustements nous avons obtenu 30 valeurs des paramètres ωd, rd, fd et ud. Nous avons calculé la moyenne et l’écart-type relatif (RSD) de chaque paramètre

(Table 2.6). Nous avons paramétré le modèle mathématique avec la valeur moyenne des paramètres et nous avons testé la précision de l’outil de prédiction basé sur ce modèle en comparant les courbes de la base d’apprentissage et les celles prédites (Figure 2.18). Pour cela nous avons calculé la valeur du coefficient de détermination (R2) du modèle obtenu sur la base d’apprentissage (Table 2.6). Nous avons remarqué que le coefficient R2 était élevé, ce qui montre que le modèle s’ajuste correctement aux courbes de la base d’apprentissage. Ce résultat est confirmé par la figure 2.18.

FIGURE 2.18 – Exemples de résultats obtenus concernant la concordance entre les courbes d’apprentissage (noire) et les prédictions fournies par le modèle (rouge). TABLE2.6 – Moyenne et écart-type relatif associés aux paramètres et au coefficient de détermination calculé sur la base d’apprentissage

P aramtre M oyenne RSD ωd 19.51 0.055 rd 61.29 0.080 fd 240.0 0.001 ud 561.4 0.007 Ld 1.71 0.011 AREp1q p%q 1.83 0.013

Validation de la qualité de l’outil de prédiction obtenu

Pour vérifier la qualité de l’outil de prédiction obtenu nous avons calculé sa préci-sion sur les données de la base de test. Pour cela nous avons calculé la valeur de l’indicateur RRSS et celle du coefficient de détermination associé à chaque courbe

2.3. Tests par simulation de la capacité d’apprentissage de l’outil d’apprentissage statistique modélisant un phénomène de croissance

de la base de test. Nous avons ensuite représenté la distribution de ces indicateurs (Figure 2.19).

La valeur du RRSS est faible et celle du coefficient de détermination est élevée (Table 2.7). Ces indicateurs confirment que le modèle est capable de simuler correcte-ment les courbes de la base de test.

De plus, nous avons également comparé les valeurs du R2 et du RRSS associées au modèle ajusté (R2

F itet RRSSF it) et celles associées au modèle "générateur" (R2 Gener

et RRSSGener), c’est-à-dire le modèle qui a été initialement utilisé pour générer la base de données fictives (Figure 2.19 et Table 2.7). La valeur du RRSSF it est faible et cette valeur est très proche de celle du RRSSGener. De même, les valeurs de R2

F it

et R2

Genersont très proches.

Les valeurs de RRSSF it et de R2

F it montrent que l’ajustement des paramètres s’est fait correctement. En effet, le modèle "générateur" peut être considéré comme le meilleur modèle pouvant être obtenu puisqu’il s’agit du modèle ayant généré les courbes de la base d’apprentissage et de test. La valeur de l’indicateur R2

Gener quantifie donc le bruit et la variabilité inter-individuelle que nous avons intégré dans les données. Le fait que les valeurs de R2

F itet R2

Gener et les valeurs de RRSSF it et RRSSGener soient très proches montre que l’erreur de l’outil de prédiction ajusté se limite à la quantité de bruit et aux différences inter-individuelles intégrées initialement dans la base de don-nées générée. Les paramètres du modèle ont donc été ajustés correctement et l’outil obtenu présente une capacité de prédiction très satisfaisante.

FIGURE 2.19 – Distributions des valeurs des indicateurs RRSS et R2 associées au modèle "générateur" et au modèle ajusté.

teur" et au modèle ajusté.

RRSS R2

Modèle "générateur" 1082 0.9887

Modèle ajusté 1119 0.9886

Identifiabilité du modèle

Daprès PERASSO (2009) et WALTER (2014), l’identifiabilité d’un modèle paramé-trique correspond à la capacité de ce modèle à apprendre un set de paramètres ini-tialement inconnus, à partir de données. L’identifiabilité suppose donc que les valeurs de ces paramètres appris soient stables au cours de différents ajustements sur des données similaires.

La méthode d’échantillonnage nous a permis de réaliser 30 ajustements sur des données similaires. Nous avons donc obtenu 30 valeurs des paramètres ωd, rd, fdet ud. Pour chacun de ces paramètres, leur valeur moyenne et leur écart-type relatif ont été calculés (Table 2.6).

L’écart-type relatif associé à chaque paramètre est faible. Cela montre que les va-leurs des paramètres ajustées sont stables au cours des différents ajustements. La méthode d’apprentissage développée assure donc l’identification d’un set de valeurs de paramètres que l’on peut considérer comme unique.

La structure du modèle construit et la méthode d’apprentissage utilisée assurent donc bien l’identifiabilité de notre outil d’apprentissage statistique biomimétique.

2.3.4 Étude de la robustesse du modèle et de l’impact de la

pré-sence de bruit dans les données d’apprentissage

Une étude de la robustesse du modèle et de l’impact de la présence de bruit dans les données a été réalisée. L’objectif de cette étude a été de vérifier la capacité de l’ou-til construit à apprendre la valeur des paramètres du modèle quelle que soit la quantité de bruit présent dans les données d’apprentissage.

2.3. Tests par simulation de la capacité d’apprentissage de l’outil d’apprentissage statistique modélisant un phénomène de croissance

Génération de six bases de données fictives

Pour réaliser cette étude de robustesse nous avons utilisé la base de données gé-nérée présentée dans la section 2.3.1, mais nous avons également généré 5 autres bases de données fictives dans lesquelles a été intégré une quantité de bruit plus ou moins importante. Ces 5 autres bases de données fictives ont été générées en appli-quant les mêmes lois de probabilités aux paramètres ωd, rd, fd et ud et aux données d’entrée, V olQ et ct (Voir la table 5.2). Seule la variance du bruit gaussien ajouté aux données varie selon les bases de données. Comme indiqué dans la table 5.2, selon les bases de données générées nous avons ajouté aux courbes un bruit dont la variance varie entre 0.05 et 1.

TABLE 2.8 – Les différentes quantités de bruit intégrée dans les 6 bases de données générées

Base de données Loi associée au bruit

générée gaussien ajouté

Base nˇr1 N p0, 0.05q Base nˇr2 N p0, 0.075q Base nˇr3 N p0, 0.1q Base nˇr4 N p0, 0.125q Base nˇr5 N p0, 0.15q Base nˇr6 N p0, 1q

Comme dans la section 2.3.1, à partir des lois de probabilité appliquées nous gé-nérons pour chacune des 6 bases de données, 50 valeurs de ωd, rd, fd, ud, V olQ et

ct. Nous générons ensuite à partir de ces paramètres et de ces données d’entrée, 50 courbes de sortie. La figure 2.20 montre des exemples de courbes bruitées contenues dans les différentes bases de données fictives.

Comme précédemment, nous divisons ensuite chaque base de données en deux jeux de données : Nous avons constitué des bases d’apprentissage composées de 30 courbes et des bases de test constituées de 20 courbes.

Etude de la robustesse de l’outil construit en fonction de la variance du bruit présent dans les données

En utilisant les 6 bases de données générées, nous avons étudié la robustesse de notre outil d’apprentissage statistique en fonction de la variance du bruit ajouté.

FIGURE 2.20 – Exemples de courbes bruitées contenues dans les différentes bases de données fictives nˇr1, nˇr2, nˇr3, nˇr4, nˇr5 et nˇr6.

Cette étude a consisté à ajuster les paramètres du modèle mathématique sur les 6 bases de données d’apprentissage. L’objectif a ensuite été de calculer le coefficient R2

sur la base d’apprentissage et sur la base de test et ensuite de comparer les valeurs du R2 associées aux 6 modèles ajustés et celles du R2 associées aux modèles "géné-rateurs".

Comme dans la section 2.3.2, avant d’ajuster les paramètres, il nous faut établir les relations existantes entre ωd et rd, et entre fd et ud. Ces deux relations doivent être établies sur les 6 bases de données générées.

En procédant comme dans la section 2.3.2, pour chaque base de données fic-tives nous obtenons des relations non paramétriques reliant ces deux couples de pa-ramètres (Figure 2.21). Nous intégrons ces relations dans les modèles appliqués à chaque base de données.

En appliquant la même méthodologie que celle présentée dans la section 2.3.3, nous ajustons les paramètres du modèle sur chaque base de données fictives.

2.3. Tests par simulation de la capacité d’apprentissage de l’outil d’apprentissage statistique modélisant un phénomène de croissance

FIGURE2.21 – Les relations non paramétriques reliant ωd et rd (Haut), et fd et ud (Bas) établies sur les nouvelles bases de données générées, numérotées de 2 à 6.

Á la fin du processus d’apprentissage nous obtenons les valeurs moyennes des paramètres ωd, rd, fd et ud associées à chaque base de données. Nous paramétrons les 6 modèles avec ces valeurs moyennes et pour chaque modèle nous calculons la valeur du R2 sur la base d’apprentissage. Nous avons obtenu la table 2.9.

TABLE 2.9 – La valeur des paramètres ajustés sur chaque base de données fictive Base nˇr1 Base nˇr2 Base nˇr3 Base nˇr4 Base nˇr5 Base nˇr6

ωd 11.3 10.3 10.0 10.0 10.2 9.6

rd 44.1 38.0 35.3 35.8 36.9 33.7

fd 742.2 669.3 711.6 735.1 709.3 728.9

ud 116.3 116.4 142.1 132.0 148.6 95.0

R2 0.89 0.83 0.79 0.75 0.69 0.1

Afin d’estimer la robustesse de l’outil construit nous avons calculé pour chaque modèle ajusté sur chaque base de données générée, la valeur du R2 sur la base de test. Sur les 6 bases de test, nous avons également calculé la valeur du R2associé aux six modèles "générateurs", c’est-à-dire les modèles ayant servi initialement à générer les six bases de données sur chaque base de test. Nous avons calculé la différence entre les valeurs de R2 obtenues pour le modèle ajusté et le modèle "générateur" de

cette base. Nous avons obtenu la table 2.10.

TABLE 2.10 – Les valeurs de R2 associées aux modèles ajustés et aux modèles "gé-nérateurs", calculées sur les 6 bases de données fictives et les mesures de l’écart existant entre ces modèles.

Base nˇr1 Base nˇr2 Base nˇr3 Base nˇr4 Base nˇr5 Base nˇr6

Modèle ajusté 0.9050 0.8112 0.7736 0.7404 0.6713 0.0539

Modèle 0.9051 0.8114 0.7736 0.7404 0.6715 0.0539

"générateur"

Différence 0.0001 0.0002 0.0000 0.0000 0.0001 0.0000

La table 2.10 et la figure 2.22 montrent que la différence entre la valeur du R2

associée au modèle ajusté et celle du R2 associée au modèle "générateur" est très faible quelle que soit la quantité de bruit ajouté. Cela montre que l’outil d’apprentissage statistique biomimétique est capable d’apprendre la valeur des paramètres du modèle malgré une quantité de bruit dans les données qui est parfois très élevée.

FIGURE 2.22 – Différence entre les valeurs de R2 obtenues pour les modèles ajustés et les modèles "générateurs" (10´3

q.

Cette étude a donc permis de mettre en évidence la robustesse du modèle en termes de capacité d’apprentissage, malgré la présence de bruit dans les données.

2.4. Tests par simulation de la capacité d’apprentissage des autres versions du modèle "A" :