• Aucun résultat trouvé

Couche cachée

C1 E LABORATION D ’ UN RESEAU DE NEURONES ADAPTE AUX DONNEES

a) les données

Dans le cadre de cette expérience, nous utilisons la matrice de données élaborées pour l’approche bayésienne (chapitre V) dans laquelle la symphyse pubienne et surface sacro- pelvienne iliaque sont combinées. Nous justifions ce choix pour les raisons suivantes :

! un perceptron multi-couches nécessite un échantillon important, l’effectif des matrices des quatrièmes côtes ou combinant les quatrièmes côtes à d’autres indicateurs n’est pas suffisant,

! l’étude réalisée avec l’approche bayésienne montre que la combinaison de la symphyse pubienne et de la surface sacro-pelvienne iliaque donne de bons résultats.

L’échantillon de départ était composé de 677 spécimens dont 46 possèdent des valeurs manquantes, qui ont été retirés de l’étude. Nous avons donc utilisé 631 spécimens.

Tableau VI.1: effectif par échantillons Tableau VI.2 :effectif par classes

b) le codage des données

Avant de fabriquer et d’utiliser un perceptron multi-couches, il faut coder les informations brutes, que ce soit le score des observations ou les classes d’âge. Nous avons testé 3 systèmes de codage:

classe d'âge effectif

20-29 89 30-39 86 40-49 101 50-59 112 >60 243 total 631 échantillons homme femme

Portugal 64 73

Angleterre 79 95

Suisse 27 19

Espagne 33 34

Etats Unis (orig eur) 41 44 Etats Unis (orig afri) 83 85

! le codage par catégorie : une valeur pour chaque dimension, 1 parmi n,

! le codage binaire : on assigne arbitrairement à chaque valeur possible par numéro d’ordre que l’on transcrit en format binaire,

! le codage gray : dans ce système, on considère que les informations proches ont un codage proche.

Toutes les informations, c’est à dire les caractères morphologiques et les classes d’âge doivent subir ce codage. Prenons, à titre d’exemple, celui des classes d’âge :

Tableau VI 3 : codage des classes d’âge selon les 3 codages possibles

c) paramètre du réseau

La taille de la couche d’entrée dépend de la stratégie de codage sélectionnée. Le perceptron possède une couche cachée composée de 9 neurones cachés et un neurone de sortie. Il a été entraîné sur 15 000 itérations avec un taux d’apprentissage (η=0.25) et un terme d’inertie de (α=0.8).

Classe d’âge catégorie binaire gray

20-29 0 1 0 0 0 0 0 0 1 0 0 1

30-39 0 0 1 0 0 0 0 1 0 0 1 1

40-49 0 0 0 1 0 0 0 1 1 0 1 0

50-59 0 0 0 0 1 0 1 0 0 1 1 0

d) deux stratégies d’apprentissage : avec ou sans échantillon de contrôle

Pour éviter le sur-apprentissage, nous avons montré qu’il faut un échantillon de contrôle qui n’intervienne pas dans l’apprentissage. Nous avons opté pour deux méthodes

d’apprentissage :

! le perceptron a été entraîné avec tous les couples des données sans échantillon de contrôle,

! l’échantillon a été divisé de façon aléatoire en échantillon d’apprentissage et en échantillon de contrôle (315 et 316 couples d’informations respectivement).

Synthèse

Le réseau de neurones a été construit :

• avec deux stratégies d’apprentissage différentes, avec ou sans échantillon de contrôle,

• selon 3 codages différents,

• et avec deux traitements différents de l’erreur.

C2 - RESULTATS

a) première simulation : les classes d’âge en sortie

La première expérience a consisté à utiliser les classes d’âge comme sortie désirée. Quel que soit le système de codage utilisé, nous avons été confrontés à un problème pour décoder les sorties proposées. Avec le codage en catégorie, nous obtenons des résultats du type 0.8 0.1 0.1. Nous avons deux possibilités, soit nous traitons l’information par seuil, soit par probabilité. Nous considérons que 0.8 est proche de 1 et que 0.1 est proche de 0, le résultat est donc 1 0 0. Si nous traitons la sortie en terme de probabilités, la probabilité que la classe soit 1 0 0, est de 0.8, que la classe soit 0 1 0 est de 0.1

Si le codage est binaire, le calcul des probabilités diffère. Il y a la probabilité que la cellule i soit active, pi, et la probabilité que la cellule soit inactive, 1-pi. Pour une sortie de la forme

ayant pour valeur, 0.8 0.2, la probabilité que la classe soit : ! 1 0 est de 0.64 = 0.8 *(1-0.2) ,

! 1 1 est de 0.16 = 0.8*0.2, ! 0 1est de 0.04 = (1-0.8)*0.2, ! 0 0 est de 0.16 = (1-0.8) * (1-0.2).

Pour une majorité de spécimens, nous avons obtenu des sorties du type 0.5 0.6, il est donc dans ce cas impossible de calculer des probabilités puisque la somme n’est pas égale à 1.

b) deuxième simulation : âge réel en sortie

Cette fois, la sortie désirée n’est plus une classe d’âge, mais l’âge en valeur continue. De cette façon, le réseau donne une réponse sous forme d’âge estimé, il n’est pas nécessaire de décoder l’information. Pour retrouver le système de classification, l’âge estimé est ensuite attribué à la classe d’âge à laquelle il appartient.

Les erreurs inhérentes à chaque système de codage

Comme nous le voyons sur les figures VI.6, VI.7 et VI.8, ce sont les systèmes pour lesquels l’erreur est calculée par le système Batch qui montre le moins de différences entre l’échantillon de contrôle et l’échantillon de l’apprentissage.

nombre d’itérations

nombre d’itérations

Figure VI.7 : graphique représentant l’erreur selon le codage binaire

nombre d’itérations

L’erreur (MSE = mean square error) est de .02 +/- .003 pour l’échantillon d’apprentissage et .04 +/- .005 pour l’échantillon de contrôle. Il faut garder en mémoire que la fonction que nous utilisons ramène les âges dans un intervalle de 0-1. L’erreur est donc calculée dans cet intervalle. La valeur moyenne cible est de l’ordre de 0.5, l’erreur réelle n’est pas de 2% mais de 4 % pour l’échantillon d’apprentissage et de 8 % pour l’échantillon de contrôle.

Résultat de la classification

Les résultats sont donnés sous forme de matrice de confusion avec l’indication des taux globaux, des taux a priori et des taux a posteriori.

Les matrices de confusion sont présentées dans l’annexe 3 (tableau AVI.1 à AVI.6). Seuls les taux sont présentés ici. Ces taux nous ont permis de savoir quel système de codage et quel système de gestion de l’erreur sont les plus appropriés.

Nous avons surtout analysé les résultats de l’échantillon de contrôle.

Tableau VI 4: taux global sur l’échantillon de contrôle

Si l’on regarde les taux globaux sur l’échantillon de contrôle (tableau VI4), l’apprentissage Batch est meilleur que l’apprentissage OnLine et le codage binaire donne le plus mauvais résultat. Mais cette tendance s’inverse si on considère l’échantillon d’apprentissage complet (tableau VI.5).

Tableau VI 5: taux global sur l’échantillon d’apprentissage total

Si on regarde les taux a priori et a posteriori (tableaux VI 6 et 7), on obtient une image complètement différente du réseau. L’apprentissage Batch n’identifie pas de façon satisfaisante les individus jeunes mais est performant pour les plus de 60 ans. Le mode On

stratégie d'apprentissage

catégorie binaire gray

Batch 46 43 42

OnLine 40 43 46

stratégie de codage

stratégie d'apprentissage

catégorie binaire gray

Batch 48 45 45

OnLine 55 54 56

Line a de bonnes performances pour les classes extrêmes mais pas pour les classes intermédiaires. Les taux a posteriori reflètent les mêmes tendances.

Le codage gray est plus performant pour les catégories extrêmes que les autres codages. Cela est surprenant car il n’y a pas d’ordre pour les valeurs et il diffère du codage binaire uniquement pour les caractères possédant plus de 2 modalités.

Tableau VI 6 : taux a priori sur l’échantillon de contrôle

Tableau VI 7 : taux a posteriori sur l’échantillon de contrôle

Comme les taux globaux sont faibles : quel que soit le système de codage, il y a 50% d’erreurs, à cause d’une mauvaise classification des classes intermédiaires, nous avons fait une tentative en regroupant des classes d’âge.

Résultat en groupant les classes intermédiaires : 20-29 ; 30-59, >60

Tableau VI 8 : taux global sur échantillon de contrôle sur 3 classes d’âge

stratégie d'apprentissage codage 20-29 30-39 40-49 50-59 >60

Batch catégorie 42 23 34 38 64 OnLine catégorie 47 31 27 29 52 Batch binaire 36 16 39 49 53 OnLine binaire 50 28 28 21 62 Batch gray 0 40 32 29 67 OnLine gray 52 14 37 18 72

stratégie d'apprentissage codage 20-29 30-39 40-49 50-59 >60

Batch catégorie 90 29 25 25 74 OnLine catégorie 72 31 24 19 62 Batch binaire 80 25 23 29 77 OnLine binaire 59 32 25 20 60 Batch gray 0 29 24 27 66 OnLine gray 61 26 28 19 64 stratégie d'apprentissage

catégorie binaire gray

Batch 67 67 59

OnLine 58 62 63

Tableau VI 9: taux a priori sur l’échantillon de contrôle sur 3 classes d’âge

Tableau VI 10: taux a posteriori sur l’échantillon de contrôle sur 3 classes d’âge

Si l’on compare les taux globaux selon le système de codage (tableaux VI 8), c’est le codage binaire qui donne la meilleure performance avec le système Batch. Les tableaux VI 9 et VI 10 montrent les taux a priori et a posteriori. Selon le codage binaire en mode Batch, il y a 83 % de bonnes classifications dans la classe 20-29, 60% dans la classe 32-59 et 77% dans la catégorie «>60».

C3 - CONCLUSION

L’expérience que nous avons menée montre que la fabrication d’un réseau de neurones est un ajustement de nombreux paramètres sur lesquels nous pouvons encore travailler. Cependant, cette première étape de l’utilisation des réseaux de neurones artificiels pour estimer l’âge au décès des adultes, donne des résultats intéressants. Nous avons montré que la simulation avec une classe d’âge en sortie désirée s’est avérée inappropriée, et que le choix de l’âge réel en sortie est beaucoup plus pertinent. Les classes intermédiaires sont très mal discriminées, il faut procéder à un regroupement de ces classes pour obtenir une classification acceptable. Toutefois, la reconnaissance des classes extrêmes, c’est à dire, les individus jeunes et les individus les plus âgés s’avère performante.

stratégie d'apprentissage codage 20-29 30-59 >60

Batch catégorie 41 77 66 OnLine catégorie 47 66 54 Batch binaire 43 81 61 OnLine binaire 54 55 71 Batch gray 0 68 72 OnLine gray 55 58 71

stratégie d'apprentissage codage 20-29 30-59 >60

Batch catégorie 83 61 74 OnLine catégorie 63 55 63 Batch binaire 83 60 77 OnLine binaire 58 59 65 Batch gray 0 54 66 OnLine gray 62 60 66