Limitations et défis de l’apprentissage automatique

5.4.1 Sous-apprentissage et sur-apprentissage

Le défi principal des méthodes d’apprentissage automatique consiste à avoir une bonne performance sur des données non utilisées pour l’entraînement. Cette capacité est appelée généralisation et c’est ce qui fait la différence par rapport à un algorithme d’optimisation. En effet, en optimisation, nous avons accès à un ensemble de données d’apprentissage sur lequel nous calculons l’erreur d’apprentissage et la réduisons généralement d’une manière itérative. Par contre, en apprentissage automatique, nous nous attendons à avoir également une erreur faible sur un ensemble de données test inconnu par l’algorithme qu’on appelle erreur de généralisation. En somme, la performance d’un algorithme d’apprentissage automatique est évaluée par, d’une part, sa capacité à minimiser l’erreur d’entraînement et d’autre part sa capacité à minimiser aussi l’écart entre l’erreur d’entraînement et l’erreur de généralisation. Ces deux critères correspondent à deux limitations majeures de l’apprentissage automatique : le sous-apprentissage et le sur-apprentissage. Le sous-apprentissage correspond aux cas où le modèle

ne parvient pas à fournir une erreur d’apprentissage suffisamment faible alors que le sur-apprentissage correspond à la situation où l’écart entre

erreurs d’apprentissage et de généralisation est énorme. Pour remédier à ces limitations, l’état de l’art propose de modifier la capacité du modèle définie par son aptitude à s’adapter à une grande variété de fonctions. En effet, un modèle de faible capacité aura du mal à s’adapter aux données d’apprentissage et un modèle de haute capacité s’adaptera parfaitement aux données d’apprentissage au point d’avoir des difficultés pour s’adapter aux données test. Par exemple, pour augmenter la capacité d’un algorithme de

régression linéaire, on peut inclure dans l’espace de résolution les fonctions polynomiales. Dans la figure 5.6, on représente un exemple de régression linéaire, quadratique et polynomiale de degré 9. On observe qu’en limitant l’espace de résolution aux fonctions linéaires, le modèle ne peut pas capter la courbure de la représentation des données. Par contre, en étendant l’espace de résolution aux fonctions quadratiques, le modèle a une bonne capacité de généralisation. On ne détecte ni sous-apprentissage ni sur-apprentissage ce qui n’est pas le cas en augmentant encore le degré des fonctions polynomiales à 9 où on observe du sur-apprentissage. Les erreurs d’apprentissage et de

(A)Régression linéaire :

sous-apprentissage

(B)Régression

quadratique

(C) Régression degré 9 :

sur-apprentissage

Fig. 5.6. : Illustration des phénomènes de sous-apprentissage et sur-apprentissage en utilisant un exemple de régression. [Goo+16]

généralisation dépendent également de la taille des données d’apprentissage. Ceci ne veut pas dire qu’en augmentant la taille de l’ensemble d’apprentissage, l’erreur d’apprentissage diminuera forcément. En effet, cette dernière peut diminuer jusqu’à devenir asymptotique à la valeur d’erreur minimale qu’on peut atteindre en augmentant la capacité du modèle. Ceci est illustré dans la figure 5.7. On observe également que l’erreur de généralisation a une forme enU en fonction de la capacité ou complexité du modèle ce qui est en

corrélation avec le sous-apprentissage et le sur-apprentissage.

5.4.2 Détermination des hyper-paramètres

Les algorithmes d’apprentissage automatique ont tous un ensemble de paramètres qu’on utilise pour contrôler leur comportement. Ces paramètres

Fig. 5.7. : Variation des erreurs d’apprentissage et de généralisation en fonction de la capacité du modèle d’apprentissage. [Goo+16]

sont appelés hyper-paramètres. Contrairement aux paramètres des

algorithmes qui sont adaptés pendant la phase d’apprentissage, les hyper-paramètres sont en général fixés par l’utilisateur avant l’apprentissage. Par exemple, pour la régression polynomiale illustrée dans la figure 5.6, le degré du polynôme est un hyper-paramètre à fixer avant l’apprentissage qui quantifie entre autres la capacité du modèle. Faire apprendre les hyper-paramètres par le modèle d’apprentissage engendre du sur-apprentissage vu que ce dernier choisira la valeur qui s’adapte le plus aux données d’apprentissage. Les hyper-paramètres sont en général fixés par tâtonnements au bout de plusieurs essais et erreurs.

5.4.3 La malédiction de la dimensionnalité

De nombreux problèmes d’apprentissage automatique deviennent extrêmement compliqués à résoudre lorsque les données sont de très haute dimension. Ce phénomène est connu comme la malédiction de la dimensionnalité. Pour illustrer le problème, considérons que l’espace

d’entrée est organisé en grille, comme sur la figure 5.8. En petites dimensions, nous pouvons décrire cet espace avec un faible nombre de cellules de la grille qui sont principalement occupées par les données d’apprentissage. Si on généralise en utilisant un nouveau point de données, On peut généralement prédire le résultat en inspectant simplement les exemples d’apprentissage qui se trouvent dans la même cellule que la nouvelle

(A)1D (B)2D (C) 3D

Fig. 5.8. : Illustration de la malédiction de la dimensionnalité.

Source : https://www.livosphere.com/2017/10/23/ les-limites-de-l-intelligence-artificielle-et-des-solutions\ -pour-y-faire-face/.

donnée. Toutefois, en très haute dimension, il y aura des cellules non occupées par les données d’apprentissage. Ceci est dû au fait que le nombre de configurations est beaucoup plus grand que le nombre d’exemples d’apprentissage. De nombreux algorithmes d’apprentissage automatique traditionnels supposent simplement que la sortie à un nouveau point de donnée doit être approximativement la même que la sortie au point d’apprentissage le plus proche. Ici intervient le problème de sparsité des données en grande dimension. En effet, sur la figure 5.8, on observe qu’en augmentant la dimension les données deviennent de plus en plus clairsemées dans l’espace. Par suite, trouver le point d’apprentissage le plus proche peut donner de mauvaises prédictions. La solution est à priori d’augmenter la taille des données d’apprentissage pour couvrir le plus possible l’espace. Néanmoins, comme on a mentionné précédemment, maintes méthodes d’apprentissage automatique ont du mal avec les données volumineuses. Les réseaux de neurones artificiels représentent actuellement la meilleure solution pour contourner cette limite et bien d’autres des méthodes d’apprentissage automatique.

5.5 Apprentissage profond : réseaux de

Dans le document Méthodes numériques pour la résolution de problèmes inverses en électrocardiographie (Page 123-127)