• Aucun résultat trouvé

Apprentissage par transfert de connaissances

Ces dernières années, l’utilisation des réseaux profonds d’apprentissage a explosé dans beaucoup de domaines. Cependant obtenir de bonnes performances avec ces systèmes a un prix. Ils requièrent beaucoup de données pour leur apprentissage ainsi que des ressources de calculs puissantes. Lorsqu’une nouvelle étude commence et nécessite la mise en place d’un nouveau réseau profond, il est impératif de prendre le temps de réfléchir à ces besoins. Le manque de données pour ce type d’apprentissage est un véritable frein. La constitution d’une nouvelle base pour répondre à cela est souvent très couteuse en temps pour collecter et annoter, ce qui est parfois impossible à réaliser. Un autre point est le cadre d’apprentissage de ces réseaux. Ils fonctionnent sur des données d’apprentissage et de test partageant des caractéristiques et provenant d’un même ensemble de données qui a été partitionné. Si les données de tests proviennent d’un autre ensemble, il faut réaliser un nouvel apprentissage afin d’obtenir un système dédié. La solution émergente couvrant ces difficultés est le transfer learning autrement appelé en français apprentissage par transfert de connaissances.

2.4.1 Définition de l’apprentissage par transfert de connaissances

L’apprentissage par transfert de connaissances consiste à entraîner un modèle pour une tâche pour ensuite l’appliquer pour une autre tâche liée. Le but est d’optimiser le modèle pour tendre vers une généralisation de ce dernier en utilisant des données et informations provenant d’un autre contexte. En répondant aux questions suivantes : quelle connaissance transférer ?, comment la transférer ? et quand la transférer ?, cela permet de différencier plusieurs formes de l’apprentissage par transfert de connaissances selon la disponibilité des données d’apprentissage et de test, ainsi que le domaine d’application.

Apprentissage par transfert inductif s’opère pour une tâche source différente de la tâche cible, mais liée, le domaine d’application qu’il soit différent ou identique dans cette configuration importe peu. Dans le cadre où il y a beaucoup de données annotées sources, nous parlons d’une configuration d’apprentissage multi-tâches dans laquelle les tâches sources et cibles sont apprises simultanément. Par opposition, une configuration d’apprentissage autodidacte doit réaliser l’apprentissage sans avoir de données sources. Apprentissage par transfert transductif s’opère pour une tâche source et cible

qui est identique, mais de domaines différents. Autrement dit, lorsqu’il n’existe pas de données cibles déjà annotées pour réaliser l’apprentissage mais que d’autres données sources de domaines différents sont disponibles. Suivant les applications, il faudra faire attention à l’espace des caractéristiques extraites entre les différents domaines sources et cibles.

Apprentissage par transfert non supervisé s’opère à travers des tâches et des domaines différents, mais liés. Il est principalement utilisé pour résoudre des tâches d’apprentissage non supervisé dans un domaine cible particulier.

2.4.2 Principales approches

Il existe différentes méthodes pour pouvoir réaliser un apprentissage par transfert de connaissances. Nous listons ici les plus courantes :

Transfert de modèle consiste pour une tâche donnée cible à créer un modèle pour une tâche connexe ayant des données annotées et disponibles. Une fois que le modèle a été entrainé, il est possible de l’utiliser partiellement ou totalement comme point de départ pour la tâche cible d’origine.

Transfert d’instance consiste à ré-utiliser des données provenant de l’appren- tissage dans le domaine source pour l’apprentissage du domaine cible avec l’aide d’une re-pondération des poids du réseau.

Transfert de connaissances relationnelles consiste à rechercher les relations au sein des données du domaine source pour les appliquer dans celles du domaine cible.

Transfert de représentation des caractéristiques consiste à apprendre une “bon- ne” représentation automatiquement des caractéristiques sur les données du domaine source, et qui devrait obtenir des résultats similaires sur les données du domaine cible. Pour ce faire, il est d’usage de travailler avec des modèles déjà pré-entrainés en sélectionnant certaines couches particulières du réseau. Dans ce type d’approche, les poids optimisés du réseau pré-entrainé peuvent être fixés pour ne pas être altéré lors de l’apprentissage éventuel du nouveau réseau ou bien ajustés avec un très faible taux d’apprentissage pour ne pas désapprendre les connaissances acquises précédemment. Une autre solution de plus en plus mise en œuvre est la réalisation de système auto-encodeurs à convolution par exemple, qui lors de son apprentissage va avoir pour objectif dans un premier temps de reproduire la séquence d’entrée. Cette approche permet de fournir des caractéristiques généralistes et qui ne change pas avec le domaine. Globalement, le transfert de caractéristiques est très utilisé en traitement du langage avec lesWord Embedding ou modèles de plongement de mots ainsi qu’en traitement d’images.

Transfert de paramètres consiste à apprendre des poids partagés ou des hyper- paramètres pour les tâches sources et cibles. Il est également possible d’utili- ser des modèles pré-entrainés cette fois-ci. Mais en les utilisant pour initialiser le nouveau réseau dédié à la tâche cible, et de continuer l’apprentissage de l’ensemble du nouveau modèle.

2.4.3 Domaines d’applications et adaptations

L’apprentissage par transfert de connaissances est utilisé depuis quelques années et a montré de bonnes performances dans différents domaines. Que ce soit dans les domaines liés au traitement du langage ou en Vision Object, le nombre de modèles neuronaux entrainés, présentant de bonnes performances et disponibles, a explosé.

Dans le domaine du traitement de l’image, une pratique courante est d’utiliser les réseaux pré-entraînés en classification d’images sur les images d’ImageNet qui ont montré de bons résultats comme Alexnet, VGG ou encore GoogleNet sur d’autres tâches (Oquab et al. 2014; Donahue et al. 2014; Sun et al. 2015; Hu et al. 2015a). Souvent les données annotées ne correspondent pas aux données cibles à traiter. Par exemple, les images annotés d’objets isolés sur un fond uniforme sont disponibles mais les études portent sur la composition d’images où il y a plusieurs objets et du bruit. La modèle va être capable de contourner ces différences.

Il en est de même en traitement du langage où l’utilisation des modèles de plongement est devenue récurrente ces dernières années. Certaines études comme (Conneau et al.2017) expérimentent directement des modèles universels pour les appliquer à douze tâches différentes, dont la détection automatique de paraphrase ou la recherche d’image. Il est plus difficile en traitement du langage d’opérer de l’adaptation suivant la tâche cible. Par exemple, si l’étude porte sur des tweets, il peut être difficile d’utiliser des modèles pré-entraînés sur des informations journalistiques ou wikipédia. Dans d’autres études par contre comme l’analyse de commentaires cela est plus facile car le vocabulaire d’opinion reste sensiblement le même en dehors des différents termes se référant à l’objet de l’étude changent. Pour finir sur le traitement du langage, comme nous l’avons déjà évoqué le word embedding est très large étudié et utilisé en apprentissage par transfert de connais- sances cependant nous pouvons mentionner une des principales difficultés qui est le domaine d’application. Si ce dernier est très spécifique, il se peut qu’un large corpus, généraliste ne contient pas assez de termes liés à ce domaine.

Dans (Lladós et al. 2012), les auteurs étudient le problème de détection automatique de mots, appelé word spotting, pour des documents historiques. Ils s’orientent dans cette démarche, car elle semble moins coûteuse pour pallier une absence de données pour l’apprentissage. De plus, toujours selon les auteurs, l’utilisation d’un ensemble de données non dédié pour faire de la reconnaissance d’écriture est déconseillée car il peut y avoir plusieurs problèmes causés par des différences significatives en termes de période et de zone géographique, qui affectent souvent le style de l’écriture.

La recherche d’un ensemble de données d’apprentissage répondant aux carac- téristiques spécifiques souhaitées pour la détection automatique de mots clés ou la reconnaissance d’écriture manuscrite est une tâche complexe. Il existe d’autres études qui tentent d’utiliser sur des documents historiques des systèmes appris sur des documents anciens. Dans le cadre de la détection automatique de mots (Keyword Spotting), les auteurs (Frinken et al. 2010) mélangent différentes res-

sources principalement contemporaines pour transcrire une ressource historique qui a peu de données, en faisant attention au vocabulaire utilisé dans les ressources d’apprentissage et de test, en d’autres termes, ils réalisent un apprentissage par transfert de connaissances.