• Aucun résultat trouvé

tion utilisé est basé sur un modèle de type «boîtes-noires». Mais comme nous l’avons vu dans la section 1.2.5, l’ajustement de ce type de modèles nécessite de disposer de beaucoup de données. Lorsque l’on souhaite réaliser de l’Assimilation de Données dans des contextes où l’on dispose de peu de données il est nécessaire d’avoir un outil capable de fournir des prédictions précises malgré un ajustement effectué préalable-ment sur peu de données. Si nous sommes dans un contexte dans lequel la collecte de données de qualité est difficile, il faudra également que cet outil soit robuste et qu’il fournisse des prédictions ne nécessitant pas de corrections trop fréquentes. Dans ce genre de contextes l’Assimilation de Données est donc plutôt dirigée par un modèle mathématique dynamique contenant peu de paramètres à ajuster (NIU et al. (2014)).

L’Assimilation de Données dirigée par un modèle peut donc être vue comme une méthode couplant l’utilisation de données et de connaissances pour estimer l’état ac-tuel d’un système. Basé sur le même principe, le Couplage Modèle-Données peut alors être utilisé pour construire l’outil fournissant les simulations (HOUTEKAMER et MITCHELL (1998), GREGGet al. (2009), LUO et al. (2011) et NIUet al. (2014)).

Comme le Couplage Modèle-Données, l’Assimilation de Données dirigée par un modèle est aujourd’hui essentiellement utilisé dans les domaines de la météorolo-gie (HOUTEKAMER et MITCHELL (1998), KALNAY (2003), MERTENS et al. (2009) et

WANG et al. (2000)), de l’océanographie (CHAVE et al. (2009), DOWD (2007), GREGG

et al. (2009) , LGUENSAT et al. (2019) et ANDERSON et al. (2000)) et de la géologie

(NIU et al. (2014), GAOet al. (2011) et WILLIAMS et al. (2005)).

L’enjeu majeur pour réaliser de l’Assimilation de Données biologiques est de dis-poser d’un modèle relativement léger, capable de fournir des prédictions précises et fiables malgré peu de données disponibles pour l’ajuster et le corriger (LUO et al. (2011) et NIUet al. (2014)).

1.5 Résumé de l’état de l’art

Différentes notions ont été abordées dans cet état de l’art. L’objectif de cette section est de résumer et de proposer un positionnement de ces différentes notions les unes par rapport aux autres. Ce positionnement proposé est synthétisé par la figure 1.1.

Informatique Statistiques Mathématiques Biologie Machine Learning Deep Learning Non-Supervisé Supervisé Statistical Learning Couplage Modèle-Donnée modèle mécan-istes réalmécan-istes Non-Paramétrique Paramétrique Intégration de connaissances Sup ervision du mo dèle Data Driv en Mo del Driv en

FIGURE 1.1 – Résumé de l’état de l’art.

Des auteurs comme KOTSIANTIS et al. (2007) considèrent que parmi les méthodes

d’apprentissage automatique, deux catégories peuvent être distinguées : les méthodes supervisées et les méthodes non-supervisées. Comme nous l’avons vu dans la section 1.2.1, l’apprentissage automatique non-supervisé est une approche qui se base tota-lement sur l’information contenue dans les données («Data-Driven») et dans laquelle aucune hypothèse a priori n’est faite. Dans les approches d’apprentissage automa-tique supervisé, aucune hypothèse n’est faite concernant la distribution des données, mais les entrées et les sorties attendues sont spécifiées. La construction d’algorithmes d’apprentissage automatique et surtout d’apprentissage profond, nécessite de faire un minimum de choix a priori, notamment le nombre de couches cachées, le nombre de neurones présents dans chaque couche cachée ou encore le nombre d’arbres de

dé-1.5. Résumé de l’état de l’art

cision utilisés (LECUNet al. (2015)). La supervision de la construction de ces modèles

n’est donc pas nulle.

D’autre part, comme nous l’avons vu dans la section 1.2.2, l’apprentissage statis-tique non-paramétrique est une approche dans laquelle aucune hypothèse n’est faite concernant la fonction reliant les données d’entrée et de sortie. Ainsi, l’apprentissage statistique non-paramétrique semble s’approcher de l’apprentissage automatique su-pervisé en ce qui concerne l’importance accordée à l’information contenue dans les données et la volonté de garder une approche affranchie de toute hypothèse a priori.

Le «Couplage Modèle-Données» est une approche inspirée des mathématiques mais elle implique des études interdisciplinaires. En effet, dans la plupart des explo-rations basées sur du «Couplage Modèle-Données» il y a une volonté d’intégrer dans le modèle mathématique des connaissances concernant la dynamique globale du sys-tème étudié, via le langage mathématique. La construction de ces modèles est donc supervisée et nécessite quelques connaissances concernant le domaine d’étude.

En ce qui concerne la construction de l’architecture des modèles, deux approches peuvent être distinguées d’après TOMLINet AXELROD(2007). La première, dite «Bottom-Up», consiste à construire un modèle en commençant par représenter les détails des différents composants du système étudié et les liens qui existent entre eux. Á l’inverse, la seconde approche, dite «Top-Down», consiste à considérer dans un premier temps le système étudié dans son ensemble et à entrer ensuite plus ou moins dans les détails du fonctionnement du système.

La construction de l’architecture des modèles de type «boîtes-noires» est totale-ment décorrélée de la nature des processus biologiques étudiés et n’est donc pas concernée par ces deux approches.

La construction des modèles de type «boîtes-blanche» se base par définition sur une approche «Bottom-Up». En effet, ces modèles sont construits dans un objectif très précis et de manière extrêmement structurée et supervisée. Les approches "boîtes-blanches" contiennent beaucoup de connaissances traduites par un grand nombre d’équations. Peu de composants de ces modèles sont ajustés à partir de données et la quasi totalité de l’information est apportée par la construction du modèle.

sont associés à une construction architecturale de type «Top-Down», afin de garder un modèle synthétisant la dynamique globale du système. L’objectif est d’avoir un mo-dèle qui intègre des connaissances mais qui reste relativement souple et léger afin de pouvoir ajuster les paramètres qu’il contient sur des données. Cette approche peut donc être considérée comme une approche intermédiaire entre les approches «boîtes-noires» et «boîtes-blanches».

Enfin, l’Assimilation de Données et le réapprentissage du modèle correspondent à deux manières différentes de valoriser la collecte de nouvelles données. Mais ces deux pratiques se font à des échelles de temps différentes et dans deux optiques distinctes : La première est utilisée pour corriger de manière itérative, les simulations fournies par le modèle à partir de données collectées quasiment en temps réel et la deuxième est utilisée pour réajuster ponctuellement les paramètres du modèle sur un nouvel historique de données.

L’outil de simulation utilisé pour réaliser de l’Assimilation de Données peut être un outil d’apprentissage automatique, d’apprentissage statistique ou issu du Couplage Modèle-Données. Ainsi l’Assimilation de Données peut donc accorder plus d’importance aux données ou aux connaissances a priori selon le type d’outil de prédiction utilisé.

L’Assimilation de Données d’élevage est un contexte particulier qui peut être qualifié de "Biological Small Data Context". En effet, comme nous l’avons vu dans la section 1.1, les données relatives au fonctionnement interne des êtres vivants sont difficiles à collecter et contiennent généralement beaucoup de variabilité. De plus, les phéno-mènes à l’origine de l’évolution des variables biologiques sont complexes. Les modèles réalistes mécanistes ne sont pas construits dans l’optique d’être ajustés sur des don-nées. D’autre part, les outils d’apprentissage automatique et d’apprentissage profond ont besoin de beaucoup de données pour pouvoir être ajustés. Dans ce contexte parti-culier, les outils de prédiction actuellement utilisés ne semblent donc pas adaptés pour gérer conjointement le manque de données, leur hétérogénéité et la complexité des phénomènes étudiés.

Il semble donc nécessaire d’explorer une nouvelle approche pour construire des outils de prédiction précis permettant de réaliser de l’Assimilation de Données d’éle-vage.