PROPOSITION DE STAGE RECHERCHE 2021
Approches déclaratives et interactives pour l’extraction des patterns structures sur des données moléculaires Financement : Université de Caen Normandie
Profil : Fouille de donnée, Programmation Par Contraintes, Optimisation combinatoire
Gratification : 570 €/mois
Descriptif du sujet de stage
Les antimicrobiens ont de nombreux mécanismes d'action, dont les suivants : inhiber la synthèse de la paroi cellulaire, augmentation de la perméabilité de la membrane cellulaire, et interférer avec la synthèse des protéines. La résistance naturelle des bactéries aux antimicrobiens inflige des frais d’hospitalisation coûteux ainsi que des délais de traitement de plus en plus longues [1,2]. De nombreux descripteurs moléculaires peuvent être utilisés afin d’interpréter un ensemble de molécules.
Ces descripteurs reformulent une propriété chimique, biologique, physique, etc. en valeur numérique qui pourrait être utilisée dans un processus de prédiction ou d’optimisation [4]. Différentes méthodes sont utilisées pour la recherche de nouveaux antimicrobiens afin de lutter contre la résistance des bactéries. On distingue celles provenant du domaine de la fouille de données qui s’adressent aux tâches de classification et d’extraction de motifs, et des techniques en optimisation combinatoire [3].
Dans le contexte de ce stage nous nous intéressons plus particulièrement à l’extraction d’ensembles de motifs. Cette tâche regroupe des méthodes de découverte de motifs intéressants ayant des relations sur un sous ensemble de motifs extraits [6].
L’abondance et la diversité des descripteurs moléculaires sur un ensemble très grand de molécules posent des défis tant sur le plan conceptuel qu’algorithmique aux techniques d’extraction d’ensembles de motifs [7]. Le but principal dans ce stage est d’étudier et de développer une approche déclarative et interactive pour l’extraction d’ensembles de motifs sur des données diverses comprenant des attributs numériques en exploitant le cadre des patterns structures [5]. L’approche envisagée doit offrir un bon compromis entre flexibilité afin de s’adapter à différentes tâches spécifiées par l’utilisateur ainsi qu’un passage à l’échelle sur des bases de données complexes. Le stagiaire mènera une étude de l’état de l’art sur différentes techniques complémentaires provenant de différents domaines en particulier les techniques en résolution de contraintes, en optimisation et en fouille de données. Puis, une réalisation d’une première approche hybridant les différentes techniques avec une étude expérimentale. Ce stage est aussi en interaction avec d’autres projets ANR dont l’équipe est impliquée.
Le candidat(e) retenu(e) sera employé(e) rattaché(e) à l’équipe Constraints, Data Mining and Graph (CoDaG) du laboratoire GREYC (UMR CNRS 6072). La durée souhaitée pour ce stage est de 6 mois, idéalement entre février 2021 et août 2021. Le candidat(e) recherché(e) devra avoir de solides compétences en programmation C++, JAVA, et Python3. La maîtrise des solveurs comme OR-tools, SCIP, Choco, ou Cplex serait un vrai plus. Il ou elle devra être étudiant(e) de M2 en informatique avec des compétences autour des techniques en IA.
Encadrant :
Dr. Abdelkader OUALI
Unité de recherche : Équipe CoDaG, laboratoire GREYC. Caen, 14000.
Pour candidater :
Pour candidater, merci d’envoyer à l’adresse abdelkader.ouali@unicaen.fr les documents suivants au format PDF :
• Curriculum Vitae.
• Lettre de motivation détaillant vos expériences, enseignants ou personnes avec qui vous avez travaillé, et votre intérêt par rapport au stage.
• Relevé de notes de L3 et de Master.
Références bibliographiques :
[1] Blair JM, Webber MA, Baylay AJ, Ogbolu DO, Piddock LJ. Molecular mechanisms of antibiotic resistance. Nat Rev Microbiol. 2015 Jan;13(1):42-51.
[2] Impact of infectious diseases on population health using incidence-based disability-adjusted life years (DALYs): results from the Burden of Communicable Diseases in Europe study, European Union and European Economic Area countries, 2009 to 2013
[3]Durrant JD, Amaro RE. Machine-learning techniques applied to antibacterial drug discovery. Chem Biol Drug Des. 2015 Jan;85(1):14-21.
[4] Roberto Todeschini and Viviana Consonni. Molecular Descriptors for Chemoinformatics, volume 1, page 1252. 01 2009.
[5] M. Kaytoue, S. O. Kuznetsov, A. Napoli. Pattern Mining in Numerical Data: Extracting Closed Patterns and their Generators. [Research Report] RR-7416, INRIA. 2010, pp.25. Inria-00526662.
[6] A. Ouali, S. Loudni, Y. Lebbah, P. Boizumault, A. Zimmermann and L. Loukil. Efficiently Finding Conceptual Clustering Models with Integer Linear Programming. In 25th International Joint Conference on Artificial Intelligence (IJCAI’16), pages 1–7, New York, USA, July 2016.
[7] Roberto Todeschini and Viviana Consonni. Molecular Descriptors for Chemoinformatics, volume 1, page 1252. 01 2009.