Conclusion générale

Les progrès technologiques constants dans le domaine de l'archivage des données numériques nous permettent aujourd'hui d'avoir accès à une quantité d'informations inégalée dans l'histoire. Tous les domaines de l'activité humaine sont concernés, et les problèmes ne sont pas simplement les volumes d’informations archivées, mais aussi l'utilisation de ces données et la recherche d'informations pertinentes pour une utilisation donnée. Une problématique nouvelle est apparue: gérer les quantités énormes et croissantes de données (plus particulièrement les bases images).

Cette thèse s’est articulée autour de l’indexation et la recherche dans les grandes bases d’images (chapitre 1), il s’agissait de décrire les images par un ensemble de descripteurs et de les stocker autour d’une structure d’indexation performante en utilisant une distance ou une mesure de similarité.

Le défi principal motivant ce travail réside dans le fait de minimiser le temps de réponse pour une requête donnée et de combler le vide/fossé sémantique.

Notre travail est constitué de deux phases principales:

La première phase est la phase hors ligne (étape d’indexation), nous calculons les signatures d’images et nous les stockons dans une base de données. Lors de la phase d’indexation, le calcul de signature consiste en l’extraction des caractéristiques visuelles des images. Cependant, plusieurs méthodes de mesures de similarité ont été proposées dans la littérature dont certaines d’entre elles sont présentées dans le premier chapitre.

La seconde phase est la phase en ligne (étape de recherche). Nous utilisons le principe de la recherche-par-similarité selon lequel les images sont ordonnées à l'aide d'une mesure de similarité à la requête. Cette dernière prend la forme d'une image exemple. Le système calcule la signature selon le même mode que lors de la première phase d’indexation.

Cette thèse s'est focalisée sur l'hybridation texte/image, c'est-à-dire que la description de l'image est extraite de son contenu en même temps que d’autres sources d'informations externes. L'indexation textuelle n'est pas directement concurrente mais plutôt complémentaire de l'indexation basée-contenu. En effet, l'image seule ne permet pas de

répondre à des requêtes abstraites. La coopération de l'information image et de l'information textuelle n'est cependant pas évidente et immédiate à mettre en œuvre.

Dans un premier temps, nous avons implémenté un système d’indexation et de recherche visuo-textuelle pour les bases de données généralistes. Puis dans la seconde et la principale contribution, nous nous sommes intéressés aux bases de données spécialisées dans le domaine médical, où de plus en plus d'informations relatives aux patients, aux pathologies et aux connaissances médicales sont enregistrées, archivées dans des bases de données utiles pour la formation et le diagnostic. Ces bases de données contenant des fichiers DICOM qui contiennent à la fois des images numériques et des informations sémantiques, ce qui nécessite la manipulation de Big data (chapitre 2). L'approche que nous avons explorée est basée sur le Content Based Image Retrieval (CBIR).

Plus précisément, la contribution de ce travail est la proposition d'un modèle de plate- forme en tant que service (PaaS) efficace sur un Cloud public (chapitre 2) pour le système CBIR. La plateforme proposée est rapide car l'essentiel du temps de calcul est passé pendant la phase hors ligne.

Le PaaS-CBIR a été proposé pour faciliter le diagnostic médical. PaaS-CBIR manipule les informations sémantiques, ainsi que des images numériques. En utilisant les arbres de décision (chapitre 3), l'architecture proposée permet d'améliorer le temps de calcul d'un système d'aide au diagnostic médical. Le PaaS-CBIR peut être implémenté d’une manière pratique pour soutenir le diagnostic médical. PaaS-CBIR gère le Big Data avec une grande efficacité. PaaS-CBIR crée des liens intelligents entre les serveurs qui garantissent la disponibilité des données avec un temps de latence minimum.

Enfin, l’ensemble des travaux présentés dans cette thèse ont fait l’objet d’une communication dans une conférence internationale ([HAD 14]) et d’une publication dans une revue scientifique ([HAD 20]).


Cette thèse constitue une première tentative de proposition d'une plate-forme en tant que service (PaaS) dans le Cloud pour le système CBIR. Pour notre travail futur, nous prévoyons d’enrichir notre proposition en utilisant d'autres méthodes (transformée en ondelettes, SIFT, SURF,…) pour extraire des caractéristiques de l'image. La seconde

amélioration que nous envisageons interviendra dans la phase de sauvegarde, cette contribution permettra le stockage dynamique dans la plateforme PaaS-CBIR. Pour la suite, nous proposerons une hiérarchie pour l’utilisation des signatures/index et une deuxième hiérarchie pour les attributs qu’elles contiennent (couleur, texture et forme).



