De 2 à 22 millions d'images; Création, Indexation et Recherche par le

(1)

De 2 à 22 millions d'images; Création, Indexation et Recherche par le

contenu avec PiRiA

contact : patrick.hè[email protected]

Commissariat à l'Energie Atomique

(2)

Plan Plan

Justification/contexte

Le grand challenge image du projet Fame2 Le corpus

Parallèlisation du moteur PiRiA en MPI v1

Indexation Recherche Performances

Le grand challenge vidéo du projet POPS

Perspectives

(3)

Justification/

Justification/contexte contexte

Plus de 3 milliards d’images sur Flickr (nov 2008), 10 Md Facebook.

INA, Nasa et les particuliers sont des gros générateurs de contenu numériques, mais très peu, moins de 10% du web annotent.

Un disque dur de 1Tera Octets pour moins de 200€ en 2009

Parallélisme

Machines grappes de calcul ’cluster’ logiciel Linux gratuit Processeurs multi cœur

Logiciel de gestion // : Multithread, Vectoriel, MPI

Filtrage

Algorithmes approximatifs

Passage à l’échelle, il existe:

(4)

Le Le projet projet Fame2 Fame2

88 cœurs de calcul, 11 lames, cpu Itanium Accélérateurs spécifiques

50 Terabytes de disques

(5)

Rappel : cluster Rappel : cluster

COEUR 1 COEUR 2

COEUR 3 COEUR 4

CPU 1 = processeur CPU 2

COEUR 1 COEUR 2

COEUR 3 COEUR 4

Matériel

LAME 1 ~ 1 PC ~ NOEUD 1 L2

Logiciels

Coeur : SSE SIMD +V Distance L1 !, Intel & AMD -Assembleur

CPU : OpenMP +directives mise en œuvre, C/C++, Fortran.. -Mémoire partagée GPU : CUDA

LAME : MPI +polyvalent v2 -Complexe modif.architecture logicielle

E/S Autre Calculateur

Différents niveaux de // et temps de comm.

(6)

Le grand challenge image du projet Fame2

Le grand challenge image (fin du projet juillet 2008)

Etat de l’art :Le système Cortina (Univ. Santa Barbara)

Indexation : 11 millions en ligne Recherche : 15 secondes

PiRiA (version non parallèle)

Indexation : la plus grosse base 50 000 images

Recherche : 5s

But : faire mieux!

(7)

Rappel :

Rappel : PiRiA PiRiA

Rappel : PiRiA

Programme d’Indexation et de Recherche d’Images par

Affinité créé en 2002 (source C/C++ STL .NET) convertit les signatures numériques des descripteurs en langage naturel, manipule l’image le texte la vidéo ; bientôt un moteur

multimédia

Fichier d'index (portable sur <> architectures) en fichier plat (binaire) sur disque (pas de SGBD), pas d'index en

mémoire (grands volumes)

Recherche exacte exhaustive

Une dizaine de descripteurs majoritairement globaux

1milliard de secondes = …

Google http://www-list.cea.fr/fr/programmes/systemes_interactifs/labo_lic2m/piria/w3/pirianet.php

(8)

Constitution de la base Constitution de la base

Difficulté : comment disposer de plusieurs millions d’images © ?

Multiplication des données

**CLIC (CEA Lic2m Image Collection 2004*) Transformations géométriques et chromatiques 1million d’images à partir d’un noyau de 15 200.**

Fame II

Corpus multimédia multilingue: wikipédia fr, gb aspiré Un peu moins d’un million d’images

Filtrage des ©, récupération des images

Mise à dimension 320x200 maxi et conversion au format JPEG En conservant l’arborescence limitant 10 000 images maxi par

répertoire

Application de 25 transformations sur toutes les images Obtention de 22 millions d’images

*PiRiA Evaluating Content Based Image Retrieval Techniques with the One Million Images CLIC TestBed

(9)

Indexation Indexation

Choix d’un descripteur de PiRiA existant BIC*

Conception et codage d’une méthode permettant l’indexation de plusieurs répertoires

Écriture d’un wraper permettant via MPI v1

l’exécution simultanée de plusieurs instances du moteur PiRiA

Monté en volume par itération successives 22 millions en 76 heures de calcul sur 32

cœurs 6L

BIC compact and efficient image retrieval approach based on border/interior pixel

classification Stehling,Nascimento,Falcão CIKM 2002

(10)

Indexation/

Indexation/ Recherche Recherche // //

INDEXATION RECHERCHE

piria1

piria 2

piria3

Piria 4

piria1

piria2

piria3

piria 4

piria5 Fichier d'index virtuel

Collection

R=f(r

_i

)

(11)

Travail r

Travail r é é alis alis é é

Portage Linux P4 (Woodcrest ), I64 (Montécio)

Aspiration des images de wikipédia (français, anglais, commons) Mise en forme (jpeg, resize)

Création d’une base de 22 millions par transformations,duplication Écriture d’un wrapper MPI Bull v 1.

Architecture logicielle ’scalable’

En nombre de cœur de 1 a ’n’ (test: 1, 16, 48 et 80 coeurs)

Arborescence d’image quelconque (lustre plus de 700 répertoires) Indexation de 10 000, 60 000, 101 000, 700 000, et

22 Millions d’images 3To de données Tests de pertinence et de temps de réponse

Conception et écriture d’une Interface php (serveur web Bull) pour l’interrogation et l’affichage du démonstrateur.

Distance L1, dLog, Minkowski à exposant fractionnaire: ,25 .. ,75 **

6 secondes en recherche (32 coeurs)

P.Howarth Fractional Distance Measures for CBIR 2004**

(12)

Dé D émonstrateur monstrateur

Soyez indulgent…

Réponses 1, 2, 3, 4

12 5

11 6

10, 9, 8, 7

Requête au centre

(13)

Recherche

(14)

Recherche

(15)

Recherche

(16)

Recherche

(17)

Performances Fame2 Performances Fame2

Indexation:

22 millions, 76 heures, 32 coeurs 6 noeuds, Fame2 MPI v1 2008 ou encore 1 million en 3,45 heures

(1 million 0,2 heure 32 coeurs CEA List MPI v2 2009) Recherche :

22 millions en 6s, 32 coeurs 6 noeuds Fame2 MPI v1 2008

(18)

Dé D émonstrateur (sur corel1000 monstrateur (sur corel1000 )

(19)

Dé D émonstrateur (sur corel1000 monstrateur (sur corel1000 )

(20)

Dé D émonstrateur (sur corel1000) monstrateur (sur corel1000)

(21)

Dé D émonstrateur (sur corel1000) monstrateur (sur corel1000)

(22)

Dé D é monstrateur (sur corel1000) monstrateur (sur corel1000)

(23)

D D é é monstrateur (sur corel1000) monstrateur (sur corel1000)

(24)

Dé D émonstrateur (sur corel1000) monstrateur (sur corel1000)

(25)

Mutualisation des compétences CEA DAM (Xedix) CEA LIST (PiRiA) avec la participation d’IWM

Aspiration de 10 ans de vidéo interrompue (~75 000heures) Génération de la collection:

Extraction sémantiques des images des vidéos

Indexation des images de transitions ~130 Millions d’images Indexation 3 descripteurs globaux: BIC,RGB64,Projection 1To de base XML

Temps, Perf. et Résultats officiels annoncés le : 22 juin 2009

Projet : POPS

Projet : POPS System@tic System@tic 2009 2009

Grand Challenge Vidéo

(26)

Passer des clusters au pc puis au pda Arrêter la recherche exhaustive

Comprendre quelles sont les métriques les plus appropriées

Réduire le coût des descripteurs locaux

Créer une très grande collection avec sa vérité terrain et la mettre à disposition de la communauté