• Aucun résultat trouvé

CHAPITRE 1. LES ENJEUX D’UN SYSTEME DISTRIBUE DE GESTION DE BASES

1.3. A PPLICATION DES GRILLES POUR LA SANTE

1.3.3. Applications des grilles

Le principe même d’une grille est alors de regrouper au sein d’une même entité virtuelle et au moyen d’une couche logicielle commune, un ensemble de ressources informatiques géographiquement distribuées. Les utilisations potentielles de cette entité, appelée « grille informatique » sont alors multiples, du calcul distribué à l’interconnexion de sites en passant par le stockage et le partage de l’information.

1.3.3.1. Interconnexion de sites et partage d’informations – « knowledge grids » Origine

A l’origine des knowledge grids on peut citer les grilles dites « d’information » qui permettent d’échanger de l’information au travers des réseaux. C’est bien entendu ce concept de grille d’information qui est développé dans Internet, avec une interconnexion mondiale de sites disposant de l’information.

Extension

D’autres applications des grilles sont nées de la prise de conscience des performances des réseaux qui reliaient les différents nœuds informatiques. En effet, ces réseaux dédiés, très haut débit et parfaitement sécurisés par les outils d’authentification, de chiffrement et d’autorisation proposés par les intergiciels de grille ont ouvert de nouvelles perspectives.

38 Chapitre 1 : Les enjeux d’un système distribué de gestion de bases de données pour la santé En premier lieu, le réseau Européen GÉANT [48], qui vient de fêter ses dix ans, fournit un réseau d’une longueur totale de 50.000km, regroupant 40millions d’utilisateurs issus des infrastructures de recherche de plus de 40 pays.

Le réseau Renater [49] en France, relié au réseau Européen GÉANT sont les supports de ces infrastructures de recherche. Les [Figure 9], [Figure 10] et [Figure 11] montrent l’étendue de ces réseaux et des différents débits, pour Renater tous les nœuds sont connectés en 10Gbit/s.

Au niveau de l’Auvergne, reliée à 10Gbit/s au réseau national Renater, le réseau AuverData alimente les différents sites universitaires régionaux en offrant une bande passante conséquente qui lui permet d’héberger la grille régionale Auvergrid [67] répartie entre plusieurs sites.

1.3. Application des grilles pour la santé 39

.

Figure 10 - Réseau GÉANT et débits théoriques mondiaux - Source GÉANT2.net

Figure 11 - Réseau Renater - Source Renater.fr

Ces réseaux fonctionnent de façon indépendante d’Internet, où ils sont reliés par des passerelles avec les différents opérateurs. Les avantages d’un tel réseau vis-à-vis d’un opérateur privé sont la neutralité, l’indépendance, la parfaite maîtrise des interconnexions, la gestion poussée de la sécurité et surtout la qualité de service.

Une des principales applications de ces interconnexions est de permettre l’accès distant à tout un ensemble de sites distribués. Par exemple, il est possible d’accéder à un ensemble de données et de les rassembler, virtuellement en un nœud de la grille pour en faire une analyse spécifique. Cette

40 Chapitre 1 : Les enjeux d’un système distribué de gestion de bases de données pour la santé notion prend tout son sens lorsque l’on se rend compte des difficultés de collecte de l’information, dans ce cas la donnée est non pas collectée mais interrogée directement à distance. En plus de s’affranchir d’un travail de collecte qui, de surcroît ne peut être automatique (ou au mieux semi-automatique), l’accès distant permet d’accéder en temps réel, ou quasi-réel aux données.

Cette fonctionnalité prend une autre dimension lorsque l’on sait que dans le domaine médical, les analyses épidémiologiques sont diffusées au mieux trois ans après la collecte des données. Ces délais sont dus notamment au temps nécessaire à la collecte, la standardisation, le nettoyage, la recherche de doublons, puis à proprement parler l’analyse en elle-même.

Une connexion directe et permanente aux bases de données permettrait de raccourcir drastiquement ces délais à tel point qu’il serait possible d’offrir une surveillance temps réel et de déclencher des alarmes sanitaires avant même qu’un phénomène soit observable sur le terrain (pandémie).

1.3.3.2. Calcul partagé

Avec l’avènement des besoins de calcul et l’essor des super-ordinateurs et des clusters, la plus grande utilité des grilles informatiques est d’effectuer du calcul à large échelle.

Dans ce cas, l’unité de base d’une ressource est le processeur (CPU) qui sera alors utilisé par un client via une entité informatique appelé JOB. On peut distinguer de grandes familles de ressources, les processeurs des ordinateurs de bureau et les clusters/superordinateurs. Lorsque les CPUs sont situés sur un même site, regroupés dans un cluster par exemple, ils sont fusionnés sous l’entité appelée CE (Computing Element).

La principale différence entre un cluster et un superordinateur se trouve au niveau des applications que l’on déploie : un programme superordinateur utilisera l’intégralité du système pendant un temps donné alors qu’un cluster peut exécutera de façon atomique et simultanée un ensemble de programmes. L’architecture des deux systèmes diffère principalement par la vitesse des liens entre les nœuds la composant: un superordinateur disposera souvent de solutions très haut débit et très faible latence, souvent par un système propriétaire là ou un cluster utilisera un lien réseau classique de moindre qualité mais autrement plus abordable.

D’un point de vue utilisateur, un superordinateur apparaitra comme un seul ordinateur exécutant une seule instance d’un système d’exploitation : c’est l’architecture MIMD1. Chaque machine d’un cluster exécutera une instance d’un système d’exploitation.

1.3.3.3. Stockage d’informations

De la même manière qu’une entité CPU peut être partagée au sein d’une grille, il est possible de de mettre à disposition un élément disposant d’un espace de stockage, avec, comme granularité la plus fine un disque dur ou une capacité de stockage. Ainsi il sera possible à tout utilisateur d’accéder ou de déposer des données situées à travers la grille.

Là où un CE rassemble un ensemble de CPU d’une même entité géographique, un SE (Storage Element) va regrouper un ensemble de ressources de stockage situées au même endroit.

1

1.3. Application des grilles pour la santé 41 Le plus souvent CE et SE sont utilisés de pair afin de fournir en données un job s’exécutant sur un CE (amont) et de lui permettre d’y stocker des résultats (aval). De plus, les volumes de données fournis directement au CE par l’utilisateur en entrée et récupérées en sortie sont de tailles très limitées (quelques Mo), afin de ne pas encombrer ces derniers.

Ces éléments sont donc utilisés à tour de rôle et de façon intense lors de l’exécution de suites de tâches ou workflows comme le montre la [Figure 12].

Figure 12 - Interactions CE-SE lors de l'exécution d'un job

1.3.3.4. Autres applications

De la même façon qu’il est possible de partager des ressources de calcul ou de stockage, le concept de grille peut aussi être étendu à d’autres entités, plus hétéroclites, comme des capteurs, de la visualisation, des logiciels ou même des personnes. Libre aux concepteurs d’adapter l’infrastructure à ses besoins.