Thesis
Reference
Spatial data infrastructures for environmental sciences
GIULIANI, Gregory
Abstract
Today we are living in a globalized world with rapidly evolving processes including climate and land cover change, population growth that are impacting the environment. In parallel, means of communication have expanded to take on a remarkable place in our society, allowing us to access an enormous and continuous flow of information. The underlying hypothesis of this thesis is that making data interoperable and providing access to computing resources can potentially allow data users to spend more time in data analysis than in data discovery, and enabling more people to benefit from using geospatial data on the environment. Our research has shown that SDIs and related concepts, methods and technologies are suitable and can bring major benefits to support and facilitate environmental data discovery, accessibility, visualization, dissemination and analysis. Moreover, facilitating access, integration and use of geospatial data can answer the requirements of a specific community as well as making these data available to the widest possible audience. The challenges that humankind is facing require acting now and we need to [...]
GIULIANI, Gregory. Spatial data infrastructures for environmental sciences. Thèse de doctorat : Univ. Genève, 2011, no. Sc. 4348
URN : urn:nbn:ch:unige-189473
DOI : 10.13097/archive-ouverte/unige:18947
Available at:
http://archive-ouverte.unige.ch/unige:18947
Disclaimer: layout of this document may differ from the published version.
Informatica per le scienze della terra e dello spazio Prof. Stefano Nativi
Spatial Data Infrastructures for
Environmental Sciences
THESE
présentée à la Faculté des Sciences de l’Université de Genève pour obtenir le grade de Docteur ès Sciences, mention Sciences de
l’Environnement
par
Grégory GIULIANI De
Vernier (Genève)
Thèse NO 4348
GENEVE
Atelier d’impression ReproMail 2011
This work is dedicated to my family
“Information is the seed for an idea, and only grows when it's watered.”
(Heinz V. Bergen)
Table of contents
TABLE OF CONTENTS 5
ABSTRACT 9
ABSTRACT 10
RÉSUMÉ 13
RIASSUNTO 17
ACKNOWLEDGMENTS 20
ACKNOWLEDGMENTS 21
REMERCIEMENTS 23
RINGRAZIAMENTI 25
CHAPTER 1: INTRODUCTION 27
1.1 STRUCTURE OF THE THESIS 28
1.2 PROJECTS 29
1.3 LIST OF CONTRIBUTING RESEARCH PAPERS 30
1.4 BACKGROUND: RESPONDING TO OUR CHANGING ENVIRONMENT 31
1.5 RESEARCH PROBLEM AND QUESTIONS 33
1.5.1 RESEARCH PROBLEM 33
1.5.2 RESEARCH QUESTIONS 34
CHAPTER 2: THEORETICAL FRAMEWORK 36
2.1 SPATIAL DATA INFRASTRUCTURE 37
2.1.1 DEFINITION, CONCEPTS AND RATIONALE 37
2.1.2 OBJECTIVES 39
2.1.3 COMPONENTS 40
2.1.4 SDI HIERARCHY 42
2.1.5 SDI EVOLUTION AND (EMERGING) TRENDS 43
2.1.6 BENEFITS 46
2.2 INTEROPERABILITY AND STANDARDS 47
2.2.1 DEFINITION AND CONCEPTS 47
2.2.2 TYPES OF INTEROPERABILITY 49
2.2.3 INTEROPERABILITY ENABLERS 50
2.2.4 STANDARDS 50
2.2.5 BENEFITS 51
2.3 INITIATIVES 52
2.3.1 INFRASTRUCTURE FOR SPATIAL INFORMATION IN THE EUROPEAN COMMUNITY (INSPIRE) 52 2.3.2 GLOBAL EARTH OBSERVATION SYSTEM OF SYSTEMS (GEOSS) 55 2.3.3 UNITED NATIONS SPATIAL DATA INFRASTRUCTURE (UNSDI) 56 2.3.4 GLOBAL MONITORING FOR THE ENVIRONMENT AND SECURITY (GMES) 57 2.3.5 GLOBAL SPATIAL DATA INFRASTRUCTURE (GSDI) 58 2.4. STANDARDS ORGANIZATIONS RELEVANT FOR GIS/SDI 59 2.4.1 OPEN GEOSPATIAL CONSORTIUM (OGC) 59 2.4.2 INTERNATIONAL ORGANIZATION FOR STANDARDIZATION (ISO) 60 2.4.3 THE WORLD WIDE WEB CONSORTIUM (W3C) 60 2.4.4 ORGANIZATION FOR THE ADVANCEMENT OF STRUCTURED INFORMATION STANDARDS (OASIS)
61
2.5 STANDARDS DESCRIPTION 61
2.5.1 CATALOGUE SERVICE FOR THE WEB (CSW) 63
2.5.2 WEB MAP SERVICE (WMS) 64
2.5.3 WEB FEATURE SERVICE (WFS) 67
2.5.4 WEB COVERAGE SERVICE (WCS) 68
2.5.5 WEB PROCESSING SERVICE (WPS) 70 2.5.6 SENSOR OBSERVATION SERVICE (SOS) 71
2.5.7 ISO 19115/19139 72
2.5.8 ISO 19119 72
2.5.9 KEYHOLE MARKUP LANGUAGE (KML) 73 2.5.10 GEOGRAPHIC MARKUP LANGUAGE (GML) 73
2.6 TOOLS 74
2.6.1 OGC WEB SERVICES 74
2.6.2 METADATA EDITOR AND CATALOG SYSTEM 77
2.6.3 DATA STORAGE 78
2.6.4 WEB MAPPING 79
CHAPTER 3: IS THERE A NEED TO ACCESS AND PROCESS ENVIRONMENTAL DATA
IN A BETTER AND EFFICIENT WAY? 81
3.1 PREAMBLE 82
3.2 SHARING ENVIRONMENTAL DATA THROUGH GEOSS 85
3.2.1 ABSTRACT 85
3.2.2 INTRODUCTION 85
3.2.3 THE NEED FOR DATA SHARING AND INTEGRATION 87
3.2.4 SERVING DATA INTO GEOSS 89
3.2.5 TECHNICAL COMPARISON AND COMMON GROUNDS 92
3.2.6 CHALLENGES AND PROMISES 96
3.2.7 CONCLUSIONS 99
3.3 SUMMARY AND LESSONS LEARNED 101
CHAPTER 4: HOW CAN SDI IMPROVE OUR CAPACITY TO DISCOVER, SHARE,
RETRIEVE AND INTEGRATE ENVIRONMENTAL DATA? 102
4.1 PREAMBLE 103
4.2 THE PREVIEW GLOBAL RISK DATA PLATFORM: A GEOPORTAL TO SERVE AND SHARE
GLOBAL DATA ON RISK TO NATURAL HAZARDS 106
4.2.1 ABSTRACT 106
4.2.2 INTRODUCTION 106
4.2.3 SDI AND ITS ROLE FOR DISASTER RISK REDUCTION COMMUNITY 108 4.2.4 THE PREVIEW GLOBAL RISK DATA PLATFORM 109
4.2.5 PREVIEW SDI CONCEPTUAL MODEL 111
4.2.6 PREVIEW GLOBAL RISK DATA PLATFORM, THE GATEWAY TO GLOBAL NATURAL DISASTER
DATA 116
4.2.7 USES OF THE PREVIEW AND LESSONS LEARNT 120
4.2.8 CONCLUSIONS 123
4.3 OGC WEB FEATURE AND WEB COVERAGE SERVICES PERFORMANCE TESTING: TOWARDS AN
EFFICIENT ACCESS TO GEOSPATIAL DATA 125
4.3.1 ABSTRACT 125
4.3.2 INTRODUCTION 125
4.3.3 GEOSPATIAL DATA INTEROPERABILITY 127
4.3.4 INSPIRE NETWORK SERVICES 129
4.3.5 METHODOLOGY OF TESTING 131
4.3.6 TECHNICAL ARCHITECTURE & SOFTWARE 134
4.3.7 RESULTS 135
4.3.8 DISCUSSION 141
4.3.9 CONCLUSIONS 143
4.4 SUMMARY AND LESSONS LEARNED 145
CHAPTER 5: CAN SDI TAKE ADVANTAGE OF DISTRIBUTED COMPUTING POWER TO PROCESS THE INCREASING AMOUNT OF HIGH-‐RESOLUTION DATA? 147
5.1 PREAMBLE 148
5.2 GRID-‐ENABLED SPATIAL DATA INFRASTRUCTURE FOR ENVIRONMENTAL SCIENCES:
CHALLENGES AND OPPORTUNITIES 151
5.2.1 ABSTRACT 151
5.2.2 INTRODUCTION 151
5.2.3 BACKGROUND 156
5.2.4 DESCRIBING AND CATALOGUING GEOSPATIAL DATA 157 5.2.5 ACCESSING AND SHARING GEOSPATIAL DATA 159
5.2.6 PROCESSING GEOSPATIAL DATA 160
5.2.7 BENEFITS AND CHALLENGES TO USE GRIDS WITHIN SDIS 163 5.2.8 ENVIROGRIDS APPROACHES TO INTEROPERABILITY BETWEEN SDIS AND GRIDS 167
5.2.9 CONCLUSIONS AND OUTLOOK 172
5.3 WPS MEDIATION: AN APPROACH TO PROCESS GEOSPATIAL DATA ON DIFFERENT COMPUTING
BACKENDS 174
5.3.1 ABSTRACT 174
5.3.2 INTRODUCTION 174
5.3.3 WEB PROCESSING SERVICE AND DISTRIBUTED COMPUTING 176
5.3.4 GRIDIFICATION APPROACHES 180
5.3.5 IMPLEMENTATION AND ARCHITECTURE 182
5.3.6 USE CASE: NDVI COMPUTATION 192
5.3.7 DISCUSSION & PERSPECTIVES 195
5.3.8 CONCLUSIONS 199
5.4 SUMMARY AND LESSONS LEARNED 200
CHAPTER 6: CONCLUSIONS & RECOMMENDATIONS 202
6.1 CONCLUSIONS 203
6.2 LIMITATIONS/CONSTRAINTS TO SDI DIFFUSION AND UTILIZATION 217
6.3 RECOMMENDATIONS/PERSPECTIVES 220
6.4 CONCLUDING REMARKS 227
REFERENCES 230
ANNEXES 244
A.1 INSPIRE THEMES 245
A.2 BRINGING GEOSS SERVICES INTO PRACTICE WORKSHOP 249
A.3 WITH OR WITHOUT SDI 250
LISTS OF FIGURES, TABLES & WEBSITES 251
FIGURES 252
TABLES 253
WEBSITES 253
ABBREVIATIONS & ACRONYMS 256
Abstract
Abstract
Today we are living in a globalized world with rapidly evolving processes including climate and land cover change, population growth that are impacting the environment. In parallel, means of communication have expanded to take on a remarkable place in our society, allowing us to access an enormous and continuous flow of information.
Our planet is a multi-‐dimensional system made of complex interactions highly interconnected and continuously evolving at many spatial and temporal scales. To understand these interactions, we need to gather and integrate different sets of data about physical, chemical and biological systems, as well as socio-‐economical ones. Altogether, these sets of data constitute environmental data sets, or data related to the environment. These data are often georeferenced, describing a geographical location through a set of attributes thus are part of geospatial data. An environmental data set is seldom interesting in itself, but rather displays its full information potential when used in conjunction with other data sets, allowing one to monitor and assess the actual status of the global, regional or local environments, to discover complex relationships between them, to model future changes, and to potentially support sound and reliable decisions-‐making processes at all scales (from local to global), and in many disciplines.
However, it has been reported that data accessibility, availability and compatibility are among the most frequent difficulties evidenced while preparing various environmental assessments in Europe. Additionally, it is estimated that up to 50% of users’ time is spent in data discovery and transformation in order to make them compatible. This is mainly caused because geospatial data are voluminous, geographically distributed, heterogeneous in format, complex, and bound to institutional arrangements and policies. All these factors influence the way that data providers store, publish and deliver geospatial data. Moreover, users are often lacking computing resources to analyze data. Current environmental research projects regularly need to handle several terabytes of data, and accessing high-‐performance hardware and specialized software is expensive. This explains why data sources are often fragmented, integrating geospatial data to answer a scientific problem is difficult and expensive, and diffusion of geospatial information may be problematic and not achieved as widely as possible.
With this in mind, the underlying hypothesis of this thesis is that making data interoperable and providing access to computing resources can potentially improve the above mentioned situations allowing data users to spend more time in data analysis than in data discovery, and enabling more people to benefit from using geospatial data on the environment.
In this thesis, we first show that there is a growing need to better organize and share environmental data in order to understand the complexity of earth-‐system processes and to convey improved information on the environment to decision-‐makers and the general public. Addressing this need by sharing environmental data is challenging because it requires a common agreed framework that allows easy and seamless integration of data from different sources giving access to services that could be linked together to process and generate new understandable knowledge and information. The establishment
and implementation of initiatives such as the Global Earth Observation System of Systems (GEOSS) and the Infrastructure for Spatial Information in the European Community (INSPIRE) reflect a growing commitment to better and efficiently manage environmental data, and to share them more openly using interoperability arrangements. This indicates increasing recognition of the potential benefits of informed decision-‐making from evaluation, access, integration and processing of various environmental, economical, statistical and other data sources within a common framework. We also highlight a unique added value of interoperable data and processing services that allows users to perform functions that cannot be made with any single component. By integrating/composing different services, new properties are emerging that offer possibilities to better understand the complex relationships between the different components of the Earth system.
We then demonstrate the benefits of Spatial Data Infrastructure (SDI) in a real use case targeting the Disaster Risk Reduction community that needs timely access and easy integration of geospatial data. The development of the PREVIEW Global Risk Data Platform has exemplified that having geospatial data in digital form allows easy storage into databases and file systems, facilitates data exchange/sharing, enables faster updates, gives the ability to integrate data from multiple sources, and finally favors the development of customized products and services. SDI concepts, methods and technologies provide a solid ground to facilitate and coordinate the exchange and sharing of geospatial data. The development of such a platform has highlighted benefits and raised various issues. In particular, computational needs to process large data sets and efficient access to geospatial data through OGC services are two factors that will strongly influence the future success of SDIs. Ensuring user satisfaction through sufficiently responsive services giving access to vector and raster data sets requires to measure and monitor them to track latencies, bottlenecks and errors.
Consequently, we developed an approach to measure performances of different data services and provided some guidance to data providers to improve the quality of their services. Our tests showed that overall performances of the tested implementations are globally satisfactory, even without tuning different parameters. However, to achieve reliable services, tuning memory on the server side is an essential and critical factor. Additionally, optimizing data and storage are factors that can easily increase efficiency of services. Some differences were highlighted regarding the various implementations of Web Feature Service (WFS) and Web Coverage Service (WCS) specifications. This can potentially limit data integration if clients do not implement the different flavors of these specifications. Finally, by their nature these specifications are not well suited to transfer large volume of data, and the current specifications are more appropriate to share local medium-‐resolution data than global high-‐resolution data. This can be a potential issue, especially given the ever-‐increasing volume of available high-‐resolution data.
The thesis finally discusses actual processing limitations of SDIs and presents a possible approach to extend their capabilities using the OGC Web Processing Service (WPS) specification on distributed computing infrastructures.
Transforming raw data into understandable information is an essential task that SDIs cannot currently fully satisfy. Environmental sciences are data and computing-‐intensive domains where data are in general processed on desktop
computers. This clearly limits the types of analyses that can be conducted due to their reduced power given the ever-‐growing size of data that need to be analyzed. Therefore, Environmental sciences and Geographical Information communities are trying to benefit from the superior storage and computing capabilities offered by distributed computing related methods and technologies.
Our research showed that grid-‐enabled SDIs have the potential to become a powerful tool within the multi-‐disciplinary field of environmental sciences, empowering researchers to explore new venues to better understand the vast complexity of the interactions between anthropic and natural systems. In our view, connecting Grids and SDIs could potentially mark the advent of a new generation of SDIs extending their capacities to, and benefiting from, Grid infrastructures both in term of data processing and data management.
We conclude that SDIs and related concepts, methods and technologies are suitable and can bring major benefits to support and facilitate environmental data discovery, accessibility, visualization, dissemination and analysis. On a technical level, all the building blocks are available, supported by OGC and ISO standards, allowing data providers to start sharing and disseminating their data and metadata in an interoperable way. Our work has highlighted that this is feasible, it is not difficult to develop, and software implementation are reliable.
Moreover, facilitating access, integration and use of geospatial data can answer the requirements of a specific community as well as making these data available to the widest possible audience. We argued through 13 recommendations that it is time to make all these web-‐based geospatial information components operational, otherwise SDI will remain only an innovative concept. Let the dream come true because we cannot wait! The challenges that humankind is facing require acting now and we need to provide decision-‐makers with tools that allow them accessing rapidly and efficiently good and reliable environmental information. SDIs have clearly the potential to be a part of the answer to bridge the gap between science and policy-‐making. It is obvious that to achieve this objective in the shortest term possible it will mostly depend on political, social, economical constraints. In this sense, the human component is probably the most influencing one. It is on this component that future endorsements depend because, at the technological level it is no more a problem to share data and metadata. At this stage it is only a matter of human/political will to make it happen or not. In our view, capacity building (at human, institutional and technical levels) will certainly help to reach endorsement on the use of such technologies, raising and increasing awareness on the benefits of sharing geospatial data, and finally creating new commitments. Scattering efforts and energies in discussions that often concern only details can block entire process, resulting in lost of (precious) time and motivation, and finally leading to the risk of disappointment and disengagement…. So it is time to SHARE!
Résumé
Actuellement, nous vivons dans un monde globalisé, où tous les processus évoluent rapidement, dont entre autre les changements climatiques et de couverture du sol ainsi que la croissance démographique qui impactent l'environnement. Parallèlement, les moyens de communication ont évolué et pris une place remarquable dans notre société, nous permettant d'accéder à un flux énorme et continu d'informations.
Notre planète est un système multi-‐dimensionnel fait d'interactions complexes fortement interconnectées et en constante évolution à de nombreuses échelles spatiales et temporelles. Pour comprendre ces interactions, nous avons besoin de recueillir et d'intégrer des données différentes sur les propriétés physiques, chimiques et biologiques ainsi que socio-‐économiques. Ensemble, ces jeux de données constituent les données environnementales ou les données liées à l'environnement. Ces données sont souvent géoréférencées, décrivant une localisation géographique à travers un ensemble d'attributs et peuvent donc être entendues comme faisant partie des données géospatiales. Un ensemble de données environnementales est rarement intéressant en soi, mais montre plutôt son réel potentiel informatif lorsqu'il est utilisé en conjonction avec d'autres ensembles de données, permettant de surveiller et d'évaluer l'état de l'environnement mondial, régional ou local, de découvrir les relations complexes entre elles, de modéliser les changements futurs, et potentiellement de soutenir la prise de décisions pertinentes et fiables à toutes les échelles (du local au global) et dans de nombreuses disciplines.
Toutefois, il a été rapporté que l'accessibilité, la disponibilité et la compatibilité des données sont parmi les difficultés les plus fréquentes mises en évidence lors de la préparation de diverses évaluations environnementales en Europe. En outre, on estime que 50% du temps des utilisateurs est passé à découvrir et transformer des données afin de les rendre compatibles. Ceci est principalement dû au fait que les données géospatiales sont volumineuses, géographiquement distribuées, hétérogènes en terme de format, complexes, et liées à des arrangements institutionnels et politiques. Tous ces facteurs peuvent influencer la façon dont les fournisseurs de données stockent, publient et fournissent des données géospatiales. En outre, les utilisateurs manquent souvent de ressources de calculs pour analyser les données. Les projets de recherche actuels sur l'environnement ont régulièrement besoin de gérer plusieurs téraoctets de données et l'accès au matériel de hautes performances ainsi qu’aux logiciels spécialisés est cher. Ceci explique pourquoi actuellement les sources de données sont souvent fragmentées, l'intégration de données géospatiales pour répondre à un problème scientifique est difficile et coûteux, et la diffusion de l'information géospatiale peut être problématique et n’est pas utilisée aussi largement que possible.
En gardant ce problème à l’esprit, l'hypothèse de base de cette thèse est que rendre les données interopérables et donner accès à des ressources de calcul peut potentiellement améliorer la situation mentionée précédemment en permettant aux utilisateurs de passer plus de temps dans l'analyse qu’à la découverte de ces données et de permettre à davantage de personnes de bénéficier de l'accès aux données géospatiales sur l'environnement.
Dans cette thèse, nous montrons d'abord qu'il existe un besoin croissant de mieux organiser et partager des données environnementales afin de comprendre la complexité des processus du système terrestre et de transmettre une meilleure information sur l'environnement aux décideurs et au grand public.
Répondre à ce besoin par le partage des données sur l'environnement est difficile car elle nécessite un cadre commun qui permet une intégration facilitée et transparente des données provenant de différentes sources donnant accès à des services qui pourraient être reliés entre eux pour traiter et générer de nouvelles connaissances et informations. L'établissement et la mise en œuvre d’initiatives comme le Global Earth Observation System of Systems (GEOSS) et l'Infrastructure d'information Spatiale dans la Communauté Européenne (INSPIRE) démontrent un engagement et un besoin croissant de gérer efficacement les données environnementales, et de les partager plus ouvertement à l'aide de mécanismes permettant de les rendre interopérables.
Cela indique aussi une reconnaissance croissante des avantages potentiels pour la prise de décision ainsi que pour l'évaluation, l'accès, l'intégration et le traitement des diverses sources de données environnementales, économiques, statistiques dans un cadre de référence commun. Nous soulignons également, une valeur ajoutée unique de données et de services interopérables: elles permettent aux utilisateurs d'exécuter des fonctions qui ne peuvent être faites avec un seul composant. En intégrant différents services, de nouvelles propriétés apparaissent et offrent des possibilités pour mieux comprendre les relations complexes entre les différentes composantes du système terrestre.
Nous démontrons ces avantages du SDI dans un cas d'utilisation réel ciblant la communauté de réduction des risques et catastrophes qui nécessite d'un accès rapide et une intégration facile des données géospatiales. Le développement de la plateforme PREVIEW a illustré qu’ avoir des données géospatiales sous forme numérique permet: un stockage simplifié dans des bases de données et des systèmes de fichiers, facilite l'échange de données et le partage des données, et permet une mise à jour plus rapide, donne la possibilité d'intégrer des données provenant de sources multiples, et favorise enfin le développement de produits et services personnalisés. Les SDIs constituent donc une base solide pour faciliter et coordonner l'échange et le partage des données géospatiales. Le développement d'une telle plate-‐forme a mis en évidence des avantages et des inconvénients. En particulier, les besoins de calcul pour traiter de grands jeu de données et un accès efficace aux données géospatiales au moyen de web services OGC sont deux facteurs qui influencent fortement le succès futur des SDIs. Garantir la satisfaction des utilisateurs grâce à des services suffisamment efficaces donnant accès à des données vecteurs et rasters requièrent de pouvoir mesurer et surveiller ces services afin d’évaluer les temps de latence, les goulets d'étranglement et les erreurs. Par conséquent, nous avons développé une approche permettant de mesurer les performances de différents services de données et de fournir des orientations aux fournisseurs de données afin d’améliorer la qualité de leurs services. Nos tests ont montré que les performances globales des implémentations testées sont globalement satisfaisants déjà sans réglage de paramètres particuliers. Toutefois, pour atteindre une plus grande fiabilité des services, la mémoire est un facteur essentiel et critique à mettre au point. En outre, optimiser les données et leur stockage sont des facteurs qui peuvent facilement augmenter l'efficacité des
services. Certaines différences ont été mises en évidence en ce qui concerne les diverses implémentations des spécifications WFS et WCS. Cela peut potentiellement réduire l'intégration de données si les clients n’implémentent pas ces différences de spécifications. Enfin, de par leur nature ces spécifications ne semblent pas bien adaptées à transférer de grands volumes de données. Les spécifications actuelles sont plus appropriées pour partager des données locales de moyenne résolution que des données globales à haute résolution. Cela peut être un problème potentiel compte tenu du volume croissant de données à haute résolution disponible.
Cette thèse aborde enfin les limites de capacité de calculs actuelles des SDIs et présente une approche pour étendre leurs capacités à l'aide de la spécification de l'OGC Web Processing Service (WPS) sur les infrastructures de calculs distribués. Transformer des données brutes en informations compréhensibles est une tâche essentielle que les SDIs ne peuvent pas actuellement satisfaire pleinement. Les sciences de l'environnement sont des domaines à forte intensité de calculs où les données sont généralement traitées sur des ordinateurs de bureau. Cela limite clairement les types d'analyses qui peuvent être réalisées en raison de leur puissance réduite, étant donné une taille sans cesse croissante des données qui doivent être analysées. Par conséquent les sciences de l'environnement et la communauté de l'information géographique tentent de bénéficier de la capacité de stockage accrue et des capacités de calculs offertes par les méthodes et technologies de calculs distribués. Nos recherches ont montré que les SDIs supportés par une grille de calculs ont le potentiel pour devenir un outil puissant dans le domaine multidisciplinaire des sciences de l'environnement, permettant aux chercheurs d’explorer de nouveaux domaines et technologies afin de mieux comprendre l'immense complexité des interactions entre les systèmes anthropiques et naturelles. A notre avis, les grilles de calculs et les SDIs peuvent marquer l'avènement d'une nouvelle génération d’SDIs avec des capacitiés étendues et bénéficiant des grilles de calculs tant en terme d’analyse que de gestion des données.
Nous concluons que les SDIs et les concepts, méthodes et technologies associées sont appropriés et peuvent apporter des avantages importants pour soutenir et faciliter la découverte, l'accessibilité, la visualisation, la diffusion et l'analyse de données environnementales. Sur le plan technique, tous les éléments sont disponibles, supportés par les standards de l'OGC et les normes ISO, pour permettre aux fournisseurs de données de commencer à partager et diffuser leurs données et métadonnées d'une manière interopérable. Notre travail a souligné que cela est faisable et n'est pas difficile à mettre au point, les logiciels étant fiables et que faciliter l'accès, l'intégration et l'utilisation de données géospatiales permet de répondre aux exigences d'une communauté spécifique, et de rendre ces données accessibles à un public aussi large que possible. Nous soutenons à travers 13 recommandations, qu'il est temps de rendre tous ces éléments de l'information géospatiale opérationnels sinon les SDIs resteront uniquement un concept novateur. Il est temps que le rêve devienne réalité parce que nous ne pouvons pas attendre! Les défis auxquels l'humanité est confrontée exigent que l’on agisse maintenant et nous avons donc besoin de fournir aux décideurs des outils qui leur permettent d'accéder rapidement et efficacement à de l'information environnementale fiable et de qualité. Les SDIs ont clairement le potentiel d'être une partie de la réponse qui permettra de combler le fossé entre
la science et les décideurs. Il est évident que pour atteindre cet objectif dans les plus brefs délais, tout dépendra en grande partie des contraintes politiques, sociales et économiques. En ce sens, la composante humaine est sans aucun doute la plus influente. C'est de cette composante que dépendra les futurs soutiens car au niveau technologique, le partage des données et métadonnées de manière interopérable n’est plus un problème. A ce stade, il s’agit simplement d’une question de volonté politique/humaine qui permettra d’y arriver ou non. A notre avis, le renforcement des capacités (au niveau humain, institutionnel et technique) aidera certainement à obtenir le soutien à l'utilisation de ces technologies, d’élever et d’accroître la sensibilitié des utilisateurs sur les avantages liés au partage des données géospatiales, et enfin de permettre la création de nouveaux engagements. La dispersion des efforts et des énergies dans des discussions qui concernent souvent des détails peuvent bloquer un processus entier, résultant en des pertes de temps (précieux) et de motivation, et enfin mener au risque de déception et de désengagement .... Alors il est temps de PARTAGER!
Riassunto
Oggi viviamo in un mondo globalizzato con una rapida evoluzione dei processi tali i cambiamenti climatici e di copertura del suolo, la crescita della popolazione e impatando l’ambiante. In parallelo, i mezzi di comunicazione hanno acquisito un posto notevole nella nostra società, che ci permette di accedere a un enorme flusso continuo di informazioni.
Il nostro pianeta è un sistema multi-‐dimensionale di interazioni complesse altamente interconnesse e in continua evoluzione in molte scale spaziali e temporali. Questo significa che per capire queste interazioni, abbiamo bisogno di raccogliere e integrare diversi dati sui sistemi fisici, chimici e biologici, ed anche socio-‐economici. Nel complesso, questi insiemi di dati ambientali costituiscono insiemi di dati o di dati relativi all'ambiente. Questi dati sono spesso georeferenziati, che descrivono una posizione geografica attraverso una serie di attributi, e quindi potrebbero essere intesi come dati geospaziali. Un set di dati ambientali raramente è interessante in sé, ma piuttosto mostra il suo pieno potenziale informativo quando usato in combinazione con altri insiemi di dati, permettendo di monitorare e valutare lo stato attuale dell’ambiente globale, regionale o locale, per scoprire le complesse relazioni tra di loro, per modellizare i cambiamenti futuri e, potenzialmente, sostenere decisioni valide e affidabili su tutte le scale (dalla locale alla globale) e discipline.
Tuttavia, è stato riferito che l'accessibilità, la disponibilità e la compatibilità dei dati sono tra le difficoltà più frequenti evidenziate durante la preparazione di diverse valutazioni ambientali in Europa. Inoltre, si stima che il 50% del tempo degli utenti viene speso nella scoperta e trasformazione dei dati, al fine di renderli compatibili. Ciò è dovuto principalmente perché i dati geospaziali sono voluminosi, geograficamente distribuiti, eterogenei in formati, complessi, e dipendono da accordi istituzionali e politici. Tutti questi fattori possono influenzare il modo in cui i provider di dati pubblicano e distribuiscono i dati geospaziali. Inoltre, gli utenti spesso mancano di risorse di calcolo per analizzare i dati. I progetti attuali di ricerca ambientale hanno regolarmente la necessità di gestire diversi terabyte di dati ed accedere ad alte prestazioni hardware e software specifici e sono costosi. Questo spiega perché attualmente le fonti di dati sono spesso frammentate, l'integrazione dei dati geospaziali per rispondere a un problema scientifico è difficile e costoso, e la diffusione d’
informazioni geospaziali puo’ essere problematico e non viene utilizzato nel modo più ampio possibile.
Tenendo in conto tutto cio’, l'ipotesi di questa tesi è di rendere i dati interoperabili e fornire un accesso a risorse di calcolo che possono migliorare la situazione sopra-‐citata consentendo agli utenti di dedicare più tempo all'analisi dei dati piuttosto che al rilevamento e consentire a più persone di trarre beneficio dall'uso dei dati geospaziali per l'ambiente.
In questa tesi, abbiamo dimostrato che c’è una crescente necessità di organizzare e condividere meglio i dati ambientali al fine di capire la complessità dei processi del sistema Terra e trasmettere una migliore informazione in materia ambientale all’opinione pubblica. Affrontare questa esigenza di condivisione di dati ambientali è impegnativo, perché richiede un quadro di comune accordo che permette una facile integrazione e ininterrotta di dati da fonti diverse che danno accesso a servizi che potrebbero essere collegati tra loro
per elaborare e generare nuove conoscenze e informazioni comprensibili.
L'istituzione e l'attuazione di iniziative come il Global Earth Observation System of Systems (GEOSS) e l'Infrastruttura per l'Informazione Territoriale nella Comunità Europea (INSPIRE) riflettono un crescente impegno per una gestione dei dati ambientali migliore ed efficiente, con il fine di condividerli in modo più aperto con accordi di interoperabilità. Questo indica una crescente consapevolezza circa i potenziali vantaggi per un processo decisionale informato, e un accesso, un’integrazione ed un’elaborazione di varie fonti ambientali, economiche, statistiche e di altri dati all'interno di un quadro comune. Si evidenzia inoltre un valore aggiunto unico di dati e servizi interoperabili di elaborazione che permette agli utenti di eseguire funzioni che non possono essere fatte con ogni singolo componente. Integrando diversi servizi, nuove proprietà emergono e offrono la possibilità di comprendere al meglio i complessi rapporti tra le diverse componenti del sistema Terra.
Abbiamo dimostrato i benefici degli SDI in un caso d'uso reale della comunità nella riduzione dei rischi di catastrofi chehanno bisogno di accedere tempestivamente ed integrare facilmente i dati geospaziali. Lo sviluppo della piattaforma PREVIEW ha dimostrato che avere dati geospaziali in forma digitale consente un facile stoccaggio in banche dati e sistemi di file, facilita lo scambio di dati e la condivisione, consente aggiornamenti più veloci, dà la capacità di integrare dati provenienti da più fonti, e favorisce prodotti e servizi personalizzati in via di sviluppo. I concetti, metodi e tecnologie SDI possono fornire una solida base per facilitare e coordinare lo scambio e la condivisione di dati geospaziali. Lo sviluppo di tale piattaforma ha messo in evidenza I vantaggi e ha sollevato diverse questioni. In particolare, le esigenze di calcolo per elaborare grandi quantità di dati e un accesso efficiente ai dati geospaziali mediante servizi OGC sono due fattori che influenzano fortemente il futuro successo delle SDI.
Garantire la soddisfazione degli utenti attraverso servizi efficienti che danno accesso ai dati vettoriali e raster richiede misurare e monitorare le latenze, le strozzature e gli errori. Di conseguenza, abbiamo sviluppato un approcio che permette di misurare le prestazioni dei diversi servizi di dati e di fornire alcune indicazioni ai provider per migliorare la qualità dei loro servizi. I nostri test hanno dimostrato che le prestazioni complessive delle implementazioni testate sono globalmente soddisfacenti anche senza modificare i parametri di ottimizzazione. Tuttavia, per realizzare servizi affidabili la memoria è un fattore essenziale e critico. Inoltre, l'ottimizzazione dei dati e del loro stoccaggio sono fattori che possono facilmente aumentare l'efficienza dei servizi. Alcune differenze sono state evidenziate per quanto riguarda le varie implementazioni di WFS e WCS. Ciò può potenzialmente limitare l'integrazione dei dati se i clienti non implementano queste diversi variazioni. Infine, dovuto alla loro natura, queste specificazioni non sono adatte per trasferire grandi quantità di dati e attualmente sono più adatte per condividere dati locali a media risoluzione che globali ad alta risoluzione. Questo può essere un potenziale problema, dato il volume sempre crescente di dati ad alta risoluzione disponibile.
Questa tesi infine discute i limiti analitici delle SDI e presenta un possibile approcio per estendere le loro capacità utilizzando l'OGC Web Processing Service (WPS) specificazione usando delle infrastrutture di calcolo distribuito.
Trasformare i dati grezzi in informazioni comprensibili è un compito fondamentale che i SDI al momento non possono soddisfare pienamente. Le