• Aucun résultat trouvé

Passion is inversely proportional to the amount of real information available. Gregory Benford, Timescape, 1980

Un problème rencontré presque invariablement dans l'application de tous types d’évaluation quantitative des impacts environnementaux est l'absence de données. Celle-ci se manifeste plus fortement en analyse du cycle de vie par le fait que chacune des étapes, de la définition des objectifs à l’évaluation des impacts, nécessite des données exhaustives. En effet, l’utilité de l'ACV dépend de données valides et vérifiables (Ayres 1995). Le manque de données, représentatives ou non du contexte temporel, géographique et technologique pour un système donné, continue ainsi d'affecter la fiabilité des ACV et plus particulièrement sa phase intermédiaire d'inventaire du cycle de vie (Reap et al. 2008). Si un produit mal documenté se retrouvait mieux évalué qu'un autre pour lequel les données d'inventaire disponibles sont plus adéquates, l'analyse perd toute crédibilité. D’où l'importance d’évaluer les incertitudes afin de ne pas discréditer l'ACV (Weidema 2000; Williams, Weber, and Hawkins 2009). Le manque de données se décline différemment selon les domaines d'analyses, tant et si bien qu'il est utile de préciser sa signification en statistique et en ACV, deux domaines entre lesquels les allées et venues sont fréquentes dans les pages qui suivent. En revanche, une caractéristique du manque de données reste commune à de nombreux outils d’évaluation d'impact, l'incertitude des résultats s'en trouve généralement plus élevée.

2.1 Incertitudes des données

Le manque de données a son propre principe en statistique, tant ce problème est répandu. L’énoncé du Missing Information Principle est le suivant : un problème à priori simple requiert

une analyse plus complexe lorsque l'information manque (Orchard and Woodbury 1972). Les données manquantes vont de non réponses dans un sondage aux valeurs observables uniquement à des coûts excessifs ou confidentielles. Trois grandes catégories de données manquantes existent (Little and Rubin 2002). Tout d'abord la probabilité que des données manquent peut être totalement indépendante du reste de l’échantillon (missing completely at random ou MCAR). Un exemple est l'absence de données suite à la perte, pure et simple, de mesures. A noter que les cas où cette perte n'est pas la conséquence d'un événement imprévisible, peuvent refléter d'autres problèmes que l'absence de données elle-même. Ensuite, la probabilité que les données manquent peut dépendre uniquement des observations, tout en restant aléatoire (missing at random ou MAR). Par exemple, si deux mesures sont prises et qu'une troisième est requise lorsque les deux premières diffèrent largement, cette troisième mesure manque si les deux premières concordent. Finalement la catégorie la plus délicate concerne les données pour lesquelles les deux autres catégories ne s'appliquent pas. La probabilité qu'elles manquent peut alors dépendre de données non observables (non missing at random ou NMAR). En général, même si certaines données ne peuvent pas être observées, l’hypothèse MAR est peu restrictive, particulièrement dans les cas qui suivront ou plusieurs covariables ou variables secondaires sont, elles, observables (Tsiatis 2006).

Une autre source d'incertitude qui découle d'un manque de données est l'absence d’échantillon suffisant pour valider le choix d'un modèle ou de ses paramètres. Le statisticien John Tukey invente le concept de uncomfortable science pour décrire une situation où des sets distincts pour la calibration et validation d'un modèle sont exclus par manque d'observations (Hoaglin, Mosteller, and Tukey 1985). A priori, dans les cas où les données sont rares, les chances d'obtenir des échantillons importants sont relativement faibles. A noter qu'un large échantillon dont les incertitudes sont mal documentées ne compense pas nécessairement des données moins nombreuses mais plus fiables ou représentatives du contexte temporel ou technologique (Funtowicz and Ravetz, 1990). De plus, les données en inventaire du cycle de vie proviennent de sources diverses, à des coûts variables généralement plus élevés pour des données empiriques que pour des bases de données génériques ou des références bibliographiques.

2.2 Incertitudes des données d'inventaire

En ACV, et contrairement aux statistiques, le terme incertitude des paramètres correspond à l'incertitude des données qui se distingue d'autres formes d'incertitude, notamment celles qui proviennent des choix de modélisation (Huijbregts 1998b; Ross, Evans, and Webber 2002). Dans cette thèse, les deux terminologies sont parfois utilisées pour représenter le même problème, avec une nette préférence pour la dénomination statistique. De fait, les paramètres sont propres au modèle développé ici et non des données d'inventaire. Le terme de données, lui, est tantôt utilisé pour designer un ensemble de valeurs observées – les observations – tantôt pour une valeur spécifique, manquante ou estimée.

Le manque de données se subdivise encore en inventaire du cycle de vie. Une distinction importante réside entre d'un coté le manque de données représentatives d'un processus à l’étude et de l'autre l'absence pure et simple de données pour caractériser ce processus. Cette classification de l'incertitude des données en inventaire du cycle de vie est un des résultats du groupe de travail

Data availability and data quality (Huijbregts et al. 2001). Son importance est essentiellement

liée aux différentes approches qui s'appliquent dans un cas comme dans l'autre, par exemple simulation et estimation statistique. Si le manque de données est une des principales sources d'incertitude en inventaire, affectant leur qualité ainsi que les résultats d'une ACV, le part due à l'absence de données représentatives ou non est difficilement quantifiable (Björklund 2002). Certains experts affirment que 30 à 70 % des flux d'inventaire manquent sans pour autant préciser de quel type de données il s'agit (Weidema 2009). La disponibilité des données est souvent limitée par les facteurs décrits dans le tableau 1. En pratique toute estimation nécessite un minimum de données observées, qu'elles soient connexes ou non représentatives. S'il y a substitution de données manquantes il existe nécessairement au moins une observation servant de proxy. Dans une approche statistique la disponibilité d'un échantillon est un prérequis essentiel, d’où l’intérêt pour des méthodes qui proviennent de domaines ou les données observées sont aussi rares, indépendamment des causes décrites ci-dessous.

Tableau 1: Principales causes du manque de données en ACV (adapté de Pehnt 2003)

Type Causes Description Exemple

I Confidentialité Données non disponibles pour des raisons de confidentialité

Marchés compétitifs, militaires

II Complexité Processus complexes ralentissant la collecte de données, relations causes à effets méconnues Niveau d’intégration des processus élevé

III Nouveauté Processus et technologies en cours de développement Nouveaux produits, nanotechnologies

IV Contexte Comportement des systèmes à l’étude imprévisible ou méconnu Dérégulation du marché de l’électricité

V Connaissances Absence de connaissances sur les processus, le contexte ou les deux

Que ce soient des bases de données ou des mesures sur le terrain, les causes les plus importantes quant au manque de données dans les applications qui suivent sont leur confidentialité et la complexité des processus étudiés. Les réseaux de production, transport et distribution d’électricité continuent de se développer à marche forcée, pour cause d'urbanisation croissante (Filion and Hebert 2004). Une des grandes tendances est la reconversion de barrages hydroélectriques en stations de pompage turbinage, une forme de batterie très lucrative qui complique l’évaluation des émissions par kWh d’hydroélectricité produit (Mijuk 2010; Deane, Gallachoir, and McKeogh 2010). Les connaissances continuent d'avancer sans toutefois fournir les réponses à tous les problèmes soulevés par la complexité des réseaux et les incertitudes demeurent élevées (Weber et al. 2010). En général, les données empiriques sont plus représentatives d'un contexte ou processus que les données génériques, bien que les premières fassent souvent partie des secondes après publication.

2.3 La problématique résumée

En résumé, le problème spécifique au travail de recherche présenté ci-après est le manque de données en inventaire du cycle de vie et comment y remédier. Étant donné les caractéristiques suivantes :

a) les contraintes sur la disponibilité des données d'inventaire, les besoins importants en données et leur manque chronique,

b) la complexité et l'ampleur de certains processus impliqués et imbriqués en analyse du cycle de vie,

c) l'importance des données représentatives du contexte temporel, géographique et technologique pour la qualité des inventaires,

les approches conventionnelles, par modélisation de processus ou encore par analyse « input- output », ont leurs limites que certains outils statistiques peuvent dépasser. A l’échelle de certains processus, les différences entre inventaires basés sur des données empiriques versus des données génériques, peuvent s’avérer significatives. L’idée principale est d'estimer les données manquantes à partir de doubles échantillons de données, primo les flux de matériaux et d’énergie et les émissions pour un processus spécifique et secundo les caractéristiques ou spécifications techniques de ce même processus. Le problème du manque de données n'est pas nouveau et les outils statistiques proposés non plus. Par contre les modifications qui y sont apportées, l’interprétation du problème et sa résolution, le sont.

Documents relatifs