• Aucun résultat trouvé

Les atouts et les limites des bases de données

Volet 4 : Mise en place d’équations pour prédire la tendreté de la viande bovine

II. Les atouts et les limites des bases de données

II.1. Les atouts

Partager les données entre scientifiques présente deux avantages majeurs. Cela permet tout

d’abord à une équipe de recherche de vérifier la pertinence des analyses précédemment

publiées par une autre équipe. De plus, malgré l’hétérogénéité des expériences, rassembler des

données de diverses origines permet d’accroître la puissance statistique des analyses réalisées,

en prenant en compte un effet « expérimentation ». Dans une optique de diffusion et de

partage de données (« data sharing », « open data »), la mutualisation des gisements de

données dans des bases de données qui doivent être accessibles devient de plus en plus

appréciée et encouragée dans le monde scientifique (Hrynaszkiewicz 2010). Comme l’a écrit

Vincent Smith (2009) : « les données sont le carburant de la Science ». Effectivement, la

science ne cesse d’évoluer, sous l'effet d'une révolution dans les technologies numériques, ce

qui facilite l'acquisition et la communication entre chercheurs de quantités massives de

données. Mais « si les technologies numériques sont le moteur de cette révolution, les

données numériques en sont le carburant. Toutefois, pour de nombreuses disciplines

scientifiques, ce carburant est encore une denrée rare » (Smith 2009) car la culture du partage

des données est encore peu répandue en sciences animales sauf en génétique pour des

caractères assez simples à mesurer. Il est cependant important de continuer à mettre en place

des expérimentations scientifiques afin d’alimenter les bases de données par de grands

volumes de mesures. En retour, l’utilisation de ces bases permet aussi de proposer de

nouvelles hypothèses biologiques à valider par des expérimentations.

Glass (2000) a proposé que « les chercheurs doivent cesser de penser à eux-mêmes comme

des scientifiques examinant des grandes théories, et faire face au fait qu’ils sont des

techniciens qui collectent et classent des informations, souvent sous des formes

quantitatives ». En outre, les études menées par les différents chercheurs, chacun dans son

laboratoire, peuvent être controversées sur une même question ou sujet. Ainsi, grâce au

rassemblement des résultats de différentes mesures dans ces bases de données, associées aux

méta-analyses, des lois générales peuvent être dégagées et conclues. A ce sujet, un numéro

spécial (Anonymous 2009, Nelson 2009, Schofield et al 2009, Toronto Int Data Release

2009) sur le partage de données est apparu dans la revue internationale « Nature ». Il existe

donc un enjeu autour des bases de données qui va encore aller en s’accélérant car, au cours

Discussion générale et conclusions

137

des toutes prochaines années, il sera produit sur toute la planète plus de données de recherche

que tout ce qui a été produit dans l’histoire de l’humanité (Beagrie, 2007).

Ma thèse s’inscrit dans cette démarche de partage de données puisque la base de données

BIF-Beef est un exemple de mutualisation des gisements de données issues de différents

programmes de recherche française et européens (Cf. Volet 1). Ce jeu de données, original et

précurseur dans le domaine de la qualité de la viande, est unique de par la quantité de mesures

effectuées, essentiellement, sur les tissus musculaires de bovins, et a constitué une source de

données solides et originales pour ma thèse. La base BIF-Beef se caractérise aussi par des

données individuelles sur animaux et échantillons musculaires directement issues

d’expérimentations, et non pas par des moyennes ou par des données calculées issues de la

bibliographie.

Malgré tout, le nombre ne suffit pas à faire la qualité des entrepôts de données et plusieurs

limites et difficultés d’utilisation de bases de données rassemblant des résultats de différentes

expériences ont été identifiées au cours de mon travail.

II.2. Difficultés et limites des bases de données

II.2.1. Le cas des données manquantes

Une difficulté majeure du traitement des bases de données est le fait que cette dernière

contient des données manquantes (DM) (ou données non renseignées). On parle de donnée

manquante lorsqu’on n’a pas d’observations pour une variable donnée pour un individu

donné. Certains auteurs estiment que 95% des jeux de données sont incomplets avec au moins

une DM (Sauvant et al 2005). Les DM constituent un problème majeur puisque cette absence

d’information diminue la abilité du dispositif expérimental impacté (Sauvant et al 2005). En

raison de différences dans les protocoles entre expérimentations qui constituent la base

BIF-Beef, après extraction des jeux de données pour une méta-analyse, on peut se retrouver avec

des DM.

La plupart des logiciels statistiques (comme SAS par exemple) suppriment purement et

simplement les observations incomplètes. Même si cela n’a pas de conséquences pratiques

lorsqu’on dispose de données très nombreuses, cela peut supprimer tout intérêt à l’étude si le

nombre de données restantes est trop faible ou si les DM concernent spécifiquement un sous

échantillon particulier d’individus.

Discussion générale et conclusions

138

Selon leur proportion et leur type, des solutions différentes vont être choisies pour traiter

ces DM. Certains auteurs proposent de remplacer chaque valeur manquante (imputation) par

la moyenne ou la médiane (calculée sur les données réellement observées) de la variable

correspondante, mais cette moyenne peut être une très mauvaise approximation dans le cas où

la variable présente une grande dispersion (Cottrell et Letremy, 2005). D’autres méthodes

d’imputation sont également disponibles, comme l’imputation par le plus proche voisin qui

remplace les DM par des valeurs provenant d’individus similaires pour lesquels toute

l’information a été observée, et l’imputation par régression qui consiste à remplacer les DM

par des valeurs prédites selon un modèle de régression ou une approche algorithmique

(Cottrell et Letremy, 2005). Cependant, il existe de sérieuses contre-indications à l’application

de certaines de ces méthodes (Schafer et Graham, 2002). Toutefois, certaines d’entre elles ont

été améliorées en ajoutant une marge d’erreur aléatoire an que l’imputation reète mieux

l’incertitude liée aux DM.

Même si elles sont tout à fait envisageables dans le cas de la base de données BIF-Beef,

toutes ces solutions « statistiques » ne sont pas utilisables actuellement parce qu’elles

induisent des biais dans l’interprétation des résultats puisque les imputations peuvent être une

mauvaise estimation dans le cas où la variable présente une grande dispersion. L’expertise

scientifique de l’utilisateur des données est là pour valider ou non ces estimations, ce qui

souligne que les bases de données doivent être utilisées par des experts des questions

scientifiques à traiter.En outre, la base BIF-Beef contient des données individuelles mesurées

sur l’animal qui sont structurées par les expérimentations que l’on ne peut pas relier entre

elles. En revanche, il est possible d’éviter les DM si les protocoles expérimentaux sont

standardisés entre les différentes expériences, ce qui n’est pas le cas de la base BIF-Beef, mais

ce qui a été le cas dans la démarche du système MSA.

II.2.2. Le cas des dispositifs expérimentaux non « connexes »

Par construction, les schémas d’analyses possibles (ou « méta-dispositifs »), des données

issues d’une base qui rassemble plusieurs expérimentations, n’ont jamais été conçus à

l’avance. De ce fait, un tel schéma d’analyse n’est, en général ni classique ni équilibré, ni

orthogonal. Dans certains cas, la répartition des données manquantes fait que le «

méta-dispositif » n’est pas connexe comme disent les spécialistes [une connexion satisfaisante étant

une répartition suffisamment équilibrée des données dans les différents niveaux des facteurs

Discussion générale et conclusions

139

de variation (race, sexe…)] (revue de(Hanocq et al 1999) et, en conséquence les effets

envisagés ne peuvent pas être testés (Sauvant et al 2005).

En outre, dans la plupart des situations traitées par méta-analyse, la variabilité entre les

différentes expérimentations est souvent bien plus importante que celle qui a été induite

expérimentalement à l’intérieur de la même expérimentation. De plus, les relations existantes

entre deux variables ne sont en général pas identiques entre et à l’intérieur des

expérimentations. La question se pose alors de savoir si c’est la relation inter ou

intra-expérimentation qui présente la portée la plus générale (Sauvant et al 2005).

De plus, dans notre étude, en raison de variabilité dans les protocoles expérimentaux, les

mêmes mesures n’ont pas été effectuées dans les mêmes conditions ou sur les mêmes muscles

dans toutes les expérimentations, ce qui est à l’origine d’un écart d’effectif considérable dans

certains cas (Cf. Volet 3 où le muscle Longissimusthoracis était majoritairement présent dans

chaque classe de tendreté).

Discussion générale et conclusions

140