Volet 4 : Mise en place d’équations pour prédire la tendreté de la viande bovine
II. Les atouts et les limites des bases de données
II.1. Les atouts
Partager les données entre scientifiques présente deux avantages majeurs. Cela permet tout
d’abord à une équipe de recherche de vérifier la pertinence des analyses précédemment
publiées par une autre équipe. De plus, malgré l’hétérogénéité des expériences, rassembler des
données de diverses origines permet d’accroître la puissance statistique des analyses réalisées,
en prenant en compte un effet « expérimentation ». Dans une optique de diffusion et de
partage de données (« data sharing », « open data »), la mutualisation des gisements de
données dans des bases de données qui doivent être accessibles devient de plus en plus
appréciée et encouragée dans le monde scientifique (Hrynaszkiewicz 2010). Comme l’a écrit
Vincent Smith (2009) : « les données sont le carburant de la Science ». Effectivement, la
science ne cesse d’évoluer, sous l'effet d'une révolution dans les technologies numériques, ce
qui facilite l'acquisition et la communication entre chercheurs de quantités massives de
données. Mais « si les technologies numériques sont le moteur de cette révolution, les
données numériques en sont le carburant. Toutefois, pour de nombreuses disciplines
scientifiques, ce carburant est encore une denrée rare » (Smith 2009) car la culture du partage
des données est encore peu répandue en sciences animales sauf en génétique pour des
caractères assez simples à mesurer. Il est cependant important de continuer à mettre en place
des expérimentations scientifiques afin d’alimenter les bases de données par de grands
volumes de mesures. En retour, l’utilisation de ces bases permet aussi de proposer de
nouvelles hypothèses biologiques à valider par des expérimentations.
Glass (2000) a proposé que « les chercheurs doivent cesser de penser à eux-mêmes comme
des scientifiques examinant des grandes théories, et faire face au fait qu’ils sont des
techniciens qui collectent et classent des informations, souvent sous des formes
quantitatives ». En outre, les études menées par les différents chercheurs, chacun dans son
laboratoire, peuvent être controversées sur une même question ou sujet. Ainsi, grâce au
rassemblement des résultats de différentes mesures dans ces bases de données, associées aux
méta-analyses, des lois générales peuvent être dégagées et conclues. A ce sujet, un numéro
spécial (Anonymous 2009, Nelson 2009, Schofield et al 2009, Toronto Int Data Release
2009) sur le partage de données est apparu dans la revue internationale « Nature ». Il existe
donc un enjeu autour des bases de données qui va encore aller en s’accélérant car, au cours
Discussion générale et conclusions
137
des toutes prochaines années, il sera produit sur toute la planète plus de données de recherche
que tout ce qui a été produit dans l’histoire de l’humanité (Beagrie, 2007).
Ma thèse s’inscrit dans cette démarche de partage de données puisque la base de données
BIF-Beef est un exemple de mutualisation des gisements de données issues de différents
programmes de recherche française et européens (Cf. Volet 1). Ce jeu de données, original et
précurseur dans le domaine de la qualité de la viande, est unique de par la quantité de mesures
effectuées, essentiellement, sur les tissus musculaires de bovins, et a constitué une source de
données solides et originales pour ma thèse. La base BIF-Beef se caractérise aussi par des
données individuelles sur animaux et échantillons musculaires directement issues
d’expérimentations, et non pas par des moyennes ou par des données calculées issues de la
bibliographie.
Malgré tout, le nombre ne suffit pas à faire la qualité des entrepôts de données et plusieurs
limites et difficultés d’utilisation de bases de données rassemblant des résultats de différentes
expériences ont été identifiées au cours de mon travail.
II.2. Difficultés et limites des bases de données
II.2.1. Le cas des données manquantes
Une difficulté majeure du traitement des bases de données est le fait que cette dernière
contient des données manquantes (DM) (ou données non renseignées). On parle de donnée
manquante lorsqu’on n’a pas d’observations pour une variable donnée pour un individu
donné. Certains auteurs estiment que 95% des jeux de données sont incomplets avec au moins
une DM (Sauvant et al 2005). Les DM constituent un problème majeur puisque cette absence
d’information diminue la abilité du dispositif expérimental impacté (Sauvant et al 2005). En
raison de différences dans les protocoles entre expérimentations qui constituent la base
BIF-Beef, après extraction des jeux de données pour une méta-analyse, on peut se retrouver avec
des DM.
La plupart des logiciels statistiques (comme SAS par exemple) suppriment purement et
simplement les observations incomplètes. Même si cela n’a pas de conséquences pratiques
lorsqu’on dispose de données très nombreuses, cela peut supprimer tout intérêt à l’étude si le
nombre de données restantes est trop faible ou si les DM concernent spécifiquement un sous
échantillon particulier d’individus.
Discussion générale et conclusions
138
Selon leur proportion et leur type, des solutions différentes vont être choisies pour traiter
ces DM. Certains auteurs proposent de remplacer chaque valeur manquante (imputation) par
la moyenne ou la médiane (calculée sur les données réellement observées) de la variable
correspondante, mais cette moyenne peut être une très mauvaise approximation dans le cas où
la variable présente une grande dispersion (Cottrell et Letremy, 2005). D’autres méthodes
d’imputation sont également disponibles, comme l’imputation par le plus proche voisin qui
remplace les DM par des valeurs provenant d’individus similaires pour lesquels toute
l’information a été observée, et l’imputation par régression qui consiste à remplacer les DM
par des valeurs prédites selon un modèle de régression ou une approche algorithmique
(Cottrell et Letremy, 2005). Cependant, il existe de sérieuses contre-indications à l’application
de certaines de ces méthodes (Schafer et Graham, 2002). Toutefois, certaines d’entre elles ont
été améliorées en ajoutant une marge d’erreur aléatoire an que l’imputation reète mieux
l’incertitude liée aux DM.
Même si elles sont tout à fait envisageables dans le cas de la base de données BIF-Beef,
toutes ces solutions « statistiques » ne sont pas utilisables actuellement parce qu’elles
induisent des biais dans l’interprétation des résultats puisque les imputations peuvent être une
mauvaise estimation dans le cas où la variable présente une grande dispersion. L’expertise
scientifique de l’utilisateur des données est là pour valider ou non ces estimations, ce qui
souligne que les bases de données doivent être utilisées par des experts des questions
scientifiques à traiter.En outre, la base BIF-Beef contient des données individuelles mesurées
sur l’animal qui sont structurées par les expérimentations que l’on ne peut pas relier entre
elles. En revanche, il est possible d’éviter les DM si les protocoles expérimentaux sont
standardisés entre les différentes expériences, ce qui n’est pas le cas de la base BIF-Beef, mais
ce qui a été le cas dans la démarche du système MSA.
II.2.2. Le cas des dispositifs expérimentaux non « connexes »
Par construction, les schémas d’analyses possibles (ou « méta-dispositifs »), des données
issues d’une base qui rassemble plusieurs expérimentations, n’ont jamais été conçus à
l’avance. De ce fait, un tel schéma d’analyse n’est, en général ni classique ni équilibré, ni
orthogonal. Dans certains cas, la répartition des données manquantes fait que le «
méta-dispositif » n’est pas connexe comme disent les spécialistes [une connexion satisfaisante étant
une répartition suffisamment équilibrée des données dans les différents niveaux des facteurs
Discussion générale et conclusions
139
de variation (race, sexe…)] (revue de(Hanocq et al 1999) et, en conséquence les effets
envisagés ne peuvent pas être testés (Sauvant et al 2005).
En outre, dans la plupart des situations traitées par méta-analyse, la variabilité entre les
différentes expérimentations est souvent bien plus importante que celle qui a été induite
expérimentalement à l’intérieur de la même expérimentation. De plus, les relations existantes
entre deux variables ne sont en général pas identiques entre et à l’intérieur des
expérimentations. La question se pose alors de savoir si c’est la relation inter ou
intra-expérimentation qui présente la portée la plus générale (Sauvant et al 2005).
De plus, dans notre étude, en raison de variabilité dans les protocoles expérimentaux, les
mêmes mesures n’ont pas été effectuées dans les mêmes conditions ou sur les mêmes muscles
dans toutes les expérimentations, ce qui est à l’origine d’un écart d’effectif considérable dans
certains cas (Cf. Volet 3 où le muscle Longissimusthoracis était majoritairement présent dans
chaque classe de tendreté).
Discussion générale et conclusions
140
Dans le document
Méta-analyses des caractéristiques musculaires afin de prédire la tendreté de la viande bovine
(Page 157-161)