Pratiques discutables en recherche
Hervé Maisonneuve www.redactionmedicale.fr
26 janvier 2016
Liens d’intérêts
• Rédacteur de www.redactionmedicale.fr
• Rédacteur adjoint de
• Consultant en rédaction et en formation professionnelle
• Membre commission HAS sur la qualité des revues (2010-2013)
• Comité de rédaction de
• Auteur de ‘La rédaction médicale’, Doin, 2010
• Rédacteur de ‘Science Editors’ Handbook’, EASE 2013
2
Pression sur les chercheurs
Publish or Perish ; Publish and Perish ; Publish early and dirty
• Les carrières et les allocations de ressources en partie basées sur les publications depuis les années 80s
• Frauder en science : très petit risque pour des avantages importants
Les mauvaises pratiques en science
• FFP pour Fabrication, Falsification, Plagiat
Depuis 20 ans, prise de conscience de l’existence des QRP ou Questionable Research Practices
• Zone grise ‘proche’ des bonnes pratiques de recherche
• Les QRP sont des actions qui violent les valeurs traditionnelles de
l’entreprise de recherche et qui peuvent porter atteintes à la recherche.
Ces comportements sont en désaccord avec les normes définies à partir d’un comportement moyen, ou du comportement idéal.
Science, 4 octobre 2013
2008, 12 numéros de 3 revues, 3627 p
Gross manipulation of blots.
Rossner M, Yamada K. JCB 2004;166:11-15
www.redactionmedicale.fr 22 janvier 2016 8
Fig 1. Many different datasets can lead to the same bar graph.
Weissgerber TL, Milic NM, Winham SJ, Garovic VD (2015) Beyond Bar and Line Graphs: Time for a New Data Presentation
Publications trompeuses
Perrin S. Make mouse studies work. Nature 2014;507:423-425.
• 327 essais randomisés de chirurgie (2007 / 2012)
• 152 enregistrés avec protocole avant la fin de l’essai
• 75 / 152 (49 %) « showed some evidence of discrepancies between outcomes registered and the outcomes published, most often related to omitting or introducing a primary outcome »
Janvier 2013, pages 1-6
Exemple d’embellissement
Présence du critère sur 152 articles %
Critère principal de jugement du protocole a été omis dans l’article 22
Critère principal de jugement dans l’article n’était pas dans le protocole 16
Variations du critère principal pour favoriser un résultat statistiquement significatif 14
Critère principal de jugement dans l’article était un critère secondaire du protocole 9
Mesure du critère de jugement principal dans l’article n’a pas été faite au moment 6
J Am Acad Child Adolesc Psychiatry 2001, July, p 762
16 septembre 2015
http://study329.org/bmj-press-release-and-materials/
Paxil, Deroxat ou Seroxat
Conclusions des 2 publications de l’essai 329
• 2001 : La paroxétine est généralement bien tolérée et efficace dans la dépression sévère de l'adolescent
• 2015 : Ni la paroxétine, ni les hautes doses d'imipramine n'ont montré une efficacité pour la dépression sévère des adolescents, et une
augmentation des risques a été observée avec les 2 médicaments. L'accès aux données sources des essais cliniques a des implications importantes pour la pratique clinique et la recherche, en considérant que les
conclusions publiées sur l'efficacité et la tolérance ne devrait pas être comprise comme autoritaire. La réanalyse de l'étude 329 illustre la
nécessité de rendre accessibles les données sources et protocoles pour augmenter la rigueur pour identifier les preuves
L’effet ‘Chrysalide’
Pour métamorphoser vos piteux résultats en beaux articles, vous avez deux pratiques :
1. Proposer des hypothèses a posteriori pour qu’elles correspondent aux données obtenues,
2. Torturer les données pour qu’elles répondent aux hypothèses
14
Journal of Management 2014 DOI: 10.1177/0149206314527133
Embellissement des données*
* Seror, Ravaud. Presse Médicale, septembre 2012 www.redactionmedicale.fr 22 janvier 2016 16
Difficulté de répliquer les recherches
• AMGEN : haematology and oncology departments, Californie
• 53 articles qualifiés de ‘landmark studies’ : 21 dans des revues de facteur d’impact > 20, et 32 dans des revues de facteur d’impact entre 5 et 19
• 6 (11 %) ont été reproduits
• Limitations car certains articles décrivaient des données préliminaires…
Bayer : 67 projets,
20/25 % de données répliquées
www.redactionmedicale.fr 22 janvier 2016 18
Nature reviews. Drug discovery. Sept 2011
http://centerforopenscience.org/
www.redactionmedicale.fr 22 janvier 2016 20
Science 2015;349, n°6251. 28 août
Fiabilité de la recherche biomédicale
• Londres, 1 & 2 avril 2015
The Academy of Medical Sciences Wellcome Trust
Medical Research Council (MRC)
Biotechnology and Biological Sciences Research Council (BBSRC)
• 80 experts
• Objectifs : Explorer les challenges et opportunités pour améliorer la reproductibilité et la fiabilité de la recherche biomédicale au
Royaume-Uni.
The Lancet, 11/04/15, R Horton, Rédacteur en chef
La mise ne accusation de la science est simple: une grande partie de la littérature scientifique, peut-être la moitié, peut être tout simplement fausse. Gangrénée par des études avec de petits échantillons, des effets minuscules, des analyses exploratoires invalides, et des conflits d'intérêts évidents, tout cela avec une obsession de poursuivre les tendances à la mode d'importance douteuse, la science a pris un virage vers
l’obscurantisme. Comme l’a dit un participant, «des méthodes nulles donnent des résultats". ... L'endémicité apparente du mauvais
comportement en recherche est alarmante. Dans leur quête pour raconter une histoire convaincante, les scientifiques sculptent trop souvent leurs données en fonction de leur vision préférée du monde. Ou ils écrivent des hypothèses pour répondre à leurs données.
The Lancet, 11/04/15, R Horton, Rédacteur en chef
Les rédacteurs de revues méritent leur juste part de critique aussi. Nous aidons et encourageons les pires comportements. Notre acquiescement aux facteurs d'impact engendre une concurrence malsaine pour gagner une place dans un petit nombre de revues. Notre amour de «l’innovation»
pollue la littérature avec beaucoup de contes de fée ‘statistiques’. Les
revues ne sont pas les seuls mécréants. Les universités sont dans une lutte perpétuelle pour l'argent et le talent, paramètres qui favorisent des
évaluations réductrices, comme la publication dans des revues avec un facteur d’impact. Les procédures nationales d'évaluation, telles que le
‘Research Excellence Framework’, incitent les mauvaises pratiques. Et les chercheurs eux-mêmes, y compris leurs plus hauts dirigeants, font peu pour changer une culture de recherche qui occasionnellement frôle les mauvaises conduites.
Rapport publié en octobre 2015
• 6 problèmes identifiés
• 7 stratégies possibles pour répondre à ces problèmes
http://www.acmedsci.ac.uk/policy/policy-projects/reproducibility-and-reliability-of-biomedical-research/www.redactionmedicale.fr 22 janvier 2016 24
Les 6 problèmes
• Le ‘draguage’ des données
• P-HACKing
• Recherche d’alternatives pour devenir ‘significatif’
• L’omission des résultats ‘négatifs’
• Chercheurs et rédacteurs ne
publient que des études ‘positives’
• Études de puissance insuffisante
Les 6 problèmes
• Erreurs
• Méthodes insuffisamment décrites
• Ne permettent pas de reproduire le travail
• Méthode expérimentale ‘faible’
• Un défaut méthodologique ne permet pas d’avoir des résultats valides
Les 7 stratégies
• Ouvrir et partager les données entre chercheurs
• Draguage de données
• Omission de résultats
• Enregistrer les protocoles d’études avant la recherche
• Draguage de données
• Omission de résultats
• Puissance insuffisante
• Méthodes insuffisamment décrites
•
Les 7 stratégies
• Collaboration
• Puissance insuffisante
• Méthodes insuffisamment décrites
• Méthodes ‘faibles’
• Automatisation
• Méthodes insuffisamment décrites
• Erreurs
• Méthodes ouvertes
• Méthodes insuffisamment décrites
• Méthodes ‘faibles’
• Erreurs
Les 7 stratégies
• Relecture après publication
• Méthodes ‘faibles’
• Méthodes insuffisamment décrites
• Lignes directrices pour écrire les articles
• Méthodes ‘faibles’
• Méthodes insuffisamment décrites
• Erreurs
Janvier 2014
Série de 5 articles de 10 pages avec exemples
Est-ce que les questions de recherches répondent
aux attentes des usagers ?
• Questions dont la priorité est faible
• Critères importants non évalués
• Plus de 50 % des études sont
préparées sans faire une revue
systématique des preuves disponibles
Est-ce que le schéma, les méthodes et
analyses sont appropriés ?
Est-ce que les rapports de recherche sont sans biais
et utilisables ? Est-ce que
l’information sur la recherche est totalement
accessible ? Est-ce que le
management et la régulation de la
recherche sont efficients ?
• Plus de 30 % des interventions dans les études ne sont pas suffisamment décrites
• Plus de 50 % des résultats planifiés des études ne sont pas publiés
• La plupart des nouvelles recherches ne sont pas interprétées dans le contexte d’une
évaluation systématique des preuves existantes
• Plus des 50 % des études ne sont jamais rapportées complètement
• Biais de non- publication des études ayant des résultats décevants
• Biais de présentation des données au sein des rapports
d’études
• Complicité avec d’autres sources de gaspillage et
d’inefficacité
• Disproportionné par rapport aux risques de la recherche
• Les méthodes de management et de régulation sont trop lourdes et
inconsistantes
• Des méthodes adéquates pour diminuer les biais ne sont pas utilisées dans 50 % des essais
• Puissance statistique inadéquate
• Réplication inadéquate des observations initiales
Gaspillage de la recherche
Quelle est la qualité de la littérature scientifique ?
« A lot of what is published is incorrect » Richard Horton, Lancet editor
11 April 2015, vol 385, n° 9976, p 1380 Remplaçons p < 0,05 par p < 0,001 !
Conclusion de R Horton
• Those who have the power to act seem to think somebody else should act first.
• The good news is that science is beginning to take some of its worst failings very seriously.
• The bad news is that nobody is ready to take the first step to clean up the system.
Lancet 2015;385:1380
Merci
www.redactionmedicale.fr
Aveuglement organisationnel
• On nous amuse
• avec les liens d’intérêts à bien déclarer alors que la plupart des chercheurs sont honnêtes, et ne savent pas quoi déclarer
• avec les mauvaises pratiques qui n’existeraient que dans
l’industrie, et/ou seraient limitées aux divers enjeux financiers
• Pendant ce temps, personne n’est gêné par des
comportements tout aussi condamnables
Aveuglement organisationnel
• Les résultats ‘positifs’ sont publiés plusieurs fois quand les résultats ‘négatifs’ ne sont jamais publiés : distorsion de la science ? 95 % des articles ont un P significatif…
• Environ 50 % publications ne seraient pas reproductibles, étonnant, NON !
• Environ 50 % des publications seraient ‘embellies’,
étonnant, NON ! Ce sont les pratiques discutables en
recherche….
Aveuglement organisationnel
• L’accès aux données sources est presque impossible
• Les chercheurs sont évalués sur la quantité des citations avec un indicateur de notoriété des revues, et non sur la qualité des publications…
• Open Access et APCs*: les chercheurs ne comprennent rien (green, gold, hybrid)
• L’intégrité scientifique ne s’enseigne pas !
www.redactionmedicale.fr janvier 2016 38
*APC: Article Processing Charge
Science Europe
• FFP n’est plus le seul paradigme (Fabrication, Falsification, Plagiat)
• Les pratiques discutables en recherche sont trop fréquentes
STAP/Nature: Cellules souches 2014
40
PLOS Biology 9 juin 2015
doi:10.1371/journal.pbio.1002165
PLOS ONE, 9 december 2015
PLOS Biology, 4 January 2016
PLOS Biol 4 Jan 2016
Iqbal Sa, et al doi:10.1371/
journal.pbio.100233
The Lancet, 11 avril 2015
R Horton, Rédacteur en chef
The case against science is straightforward: much of the scientific
literature, perhaps half, may simply be untrue. Afflicted by studies with small sample sizes, tiny effects, invalid exploratory analyses, and
flagrant conflicts of interest, together with an obsession for pursuing fashionable trends of dubious importance, science has taken a turn
towards darkness. As one participant put it, “poor methods get results”.
……. The apparent endemicity of bad research behaviour is alarming. In their quest for telling a compelling story, scientists too often sculpt data to fit their preferred theory of the world. Or they retrofit hypotheses to fit their data.
The Lancet, 11 avril 2015
R Horton, Rédacteur en chef
Journal editors deserve their fair share of criticism too. We aid and abet the worst behaviours. Our acquiescence to the impact factor fuels an unhealthy competition to win a place in a select few journals. Our love of “significance” pollutes the literature with many a statistical fairy-tale.
We reject important confirmations. Journals are not the only
miscreants. Universities are in a perpetual struggle for money and talent, endpoints that foster reductive metrics, such as high-impact publication. National assessment procedures, such as the Research Excellence Framework, incentivise bad practices. And individual
scientists incliding their most senior leaders, do little to alter a research culture that occasionally veers close to misconduct.
Des actions attendues
Recettes habituelles en recherche
• Investigateur isolé, et pratiques en silo
• Petits échantillons
• Cueillette des meilleures hypothèses
• Analyses a posteriori
• P < 0,05 ne suffit pas
• Embellissement des articles
• Pas d’enregistrement
• Pas de reproductibilité
• Pas de partage des données
Some Research Practices that May Help Increase the Proportion of True Research Findings
• Large-scale collaborative research
• Adoption of replication culture
• Registration (of studies, protocols, analysis codes, datasets, raw data, and results)
• Sharing (of data, protocols, materials, software, and other tools)
• Reproducibility practices
• Containment of conflicted sponsors and authors
• More appropriate statistical methods
• Standardization of definitions and analyses
• More stringent thresholds for claiming discoveries or ‘‘successes’’
• Improvement of study design standards
• Improvements in peer review, reporting, and dissemination of research