• Aucun résultat trouvé

Limites interprétatives et informationnelles de l’analyse des données massives

Chapitre 2 – Les promesses de l’utilisation des systèmes d’intelligence artificielle en santé

1. Enjeux inhérents au fonctionnement des systèmes d’intelligence artificielle

1.1. Limites interprétatives et informationnelles de l’analyse des données massives

Comme mentionné dans le Chapitre 2, l’un des principaux défis dans le contexte du Big

Data est de donner du sens à ces ensembles gigantesques de données plus ou moins structurées.

L’analyse de données massives par des systèmes d’IA connait ainsi différentes limites interprétatives et informationnelles qu’il est nécessaire de prendre en considération. En santé, la recherche sur les données massives est reconnue pour être « observationnelle plus qu’expérimentale », et il existe un risque d’amplifier les lacunes de la recherche traditionnelle considérant le volume et la qualité souvent sous optimale de l’information caractéristique des données massives (Lipworth et al. 2017). Due à l’évolutivité des méthodes de data mining - qui fonctionnent dans un environnement avec un grand nombre de données, une forte dimensionnalité

et une grande hétérogénéité - une des difficultés réside dans le stockage efficient et la possibilité de traiter rapidement les volumes disponibles (Maimon et Rokach 2010b). Les ensembles de données massives qui font l’objet d’analyse étant issues de sources variées, leur qualité peut être compromise par leur trop grande hétérogénéité ou par différentes erreurs, biais ou observations manquantes - en particulier pour les données non-structurées (Zhang 2010; Lipworth et al. 2017). Une autre des difficultés est également de limiter les erreurs liées à la fragmentation des données. Typiquement, les données vont être divisées en deux : un échantillon d’entrainement pour l’ajustement du modèle et un échantillon test pour évaluer ses capacités de prédiction (Maimon et Rokach 2010a). Il est critique que l’échantillon test soit indépendant de l’échantillon d’entrainement (Maimon et Rokach 2010a) afin d’éviter le risque de « surapprentissage », soit de garantir que le niveau de performance des prédictions sur de nouvelles données (échantillon test) ne soit pas affecté par le fait que celles-ci soient trop proches des données d’apprentissage (Devillers 2017). C’est l’écart de performance entre les données d’entrainement et les données test qui va permettre de mesurer ce que l’on appelle l’erreur de généralisation (Zhang 2010; Lipton 2016). L’objectif des modèles (et en particulier des modèles prédictifs) étant qu’ils soient généralisables, il est ainsi nécessaire qu’ils ne soient pas trop dépendants des données sur lesquelles ils apprennent pour être performants (Zhang 2010).

Également, les analyses de data mining sont exposées au risque de supériorité sélective : tous les algorithmes ne sont pas performants pour toutes les tâches ni tous les domaines, car ils contiennent tous des biais potentiels qui mènent à préférer certaines généralisations plutôt que d’autres (Maimon et Rokach 2010b). D’autres barrières techniques peuvent limiter le pouvoir des analyses sur les données massives. Pour n’en citer que quelques-unes : l’interopérabilité (soit le manque de comparabilité entre les ensembles de données, notamment à travers le temps); le risque élevé de « faux positifs »; ou encore la validité des liens entre les ensembles de données, en particulier considérant la fragmentation de leurs sources en santé (Lipworth et al. 2017).

Il n’est pas question ici de remettre en question la validité ou l’importance des analyses issues de systèmes d’IA. Il n’existe en effet aucune approche, méthode ou technique qui ne connaissent des limites. Cependant, il semble nécessaire d’évaluer la réelle portée des résultats obtenus par le biais de ce type d’analyses pour se prémunir d’un certain engouement qui pourrait

conduire à en surestimer les bénéfices. À l’heure où l’IA connait une grande popularité, il semble indispensable d’adapter le niveau de confiance et d’interprétation des décisions algorithmiques :

Some decision-making tools overstate or obfuscate their usefulness or accuracy, inducing more trust than they deserve » (CDT, 2017).

La valeur potentielle des données doit être évaluée dès le départ et utilisée pour orienter la justification des efforts déployés pour le traitement et l'analyse (Brown et al. 2018).

Kitchin (2014) décrit que, pour certains auteurs, l’automatisation pourraient conduire à un certain appauvrissement de la qualité des analyses (dans le contexte des domaines qui relèvent des sciences humaines) :

For many, then, the digital humanities is fostering weak, surface analysis, rather than deep, penetrating insight. It is overly reductionist and crude in its techniques, sacrificing complexity, specificity, context, depth and critique for scale, breadth, automation, descriptive patterns and the impression that interpretation does not require deep contextual knowledge (p. 8).

Pour Coutellec and Weil-Dubuc (2017), les analyses de données massives ne produisent pas tant de la connaissance qu’une information « auto-signifiante » :

Une donnée ne nous est jamais donnée, elle est prise dans un dispositif de collecte dont le paramétrage et le calibrage (la métrologie) dépendent de certaines hypothèses scientifiques et d’intentions de recherche; une donnée n’est plus une data à partir du moment où l’on applique sur elle un dispositif technique et une série de filtres interprétatifs, ce dont nous avons à faire est donc plutôt de l’ordre du big ficta (p. 67).

La distinction entre données et information est ici essentielle. Par exemple, si l’ADN est toujours une donnée, elle nécessite une interprétation pour être transformée en information, une séquence de nucléotides brute n’étant que peu informative (Hallinan et De Hert 2016).

Il est ainsi nécessaire de ne pas surestimer l’utilité des systèmes d’IA. Ceci est d’autant plus important que les algorithmes sont réputés être plus performants, moins biaisés, et plus précis que les humains (CDT 2017). La mise en relation automatisée des données, puisqu’elle semble parer la subjectivité humaine, pourrait ainsi donner une impression « d’objectivité absolue » trompeuse (Rouvroy et Berns 2013). Cette perception d’objectivité absolue pourrait conduire à ignorer les limites mentionnées :

There are also numerous problems with the view that big data is somehow objective, including that this obscures the fact that all research questions, methods, and interpretations are value-laden; makes it easier to ignore technical quality issues and biases; and, more generally, makes it easier to justify unbounded use of big data (Lipworth et al. 2017 p. 495). Il n’y a, par exemple, aucune garantie qu’un système d’apprentissage automatique supervisé mette en évidence un lien de causalité, mais seulement des associations (Lipton 2016). Plus largement, pour Coutellec et Weil-Dubuc, la production de connaissances d’une science guidée par les données se fait sur la base de corrélations qui remplace la recherche de causalité, selon une rationalité statistique qui pourrait conduire à négliger la cause des phénomènes (Coutellec et Weil- Dubuc 2017). Cette impression d’objectivité absolue ne devient cependant problématique, selon Rouvroy et Berns (2013) que si les interprétations algorithmique ne sont pas remises en question, en particulier quant au poids qu’on pourrait leur donner dans la décision politique ou scientifique.

Une mauvaise interprétation des analyse issues de systèmes d’IA n’est pas sans conséquences en santé :

Caruana et al. (2015) describe a model trained to predict probability of death from pneumonia that assigned less risk to patients if they also had asthma. In fact, asthma was predictive of lower risk of death. This owed to the more aggressive treatment these patients received. But if the model were deployed to aid in triage, these patients would then receive less aggressive treatment, invalidating the model (Lipton 2016, p. 3).

Il est donc important de tempérer la portée des analyses de données massives par des systèmes d’IA, et de nuancer les bénéfices potentiels des avenues prometteuses en santé. Par exemple, accorder trop d’importance aux données (en particulier, génétiques) dans le contexte de la médecine de précision pourrait faire en sorte que différents facteurs socio-économiques, qui ont un impact non-négligeable sur la qualité et l’espérance de vie des patients, ne soient pas suffisamment considérés (Bayer et Galea 2015). Ceci conduit différents auteurs à questionner, par exemple, la réelle plus-value du développement de la médecine de précision, qui risque d’augmenter les coûts de manière considérable sans pour autant réellement améliorer la qualité de vie (Bayer et Galea 2015; Jameson et Longo 2015). Également, si des modèles comme les jumeaux numériques se développent, Torkamani et al. (2017) précisent que, dû à leur nature incomplète, ils pourraient avoir tendance à surestimer les risques et pourraient conduire à l’initiation de thérapies non-nécessaires. Ces considérations peuvent également mener au risque de considérer les patients uniquement sur

la base de leurs données (omettant d’autres informations pertinentes) conduisant à des enjeux relatifs au quantified self57. Ainsi, les limites interprétatives et informationnelles des analyses de données massives par les systèmes d’IA doivent être prise en considération en vue d’une évaluation éthique pour un équilibre appropriée entre risques et bénéfices.

1.2. De la nécessité du partage pour l’optimisation de l’analyse des