Efficience du marché des données - Bénéfices sociaux et économiques du data as labor

2. Chapitre 2 : La production de données, un travail ?

2.3. Bénéfices sociaux et économiques du data as labor

2.3.4. Efficience du marché des données

Le DaL pourrait contribuer à augmenter l’efficience des marchés du point de vue des bénéfices pour la société28_{, en permettant notamment une meilleure concurrence entre les}

entreprises. De plus, certaines entreprises, réfractaires à l’idée de rémunérer leurs utilisateurs et utilisatrices pour leur travail des données, pourraient plutôt voir leurs profits augmenter, par une efficience accrue de leurs algorithmes. Notons que ces arguments sont également de nature spéculative et que ses prétentions pourraient être limitées à moyen ou à long terme selon l’efficacité et la profitabilité croissante (ou non) de l’IA (Posner et Weyl, 2018 : 246- 249). De plus, les avantages supposés du DaL sur le plan économique devraient également être accompagnés d’autres régulations sur les marchés numériques.

2.3.4.1. Augmentation de la concurrence entre les entreprises

La vitalité économique entourant le marché des données pourrait être rehaussée grâce au DaL, qui serait une nouvelle variable dans l’offre de services des plateformes des entreprises. Cela pourrait faire augmenter la concurrence entre celles-ci, pouvant potentiellement bénéficier aux plus petites d’entre elles. Elles pourraient alors essayer de se tailler une part plus grande en offrant de meilleurs forfaits de rétribution pour les données des utilisateurs et utilisatrices (Posner et Weyl, 2018 : 233-239 ; Léger et Benata, 2019 : 64). Selon plusieurs chercheurs, le DaL pourrait contribuer à faire changer les modèles monopsoniques et oligopsoniques de quelques entreprises qui profitent d’effets de réseau. Les GAFAM et certains autres géants ont, comme nous l’avons mentionné, tendance à accumuler des quantités massives de données, ce qui leur confère un avantage tel que cela empêche l’entrée de nouveaux joueurs. Cela génère une dynamique de winner-takes-all (Carrière-Swallow et

28_{Cette section sur l’efficience des marchés s’inscrit dans une perspective de justice sociale et économique,}

prenant comme position de départ que les monopoles et oligopoles sont nuisibles pour la société, car ils concentrent les richesses et le pouvoir entre les mains d’un nombre réduit d’acteurs.

Haksar, 2019 : 21-22). La multiplication des acteurs pourrait réduire la concentration de richesse et de pouvoir de ces entreprises dominantes, si la rémunération qu’ils offrent réussit à attirer plus d’internautes.

Ce marché des données, avec plus de concurrents, bénéficierait fort probablement aux consommateurs et consommatrices qui effectuent tous et toutes du travail des données : « If consumers were able to select services (even partly) on the basis of ROD [return on data, nom donné par Kolt à l’idée de rémunérer individus pour leurs données personnelles], data- driven service providers would be unlikely to remain indifferent » (Kolt, 2020 : 4). Nous verrons toutefois dans le dernier chapitre que les entreprises dominantes pourraient au contraire bénéficier encore plus du système de DaL pour augmenter leurs profits, sans laisser de place aux plus petits concurrents.

2.3.4.2. Augmentation de l’efficience des algorithmes

Certaines entreprises pourraient être très réfractaires à l’idée de rémunérer les internautes pour leur travail des données, craignant probablement de voir leurs revenus diminuer par ces versements et par la possibilité d’une hausse de la concurrence. Toutefois, la plupart de ces entreprises pourraient voir l’efficience de leurs algorithmes augmenter et ainsi voir leurs revenus croître, ou du moins leurs pertes limitées. Cette augmentation de revenus pourrait profiter tant aux entreprises et à leurs actionnaires qu’aux internautes, par le biais du DaL, et à la société dans son ensemble, par le biais des impôts. Cela rendrait la perspective du DaL plus acceptable politiquement et économiquement. Avec ces perspectives sur l’augmentation de l’efficience des algorithmes, les États auraient alors plus de facilité à mettre en place le DaL pour l’ensemble des entreprises collectant des données.

Selon plusieurs chercheurs en économie et en informatique, les données numériques auraient une valeur marginale décroissante, mais seulement pour chaque nouveau problème qu’un algorithme doit régler.

Figure 2.3 : Valeur des données en fonction du nombre d’observations dans un domaine typique de ML [machine learning], ici la vision par machine [machine vision]. Chaque ligne verticale représente un échantillon de la complexité d’un problème particulier (Posner et Weyl, 2018 : 227, notre traduction).

Prenons par exemple une énorme base de données sur un réseau social comportant des photos d’internautes avec l’endroit où elles ont été prises. La base de données pourrait être utilisée pour une première fonction, qui serait d’identifier les visages sur les photos publiées par ces internautes, puis pour une seconde fonction, qui serait d’identifier l’endroit où les photos ont été prises, et une troisième fonction, qui consisterait à effectuer diverses prédictions sur ce qui lie ces personnes entre elles selon l’endroit où elles se trouvent. Si ces personnes apparaissent souvent ensemble à l’école, elles sont probablement amies de classe. Si elles sont souvent ensemble à la même adresse résidentielle, il s’agit peut-être de membres d’une même famille29_{. L’algorithme pourrait alors comprendre le contexte qui les lie et leur}

suggérer des publications similaires. Dans ces cas, les premiers jeux de données, par exemple le premier million de photos, seraient essentiels à l’entraînement et au bon fonctionnement des algorithmes. Après un certain seuil cependant, ils n’ajouteraient que peu de valeur supplémentaire aux logiciels, bien calibrés, d’où l’atteinte de plateaux sur les courbes de la Figure 2.3. Pour le second cas, le même premier million de photos pourrait aussi être utilisé pour la seconde fonction, en identifiant les lieux. Pour le troisième cas, les données

29_{Les exemples sont extrêmement simplifiés, puisque les algorithmes sur les réseaux sociaux bénéficient d’une}

permettraient finalement de réaliser des corrélations et des prédictions sur les liens entre les personnes. Chaque algorithme peut donc se voir assigner plusieurs nouvelles fonctions, alors les mêmes données pourraient avoir un retour croissant à long terme (Carrière-Swallow et Haksar, 2019 : 22).

Ce qui nous intéresse, considérant ce fonctionnement, est que selon certains chercheurs comme Posner et Weyl, la valeur marginale des données pour des algorithmes d’IA devant résoudre des problèmes complexes dépendrait des derniers pourcentages de précision des données. Ils prennent l’exemple d’un algorithme de reconnaissance vocale, pour lequel 90 % des premières données, qui auraient servi à l’entraînement, seraient forcément cruciales, mais auraient une valeur marginale décroissante. Les 10 % restantes, celles qui sont les plus précises, seraient toutefois les plus importantes, car elles contribueraient à perfectionner et à corriger l’algorithme. Ces dernières données sont celles qui peuvent être les plus longues et les plus coûteuses à obtenir, puisqu’elles nécessitent généralement l’implication active d’êtres humains, alors que les premières peuvent venir de récoltes de leurs traces passives. Ce sont grâce à elles que l’algorithme pourrait être vraiment utile et profitable pour l’entreprise (Posner et Weyl, 2018 : 228). Un logiciel de reconnaissance vocale incomplet risquerait de mal interpréter la majorité de nos commandes, même s’il réussissait à reconnaître 90 % de nos mots. Ce n’est qu’après de longues phases de corrections, où des êtres humains corrigeraient ses multiples erreurs, qu’il deviendrait utilisable.

Le DaL pourrait donc être pour les entreprises un moyen d’obtenir ces précieuses données manquantes, incitant les internautes à contribuer plus significativement, par exemple, en fournissant des informations plus précises à leur sujet ou en corrigeant les informations déjà obtenues sur leur personne. Cela pourrait aussi se réaliser par le biais de rémunérations pour toutes les micro-tâches que nous effectuons souvent bénévolement, mais pas systématiquement, comme de signaler du contenu erroné ou inapproprié sur des plateformes, ou d’écrire nos avis sur des produits et services achetés en ligne. Ce serait une situation gagnant-gagnant, entraînant un cercle vertueux d’échange de données et de services, tant pour les entreprises que les utilisateurs et utilisatrices. Les internautes, ayant la possibilité d’être rémunérés pour leurs travaux des données, seraient incités à en fournir de meilleure

qualité. Les entreprises auraient alors de meilleures données pour leurs plateformes, pouvant fournir aux utilisateurs et utilisatrices de meilleurs services et récolter de plus grands revenus. Cela inciterait à nouveau les internautes à contribuer avec leurs données si leur rémunération était plus substantielle. Les actionnaires recevraient de plus grands dividendes et la société plus d’impôts (à condition qu’ils soient réellement payés). Nous reviendrons sur les limites de cet avantage dans le dernier chapitre, qui critiquera le cercle vicieux d’incitation à la vente de sa vie privée.

Dans le document La production de données numériques devrait-elle être considérée comme du travail : enjeux d’éthique sociale et économique de la rémunération des internautes (Page 56-60)