• Aucun résultat trouvé

La puissance publique doit donc porter un autre modèle de production et de

gouvernance des données, qui met

l’accent sur la réciprocité,

la collaboration et le partage

données pourraient également faire l’objet d’une ouverture volontaire : par exemple la vitesse enregistrée sur les grands axes de circulation ou encore la localisation de croisements où les chauffeurs sont amenés à freiner brusquement. Dans le même souci de séduire les collectivités territoriales, la plateforme de location de logements entre particuliers Airbnb a également lancé un portail DataVille pour donner accès à certaines statistiques sur l’utilisation de son service. Si ces initiatives sont évidemment stratégiques pour les entreprises considérées – en termes d’image, bien sûr, mais aussi car elles conservent la main sur les données mises à disposition –, elles n’en sont pas moins révélatrices du mouvement à l’œuvre.

L’ouverture et le partage de données provenant du secteur privé peuvent ainsi contribuer à alimenter la masse de données disponibles et ainsi contribuer au développement de l’intelligence artificielle. Le premier acte de la « bataille de l’IA » portait sur les données à caractère personnel. Cette bataille a été remportée par les grandes plateformes. Le second acte va porter sur les données sectorielles : c’est sur celles-ci que la France et l’Europe peuvent se différencier. L’objectif est d’abord stratégique pour les acteurs français et européens, car c’est un moyen pour les entreprises d’un même secteur de rivaliser avec les géants mondiaux de la discipline.

Le partage de données doit également être encouragé dans un souci, pour certains cas, de sécurité des solutions d’intelligence artificielle. Dans l’exemple de la voiture autonome, chaque constructeur développe aujourd’hui de son côté ses propres modèles d’apprentissage. Pour assurer la fiabilité de leurs prototypes et atteindre un niveau de risque acceptable, ces derniers sont tenus d’envisager un maximum de possibilités : il faut par exemple collecter des données de roulage toute l’année pour se confronter aux variations des conditions climatiques. Par ailleurs, les référentiels de scénarios ne sont valables que pour une région donnée : les routes et les comportements de conduite diffèrent selon que l’on se trouve à Paris, à Mumbai, à New York ou à Hong Kong. L’ensemble de ces variables rend impossible l’anticipation de tous les scénarios par un seul constructeur, fut-il le plus avancé. Ainsi si les géants américains ont pu prendre une avance relative en la matière, ils sont encore loin d’un niveau de fiabilité acceptable11. Partager ses données, ses référentiels de scénarios de conduite autonome (au moins pour partie) revient donc à s’assurer qu’en cas de litige, le plan de validation du véhicule concerné était à l’état de l’art et non propre à un constructeur.

La puissance publique doit donc porter un autre modèle de production et de gouvernance des données, qui met l’accent sur la réciprocité, la collabo-ration et le partage pour favoriser le partage de données entre les acteurs d’un même secteur. Plusieurs pays conduisent ainsi des politiques incitatives au partage de données privées. C’est le cas au Royaume-Uni, où l’Open Data Institute12 promeut depuis plusieurs années cette ouverture volontaire des données privées afin de favoriser le développement économique : l’ODI met par exemple en avant le cas de l’entreprise Thomson Reuters, qui développe une plateforme collaborative pour mettre à disposition ses données, accessibles et réutilisables par tous. Cette approche vise à améliorer sa relation client, mais aussi la qualité de ses données, de ses produits et services13. Aux États-Unis, le Bureau of Transportation Statistics (BTS) opère un programme sur la mise en commun de certains jeux de

11. Le consensus de fiabilité pour la voiture autonome est fixé à 10-8/heure, c’est-à-dire que la probabilité d’occurrence d’une défaillance grave doit être inférieure à 0,00000001 pour une heure donnée.

Ce taux est 10 fois inférieur à la moyenne européenne finance à hauteur de 10 millions de livres sur cinq ans.

13. https://theodi.

org/open-data-means-business

données des compagnies aériennes sur la fréquentation des lignes de vol domestiques. Les données ainsi récupérées sont agrégées puis traitées statistiquement, avant d’être mises à disposition par le BTS, contribuant à la propre stratégie des transporteurs.

L’incitation de la puissance publique au partage et à la mise en commun peut s’appuyer sur des initiatives privées ou à défaut, favoriser leur émergence.

Dans de nombreux secteurs, ces initiatives existent : elles mériteraient d’être soutenues et valorisées (voir encadré).

S’agissant des secteurs que la mission estime prioritaires pour le développe-ment de l’IA (voir les propositions plus loin), ces dispositifs de mutualisation de données pourraient être intégrés aux plateformes sectorielles dont la création est recommandée.

En matière de partage de données, de nombreuses initiatives mériteraient d’être valorisées

Fondée en 2015, la startup française Dawex ambitionne de lancer une bourse de la donnée en centralisant les échanges entre acteurs économiques.

Contrairement aux courtiers en données (data brokers) qui achètent, mettent en forme et revendent les données, Dawex accompagne les entreprises dans la contractualisation de leurs échanges en données (contrat de licence, durée, territoire, usages, capacité à sous-licencier, etc.) et s’assure qu’ils respectent les réglementations en vigueur (notamment le RGPD) en fonction du territoire de production et d’exploitation des données. La startup permet également aux acteurs économiques de partager des données avec des entreprises partenaires, de façon privée. L’entreprise est lauréate du Concours d’innovation numérique et a intégré le Hub Bpifrance, après notamment un financement par la Caisse des Dépôts.

Il faut également mentionner l’apparition de nouveaux services se proposant d’agréger les données publiques et privées : en matière de transports et de mobilité, par exemple, l’entreprise française Transdev a récemment annoncé le lancement d’une plateforme qui ambitionne de devenir le « Wikipédia » mondial de la donnée ouverte : Catalogue (www.catalogue.global). L’entreprise s’emploie ainsi à collecter et rassembler ces données, à les nettoyer et les mettre dans un format ouvert. L’objectif est d’abaisser les barrières à la création de services innovants – notamment pour l’IA – en matière de transports et de mobilité.

En matière de transports toujours, La Fabrique des Mobilités semble être l’une des initiatives les plus abouties. Il s’agit du premier accélérateur européen dédié à l’écosystème de la mobilité. La Fabrique met en relation tous les acteurs, les projets, capitalise les retours d’expériences et les erreurs, pour faire émerger une culture commune de l’innovation. Elle s’adresse à des startups, des projets industriels et des territoires qui développent de nouvelles solutions de mobilités. La Fabrique leur donne un accès privilégié à des ressources en données tout en veillant à garantir un principe de réciprocité : pour récupérer les données mises en commun, il faut contribuer à

l’augmen-des ressources au bénéfice de l’ensemble l’augmen-des parties prenantes au projet.

L’intérêt de la plateforme réside également dans le fait qu’il est possible de proposer des accès différenciés aux différents acteurs, selon la contribution et la nature de chacun.

Organiser des événements sectoriels pour sensibiliser et inciter au partage et à la mise en commun de données

Ce point est essentiel : il est du rôle de la puissance publique de favoriser les rencontres entre les entreprises détentrices de données – souvent de grands groupes privés, publics ou parapublics – et les startups ou les autres acteurs de l’économie numérique qui peuvent être intéressées par le fait de s’en saisir et les valoriser dans le cadre de solutions d’IA. Ces événements devraient également promouvoir le changement de paradigme à l’œuvre dans l’économie numérique et souligner les avantages de l’ouverture pour le développement de l’IA.

Ces rencontres pourraient prendre la forme d’un « Forum de la donnée » : lieu de dialogue, d’idéation et pour certains d’acculturation. Il s’agirait d’inciter au partage de la donnée « par l’exemple » en mettant en visibilité différentes initiatives dans lesquelles pourraient s’inscrire d’autres acteurs ou qui pourraient les inspirer pour penser une véritable stratégie pour valoriser leurs données, dans une logique de partage et de coopétition.

Accompagner et conseiller les entreprises dans la contractualisation de leurs échanges en données

L’État, enfin, pourrait jouer un rôle de médiation entre entreprises désireuses d’ouvrir leurs données mais ne sachant pas comment faire. En lien avec la CNIL, la Direction générale des entreprises (DGE) pourrait accompagner ces acteurs privés et établir un guide de bonnes pratiques ainsi que des contrats types.

L’objectif est simple : réduire les frictions et les réticences, culturelles ou organisationnelles, à ces partages de données. Lorsqu’il s’agit de partager ou de mutualiser, la gouvernance est régulièrement négligée. Pour pallier ces difficultés, la puissance publique pourrait recommander la création de fondations privées d’utilité publique visant à structurer sur le long terme les relations en données entre les acteurs économiques, le monde associatif et les écosystèmes sectoriels. Certains corpus de données pourraient être coproduits dans une logique de communs et de réciprocité opérés par de telles fondations.

Organiser l’ouverture au cas par cas de certaines données détenues par des entités privées

L’examen de la loi pour une République numérique a permis l’apparition d’une notion nouvelle, celle de données d’intérêt général (DIG) : une forme

« d’open data privé » ayant vocation à s’appliquer aux données qui revêtent une importance particulière pour le fonctionnement efficace du marché ou des politiques publiques d’intérêt général. La loi portée par Axelle Lemaire a déjà ouvert cette possibilité pour les entreprises concessionnaires de service

public, pour les entreprises gestionnaires des réseaux publics de distribution de gaz naturel ou d’électricité ou à des fins statistiques. Une obligation similaire a été instaurée à l’égard de certaines données dans la loi dite Macron14 et la loi dite de transition énergétique15. Il s’agirait d’aller plus loin, pour le développement des usages d’intelligence artificielle.

La mission conduite par Laurent Cytermann sur les données d’intérêt général16 s’était montrée réservée sur la création éventuelle d’un statut général de

« données d’intérêt général ». En cause : l’impossibilité d’inscrire des critères d’intérêt général ayant vocation à s’appliquer à l’ensemble des secteurs et le nécessaire équilibre avec les atteintes portées à la liberté d’entreprendre. Avec, en filigrane, le risque de compromettre l’émergence de nouveaux services, de fragiliser l’équilibre d’écosystèmes naissants et celui que l’ouverture bénéficie essentiellement aux grands acteurs de l’Internet. Notre mission est sensible à ces réserves, d’autant plus pertinentes que le débat sur l’IA a tendance à se sectoriser très rapidement. Il n’existe pas, en matière d’IA, d’approche type : le développement de l’IA repose sur des approches multiples, qui sont propres aux secteurs, leurs métiers, leurs problématiques et leurs données.

Pour ces différentes raisons, un régime général d’ouverture des données privées n’apparaît ni tout à fait possible ni tout à fait souhaitable. Cette approche pourrait néanmoins contribuer à éviter une balkanisation des régimes sectoriels, compte tenu notamment des divers freins ou résistances selon les domaines considérés.

Cela étant, la plupart des acteurs auditionnés par la présente mission se montrent favorables à une ouverture progressive, au cas par cas et selon les secteurs, de certains jeux de données pour des motifs d’intérêt général.

Cette ouverture pourrait prendre deux formes : un accès à ces données pour la seule puissance publique afin, par exemple, de nourrir une plateforme publique de données ; ou une ouverture plus large (open data), y compris pour les autres acteurs économiques. Le degré d’ouverture imposé à ces données doit prendre en compte un ensemble de facteurs, notamment l’impact économique, financier et concurrentiel sur les entreprises concer-nées. Le législateur devra particulièrement veiller à ce que ces dispositions ne dissuadent pas les entreprises de procéder à la collecte de ces données ou d’inventer de nouveaux modèles d’affaires. Il importe également d’anticiper le coût de cette ouverture, par exemple suite à l’ouverture d’une API ou l’anonymisation nécessaire des données personnelles. La révision prochaine de la directive sur la réutilisation des informations du secteur public annoncée par la Commission européenne sera l’occasion d’accélérer le mouvement d’ouverture des données publiques et de préciser les modalités d’un accès à des données privées pour des motifs d’intérêt général.

14. Loi 2015-990

du Conseil d’État et du Conseil général

Utilisations possibles des données d’intérêt général Exemples de données Intérêt pour l’IA Santé

Données de bien-être issues des objets connectés

Pré-diagnostic, aide à l’orientation dans le parcours de soin…

Transport-mobilités

Données issues de la vidéosurveillance des autoroutes

Entraînement des modèles de conduite autonome…

Données issues du transport VTC : géolocalisation des chauffeurs, vitesse de circulation

Développement d’une régulation intelligente et dynamique du trafic, prédictions des congestions…

Environnement

Données du compteur Linky (consommations énergétiques individuelles)

Optimisation de la consommation des particuliers, meilleures prévisions et lissage de pics…

Données de pollution de l’air Messages d’alerte, aide à la décision, pilotage de la politique de la ville…

Données relatives à la pluviométrie

(ex. : coefficient de Montana, etc.) et à l’ensoleillement

Audits thermiques automatisés…

Favoriser sans attendre les pratiques de fouille de texte et de données (TDM) Le cadre juridique européen doit favoriser les nouveaux usages sur la donnée.

Dans cet objectif, la réforme en cours du cadre juridique relatif au droit d’auteur et à la protection des bases de données est l’occasion d’atteindre un équilibre plus favorable à la circulation des données et l’accès aux données de certains publics. Parmi les éléments de cette réforme, il en est un qui intéresse particulièrement le développement de l’IA au niveau national et européen : une exception aux droits d’auteur et des producteurs de bases de données pour la fouille de texte et de données (text and data mining).

La fouille de textes et de données désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes ou des bases de données. Elle permet par exemple la recherche de « signaux faibles » difficiles à appré-hender par la lecture cursive, le repérage ou l’analyse de comptes rendus d’expérimentations ratées. La fouille de texte et de données est porteuse de potentiels énormes pour la découverte scientifique et le développement de nouvelles connaissances.

Aujourd’hui, la reproduction des bases de données nécessaire à la mise en place de systèmes de fouille suppose un accord explicite du propriétaire de l’œuvre ou du détenteur des bases de données concernées – y compris lorsque l’accès à ces données est licite, par exemple lorsqu’un chercheur s’est acquitté des droits d’accès pour lire les articles présents dans la base d’un éditeur d’articles scientifiques. L’Irlande, le Royaume-Uni, les États-Unis, la Chine, le Japon, et plus récemment l’Allemagne et l’Estonie, ont donc adopté des dispositions législatives qui permettent aux chercheurs de réaliser des reproductions numériques d’une base de données à partir d’une source licite.

Par l’absence de cadre légal clair, l’Europe accuse un retard important pour la compétitivité de sa recherche et, donc, pour ses capacités d’innovation.

Associé aux nouvelles méthodes d’apprentissage de l’intelligence artificielle, l’accès aux données ainsi autorisé représente un potentiel important pour de nombreux projets scientifiques, en particulier dans le cadre de recherches interdisciplinaires.

La question de savoir si une telle exception devrait être limitée à un cadre scientifique et à des fins non commerciales reste à trancher. Aussi notre mission est partisane d’une concertation large sur cette question. En effet, de nombreux acteurs – journalistes, associations, entreprises – pourraient largement bénéficier de cette exception, notamment pour le traitement automatisé d’informations accessibles en ligne. Aujourd’hui, un journaliste d’investigation qui souhaiterait utiliser les techniques de fouille de textes et de données pour analyser les contenus de sites – pour lesquels il dispose pourtant d’un accès licite – doit impérativement se conformer aux licences d’accès prévus par ces différents sites ou négocier individuellement avec chaque site l’autorisation d’opérer ce traitement automatisé.

La loi pour une République numérique a déjà consacré une telle excep-tion pour la recherche publique. Ces disposiexcep-tions sont encore en attente d’un décret d’application. Les chercheurs doivent pouvoir bénéficier de cette exception sans avoir à accuser un retard supplémentaire. D’autant qu’une fois entrés en vigueur, les textes européens en question devront faire l’objet d’une transposition en droit national, ce qui pourrait encore allonger ce délai.

Mettre en œuvre la portabilité dans une visée citoyenne

Le règlement européen sur la protection des données consacre un droit à la portabilité pour les individus sur les données personnelles qu’ils ont fournies à un fournisseur de service. La loi pour une République numérique va plus loin en permettant la récupération de toutes les données associées à un compte utilisateur (voir encadré).

La portabilité des données dans le règlement européen et la loi pour une République numérique

Le RGPD, dans son article 20, prévoit que « les personnes concernées ont le droit de recevoir les données à caractère personnel les concernant qu’elles ont fournies à un responsable du traitement ». L’article 48 de la loi pour une République numérique introduit un droit pour le consommateur de récupérer en toutes circonstances l’ensemble de ses données. Ce texte confère aux individus un droit à la portée plus large que le droit à la récupération consacré par le RGPD dans la mesure où il couvre l’ensemble des données et pas seulement les données personnelles. Les fournisseurs de services (uniquement les plus importants dans le cadre de la loi pour une République numérique) devront ainsi proposer une fonctionnalité gratuite permettant la récupération de tous les fichiers qu’il a mis en ligne ainsi que de « toutes les données résultant de l’utilisation du compte d’utilisateur du consommateur

d’un enrichissement significatif par le fournisseur en cause ». Il est également prévu que le consommateur puisse récupérer d’autres données associées au compte utilisateur dont le périmètre est précisé par décret.

Le droit à la portabilité des données est l’une des grandes innovations des récents textes français et européens. Concrètement, tout citoyen pourra exercer ce droit pour migrer d’un écosystème de services à l’autre sans pour autant abandonner son historique numérique.

L’exercice de ce droit pourrait être décliné pour des applications d’IA

« citoyenne » : on peut envisager, à moyen terme, que des citoyens décident de récupérer leurs données auprès de différents services pour les mettre à disposition d’un acteur public ou de la recherche scientifique au profit de missions d’intérêt général. Les possibilités sont nombreuses et enthousias-mantes : en matière de santé par exemple, des communautés de patients pourraient répondre à l’appel d’un institut de recherche désireux de développer une intelligence artificielle permettant d’améliorer la détection ou le traite-ment de telle pathologie. Un maire pourrait solliciter de ses administrés les données qu’ils auraient récupérées de leurs applications de transport pour optimiser le trafic dans sa commune. Sur le modèle de l’appel au don du sang, il est possible d’imaginer des campagnes d’ampleur, au niveau municipal, régional ou national, visant à constituer des bases de données nécessaires au développement d’intelligences artificielles orientées sur des missions de service public.

L’intérêt d’un tel procédé est triple :

– il permettrait de constituer de nouvelles bases de données à usage de service public ;

– il contribuerait à donner un sens nouveau au droit à la portabilité, en permettant une meilleure circulation des données sous le contrôle exclusif des citoyens ;

– il peut être mis en œuvre dès l’entrée en vigueur du règlement européen, sans avoir à imposer des contraintes nouvelles aux acteurs privés.

Pour que le droit à la portabilité soit véritablement effectif, il est nécessaire d’outiller les utilisateurs. C’est la raison de l’émergence de nouveaux services,

Pour que le droit à la portabilité soit véritablement effectif, il est nécessaire d’outiller les utilisateurs. C’est la raison de l’émergence de nouveaux services,

Documents relatifs