• Aucun résultat trouvé

modes d’expression numérique

Dans le document MISE EN GARDE (Page 152-155)

4

Contribuer à la production et à la promotion de

contenus francophones*

et de nouveaux

modes d’expression numérique

AXE 4.1

intégrant le fait que le nom des éléments géolocalisés (pays, territoire, ville, rue, bâtiment…) puisse s’afficher en plusieurs langues officielles ou co-officielles, dont le français, ainsi qu’en langues natio-nales, telles que le catalan, le breton, l’occitan, le wolof, etc.(8)

Il ne suffit pas d’avoir des contenus dans toutes les langues, il faut égale-ment que les populations linguistiques concernées puissent les consulter et que ces contenus répondent de manière satisfaisante à leurs besoins. Sur les supposées 7 000 langues existant sur la planète, à peine 500 ont une repré-sentation complète sur la Toile(9) et à peine une petite dizaine donnent une totale satisfaction aux locuteurs en ce qui concerne la panoplie de contenus disponibles. Rien que pour les langues officielles de l’Europe, le rapport Euro-baromètre 313 de mai 2011 portant sur les préférences des internautes(10) signalait que 90 % d’entre eux décla-raient donner priorité à leur langue si l’information était disponible, alors que 41 % affirmaient perdre beaucoup d’in-formation à cause du fait linguistique.

Le Flash Eurobaromètre 411 sur l’accès aux contenus en ligne à travers les fron-tières(11) d’août 2015 indique que 62 % des Européens regardent des films ou des séries doublés ou sous-titrés dans leur langue nationale. On peut supposer que des résultats probablement simi-laires seraient obtenus si de tels son-dages avaient lieu dans d’autres régions du monde. Dans l’espace francophone, il est pour le moins révélateur de trou-ver dans le classement des sites les plus populaires par pays des adresses Internet nationales et/ou offrant des contenus en français et dans les langues partenaires(12). Ces données confirment l’importance de l’utilisation de la langue nationale pour l’accès aux contenus et aux services en ligne, ce qui est d’autant plus vrai quand le contenu est textuel.

Ce phénomène de langues qua-siment absentes de l’Internet, qui pré-occupe les pays du Nord, devient plus critique en Afrique qui est, avec près de deux mille langues parlées, le deu-xième continent en richesse linguistique.

La plupart de ces langues ne disposant Facebook ou Twitter, par exemple), ou

plus souvent sans le savoir (surtout à travers la panoplie de services de Goo-gle). Ces derniers sont traités avec de nouveaux algorithmes du domaine de la statistique et de l’intelligence artifi-cielle(4). Ce traitement vise à analyser des tendances (on parle d’exploration de données ou data mining), à améliorer la qualité d’un service (ainsi fonctionne Google traduction(5)) ou, de manière plus analytique... et secrète, à cerner le profil de consommateur (comme le font au quotidien Facebook ou Google), ou bien le degré de menace terroriste que repré-sente chaque internaute (comme le fait l’Agence de sécurité des États-Unis – NSA –, ainsi que cela a été révélé par l’un de ses anciens agents). Le besoin de transparence pour le citoyen sur les données le concernant, qui sont conser-vées par des tiers, devrait également s’étendre aux algorithmes qui traitent ces données et prennent des décisions.

La mode du Web 2.0 avec ses réseaux sociaux et sa génération volontaire et involontaire de données massives ne doit pas nous faire oublier que, du point de vue de l’information, la Toile continue aussi de reposer sur les couches de structure plus ancienne(6) et traditionnelle(7), celle du Web 1.0, et c’est là où l’effort de mesure de l’existant et de promotion à la production devrait se concentrer, soit par des initiatives indivi-duelles soit, mieux encore, dans des ini-tiatives collectives de mise en commun.

Les communs numériques représentent cet ensemble particulier de données qui sont produites de manière collaborative par un groupe de personnes qui par-tagent le même intérêt : Wikipédia en est un exemple emblématique et, pour ce qui nous intéresse, particulièrement ouvert sur la diversité linguistique, ce qui en fait un terrain d’analyse de prédilec-tion (voir plus loin). Un autre exemple fameux est celui de openstreetmap.org (OSM) qui concurrence l’application de cartographie de Google avec l’avantage d’offrir des interfaces de programma-tion applicative (API) libres de licences pour, par exemple, corréler les cartes avec des données publiques ouvertes.

La prise en compte du multilinguisme y est également très forte, ce dispositif

sence anecdotique dans l’Internet. Tout porte à croire que dans de nombreux cas, les locuteurs de ces langues dispo-seront d’un accès à l’Internet avant que leur langue ne soit « localisée »(13), ce qui comporte, en plus du danger d’accultu-ration, celui d’accroître le risque d’aban-don de la langue. En effet, une langue qui ne permet pas la communication ou l’accès à l’information se place en situa-tion progressive de remplacement par le locuteur, au bénéfice d’une langue plus adaptée et donc, à terme, la disparition de la langue en question. Trop souvent, la fracture numérique n’est comprise qu’en termes d’accès alors qu’elle devrait l’être également en termes de contenus. De fait, des chiffres de 2007 montraient qu’en Afrique, la fracture de contenus était beaucoup plus profonde que la fracture d’accès(14) et, en l’absence de nouveaux chiffres, les tendances n’in-diquaient pas de progrès.

INDICATEURS DE PRÉSENCE

Il est très difficile d’obtenir des données actualisées sur la place des langues dans les contenus de l’Internet, en géné-ral (voir plus loin). Des données par pays existent, mais les ramener à la langue officielle du pays est une simplification outrancière, car le multilinguisme est le plus souvent beaucoup plus élevé que ce que l’on peut imaginer, tant au niveau individuel qu’au niveau du pays (plusieurs langues peuvent cohabiter officiellement dans un pays, comme dans l’exemple de la Suisse). Cerner ces données spécifiquement pour le domaine public et pour les communs numériques devient une tâche encore plus ardue. Il existe toutefois certaines sources qui permettent d’obtenir quelques éléments de réponse. Ainsi, fin 2015, Creative Commons a publié Un état des communs(15) qui permet de dégager quelques enseignements à par-tir de l’utilisation sur Internet des logos correspondant à chacune des licences prévues(16). Ainsi nous apprenons que :

• les contenus faisant appel aux licences Creative Commons (CC)(17) ont tri-plé dans les cinq dernières années et dépassent maintenant le milliard,

4 PRODUIRE, DIFFUSER ET PROTÉGER LES BIENS COMMUNS NUMÉRIQUES

(CC0, CC BY et CC BY SA) réunissent près des deux tiers des contenus, avec une plus forte croissance différentielle (doublement en un an),

• le nombre total de consultations de l’ensemble des sites sous licence CC atteint en 2015 les 136 milliards (à comparer avec les 1 200 milliards de recherches par an de Google).

La répar tition indicative des contenus est la suivante (à noter qu’il s’agit seulement d’un sous-ensemble réunissant les données collectées sur 16 plateformes) (voir Figure n°1).

En ce qui concerne la répartition lin-guistique, le seul classement disponible sur le site Creative Commons(18) repose sur des données indirectes et limitées issues de l’audience des pages décri-vant les termes de licences CC en dif-férentes langues. Ce classement selon la fréquentation montre une troisième place du français(19) (voir Figure n°2).

Une autre source de données linguis-tiques existe en relation avec Wikimedia Commons et elle permet d’obtenir une indication(20) de la place des langues dans ce catalogue de biens communs numériques associé à Wikipédia : il s’agit

RÉPARTITION DES TYPES DE CONTENUS SOUS LICENCES CREATIVE COMMONS

(FIGURE N°1)

TYPE DE CONTENU %

IMAGE 84,67 %

TEXTE 10,15 %

VIDÉO 3,99 %

ENREGISTREMENT AUDIO 0,86 %

ARTICLES SCIENTIFIQUES 0,30 % RESSOURCES ÉDUCATIVES LIBRES 0,02 % AUTRES (MULTIMÉDIA, 3D) 0,01 %

FRÉQUENTATION DES PAGES EN FRANÇAIS PRÉCISANT LES TERMES DES LICENCES CREATIVE COMMONS

(FIGURE N°2)

LANGUE NOMBRE DE

CONSULTATIONS

ANGLAIS 67 155 975

CORÉEN 6 337 118

ESPAGNOL 4 163 811

FRANÇAIS 2 204 878

PORTUGAIS 2 148 746

ALLEMAND 1 700 918

ITALIEN 1 411 242

JAPONAIS 1 143 936

CHINOIS 1 070 159

PLACE DU FRANÇAIS DANS WIKIMEDIA COMMONS

(FIGURE N°3)

du nombre de consultations d’éléments du catalogue dans une langue donnée et du nombre de traductions sollicitées. Les données de la source sont reprises par-tiellement dans le tableau ci-dessous en termes de pourcentages de ressources consultées et pour chaque langue en termes de pourcentage de ressources pour lesquelles une traduction en ligne est demandée(voir Figure n°3).

Le français se place en quatrième position du total des consultations et possède un des taux les plus forts de la sélection en termes de traduction vers une autre langue, confirmant une bonne présence dans les communs numériques.

L’ é vo lu ti o n d e s m oteurs d e recherche a rendu extrêmement diffi-cile de mesurer les progrès des langues dans l’Internet : des chiffres relative-ment fiables existent quant à la langue des internautes (ou tout au moins des 10 langues les plus utilisées)(21), mais trouver des indicateurs de présence lin-guistique concernant les contenus est devenu une tâche complexe et ardue.

Seule W3Techs(22) offre aujourd’hui des statistiques relativement fiables en temps réel sur le contenu linguistique.

Cependant la méthode induit un très fort biais en faveur de l’anglais et en défa-veur des langues non occidentales. En effet, la méthode consiste à sélectionner les 10 millions de sites les plus visités, selon Alexa(23), un service qui mesure la notoriété des sites Internet et établit un classement des 25 millions de sites les plus visités, et d’appliquer un algo-rithme de reconnaissance de langue sur la page d’entrée de ces sites. Le biais indiqué résulte de la combinaison de plusieurs facteurs : (a) la détermination des sites les plus visités provient d’un programme que les utilisateurs peuvent librement ajouter à leur navigateur, mais dont la répartition mondiale n’est pas homogène dans toutes les aires géo-graphiques et linguistiques, d’où un biais pro-occidental ; (b) le chiffre de 10 mil-lions de sites représente seulement 6 % du total des sites Web existants(24) et le critère de notoriété qui n’est pas néces-sairement synonyme de qualité ne per-met pas d’estimer que l’extrapolation soit justifiée ; (c) les pages d’entrée des sites Internet sont celles qui ont la plus grande probabilité de comporter des entrées en anglais en pointant vers la version anglaise de sites en plusieurs lan-gues et, finalement, (d) les algorithmes de reconnaissance tendent à favoriser

Les licences CC version 4.0

Dans le document MISE EN GARDE (Page 152-155)