doi:10.3166/r2ie.5.179-195 © 2013 Lavoisier SAS. Tous droits réservés
Projections algorithmiques et cyberespace
➤ Par Thierry Berthier
Maître de conférences en mathématiques – complexité, stratégies algorithmiques
Résumé
En 2013, l’humanité produit cinq exaoctets de données toutes les dix minutes ; en 2020, le volume planétaire des données atteindra 40 zettaoctets ! Cette évolution exponentielle induit une réflexion générale sur le mode d’exploitation de ces nouveaux gisements. À cha- cune de nos interactions numériques, nous transférons vers le cyberespace un ensemble de données qui font l’objet d’une sauvegarde sur les systèmes d’archivage. C’est à partir de ce constat que nous proposons un formalisme inédit de représentation de cette informa- tion sous la forme de projections algorithmiques. Nous définissons ainsi la projection d’un opérateur humain, relativement à un algorithme exécuté sur un système. Celle-ci se décom- pose en composantes ouvertes et fermées, puis en composantes volontaires et purement systémiques. La réunion des projections donne lieu aux S-projections et à notre projection globale puis, une approche Big Data nous permet de construire les bases de projections et de donner quelques exemples canoniques. Nous explorons ensuite les domaines d’applica- tion compatibles avec ce formalisme projectif. © 2013 Lavoisier SAS. All rights reserved Mots clés : projections algorithmiques, traces numériques, cyberespace, Big Data, systèmes d’archivage des données.
Abstract
Algorithmic projections and cyberspace. In 2013, the mankind is producing 5 exabytes of data every 10 minutes; by 2020, the global data volume will reach 40 zettabytes. This expo- nential growth induces a general thought about the form of exploitation of these new depo- sits. Each time we digitally interact, we transfer a data set towards the cyberspace, this one being saved on archiving systems. From this fact, we suggest an original formalism represen- ting this information, in the form of algorithmic projections. We thus define the projection of a human operator, in relation to an algorithm, run on a system. This one breaks down into open and closed components on the one hand; into intentional and purely systemic elements on the other hand. The union of all the projections leads to the S-projections and to our global projection. Then, a Big-Data-oriented approach enables us to build the projection bases and
to give some canonical examples. After which we will explore the scopes that are compatible with this projective formalism. © 2013 Lavoisier SAS. All rights reserved
Keywords: algorithmic projection, digital print, cyberspace, Big-Data, data archiving systems.
Introduction
Même s’il fait l’objet de toutes les attentions, le cyberespace demeure un territoire complexe, dynamique, hétérogène, à frontières floues.
Sa géographie, qui obéit à une subtile tectonique issue de calculs humains, souligne les interactions d’écosystèmes numériques dont la complexité ne fait que croître (Kempf, 2012).
Prétendre en faire l’étude, c’est avant tout effectuer un choix d’approche, non exhaustif et par nature réducteur. L’angle de vue de l’informaticien ou du spécialiste des réseaux n’est pas celui de l’économiste, du géopolitologue ou du prospectiviste. Chacune de ces optiques doit être prise en compte et intégrée en acceptant ses limites et ses biais induits (Arquilla, Ronfeldt, 1993).
C’est de la superposition des représentations que peut émerger une image admissible et fidèle du cyberespace. De nature composite, sa topologie résulte d’un feuilletage en trois strates qui interagissent constamment et se déforment mutuellement (Dossé, Kempf, Malis, 2013).
Structurellement, on identifie la strate matérielle réunissant l’ossature physique du réseau, les serveurs, routeurs, les interconnexions, les machines supportant le calcul, au sens d’une machine de Turing.
La seconde strate est constituée quant à elle de l’ensemble des programmes, codes d’origine humaine ou systémique, agents logiciels plus ou moins autonomes exécutés sur la première couche.
On la nomme strate algorithmique, sa nature informationnelle est compatible avec une description formelle.
La strate des calculs humains vient compléter l’édifice. C’est une couche créatrice qui engendre, sculpte et supervise les deux premières. Elle constitue aujourd’hui l’unique strate génératrice du feuilletage (en attendant les futurs systèmes de calculs autonomes, affranchis de toute assistance humaine, et eux-mêmes générateurs de codes).
L’asymétrie des rétroactions qui opèrent entre strates rend l’analyse globale hasardeuse et nous contraint vite à un focus réductionniste.
Ainsi, l’approche systémique du cyberespace peut constituer une voie d’accès à sa complexité, tout en gardant à l’esprit les limites de perception et la zone de pertinence d’une telle orientation.
Cette approche doit nous permettre de définir certains invariants élémentaires jouant un rôle majeur dans les transferts d’informations du cyberespace.
La projection algorithmique d’un individu décidant l’exécution d’un algorithme sur un système mérite à ce titre une attention particulière. En tant que composante d’échange d’information située à l’interface du calcul humain et du calcul artificiel, elle préfigure la morphologie de notre projection algorithmique globale ou de notre extension numérique si l’on souhaite conserver un discours anthropocentré.
1. Formalisation des projections algorithmiques
1.1. Algorithme
Nous appelons algorithme A, toute suite finie non ambiguë d’instructions permettant de résoudre un problème bien formulé. Cette définition sous-entend que l’algorithme se termine en fournissant la solution à l’issue d’un nombre fini d’étapes de calculs.
Lorsque celles-ci s’exécutent instructions après instructions, on dit que l’algorithme est séquentiel.
Si au contraire, toutes les instructions peuvent être réalisées en même temps, on parle d’algorithme parallèle. Lorsque l’algorithme met en œuvre des tâches s’exécutant sur un réseau de processeurs, on le qualifie d’algorithme réparti ou distribué.
Son implémentation consiste en l’écriture de l’ensemble des opérations le composant, dans un langage de programmation fixé. Le programme obtenu doit être vu comme une traduction de l’algorithme relativement au langage choisi.
1.2. Système
Nous désignons par système S tout ensemble cohérent réunissant des moyens de calculs capables d’exécuter un algorithme, des espaces de stockage de données et de programmes interconnectés au sein d’une infrastructure en réseau, et un groupe d’opérateurs supervisant l’ensemble.
Cette notion de système sous-entend une cohérence forte dans son architecture, une connexité de ses composants et une supervision de l’ensemble par un groupe de calculs humains. Lorsque ce groupe n’existe pas, le système est dit autonome.
Cette définition de système et d’algorithme reste totalement compatible avec les archi- tectures d’informatique en nuage (cloud computing) et de virtualisation. La connexité des composants du système et sa cohérence finale résultent seulement des choix rationnels arrêtés par l’équipe supervisant le système. Sa topologie et sa morphologie ne modifient en rien la nature des transferts informationnels et l’archivage des données.
Ainsi, un réseau social constitue un système, incluant machines physiques, et couche algorithmique. Un site dédié au commerce en ligne ou aux transactions par enchères est considéré comme un système connecté en particulier aux systèmes de moyens de paiement électronique.
1.3. Projection algorithmique
Un opérateur humain est noté H et un groupe d’opérateurs {H1, H2,..., Hn}. Les actions de H sur le système S résultent d’un ou plusieurs calculs biologiques réalisés par H décidant ou provoquant l’exécution de l’algorithme A ou d’un groupe d’algorithmes {A1,...., Ak} sur S.
L’opérateur H fournit, voloéntairement ou non, les données d’entrée nécessaires à la bonne réalisation de l’algorithme A sur S puis recueille, à l’issue de la phase de calcul, les données de sortie.
Lorsque H décide d’exécuter A sur S, ou provoque son exécution sur S, il y a échange mutuel d’information entre H et S selon A.
On note IS (H/A) l’information transmise (volontairement ou non) par H au système S lors de l’exécution de A et IH (S/A) l’information transmise par le système vers l’opérateur H après exécution de A sur S.
Les entités IS (H/A) et IH (S/A) sont deux ensembles finis de mots binaires (suites finies de 0 et 1) résultant d’un codage initial interprétable par H.
L’information IH (S/A) constitue la réponse du système à l’exécution de l’algorithme A, envoyée à l’opérateur H par définition capable de la lire, de la comprendre et de l’exploiter.
IH (S/A) peut donc être considéré comme le résultat du calcul associé à A.
Les ensembles IS (H/A) et IH (S/A) subsistent le temps de l’exécution de A sur S et se réduisent, après exécution, à une fraction d’information archivée sur le système incluant les métadonnées éventuellement créées par S lors de l’exécution de A. Cet ensemble infor- mationnel appelé projection algorithmique sera noté PS (H/A).
Définition 1
Nous appelons projection algorithmique de H sur S selon A et notons PS (H/A) l’en- semble fini de mots binaires archivés sur S, résultant de l’exécution de A sur S décidée ou provoquée par H.
Le contenu de cet ensemble dépend directement de la nature de l’algorithme A, de la structure du système sur lequel il s’exécute et d’une volonté d’archivage plus ou moins affirmée par le groupe supervisant S. Ainsi, selon le système et l’algorithme envisagé, la projection algorithmique peut être vide ou réduite à une information résiduelle très pauvre.
Elle peut aussi réunir toute l’information échangée lors de l’exécution de A.
La projection PS (H/A) dépend de l’instant d’exécution de l’algorithme A sur S car les réponses du système S peuvent varier dans le temps en termes de niveau d’archivage ou de création de métadonnées.
1.4. Partition « projection ouverte – projection fermée »
Il est naturel de considérer une première partition séparant la projection algorithmique PS (H/A) en deux sous-ensembles disjoints constituant la composante ouverte de la projec- tion et sa composante fermée.
La projection ouverte notée POS (H/A) contient l’information de PS (H/A) archivée par S accessible à tout utilisateur ou tout système extérieur. Elle constitue la composante ouverte et publique de la projection algorithmique.
La projection fermée notée PFS (H/A) réunit les mots binaires de PS (H/A) archivés sur les unités de stockage de S, maintenus privés, et réservés au seul groupe supervisant le sys- tème S (ses administrateurs par exemple, dans le cas d’une supervision de nature humaine).
La projection algorithmique s’exprime donc comme une réunion disjointe des compo- santes ouverte et fermée :
PS (H/A) = POS (H/A) U PFS (H/A)
On notera que le contenu des projections ouvertes et fermées peut évoluer dans le temps avec un transfert d’information de la projection fermée vers la projection ouverte.
Le transfert réciproque est moins pertinent dans la mesure où l’on peut considérer qu’une information ouverte durant un certain temps conserve son caractère d’accessibilité via duplication ou archivage par un autre système. Ainsi, le caractère ouvert d’une infor- mation reste persistant face à une volonté de la faire évoluer vers le statut de donnée privée.
Les questionnements et polémiques portent d’ailleurs plus souvent sur le contenu et le contrôle des projections fermées que sur la gestion des composantes ouvertes (Boyer, 2012 ; Arquilla, Ronfeldt, 1993).
L’identité numérique, qui supporte le même type de décomposition en projections ouvertes et fer- mées, peut être abordée comme un cas particulier dans le formalisme des projections algorithmiques.
Figure 1 : Partition de la projection en composantes ouverte / fermée
1.5. Partition « projection volontaire – projection systémique »
Une seconde partition doit être envisagée sous l’angle du choix conscient que réalise l’opérateur lorsqu’il décide l’exécution de l’algorithme A sur le système S. Il s’agit bien d’un acte volontaire répondant à un besoin, un désir ou un manque informationnel. Les données transmises par l’opérateur vers le système et archivées sur S font partie de la pro- jection volontaire. L’opérateur accepte de confier ces données au système et perd aussitôt l’exclusivité de leur supervision. Cela sous-entend que le gain espéré après exécution de A sur S compense largement ce partage de supervision.
Considérons à présent dans PS (H/A) les seules données transmises volontairement par H ainsi que les résultats de calculs issus de l’exécution de A sur S à partir de ces données.
Ce sous-ensemble constitue alors la composante volontaire de la projection algorithmique ; il est noté PVOL-S (H/A).
Le sous-ensemble complémentaire dans PS (H/A) contient l’information non volontaire ou purement systémique archivée sur S après exécution de l’algorithme A.
On le note dans toute la suite PSYST-S (H/A).
La projection algorithmique s’exprime donc comme réunion disjointe des composantes volontaires et purement systémiques :
PS (H/A) = PVOL-S (H/A) U PSYST-S (H/A)
Selon la nature du système S et de l’algorithme A exécuté sur S, les composantes peuvent être vides ou sans contenu informationnel exploitable.
Le classement de certaines données dans la composante volontaire peut s’avérer délicat au regard de la difficulté à détecter le caractère « volontaire » d’une information. C’est alors du côté de la projection purement systémique qu’il faut chercher l’argument permettant de décider de la composante d’accueil : ce qui est non systémique est considéré, dans cette partition, comme une donnée volontaire. Ainsi, l’information produite par une réflexion humaine de type réflexe, réponse pulsionnelle ou partiellement inconsciente est classée dans la composante volontaire.
Figure 2 : Partition de la projection en composantes volontaire/systématique
En croisant les partitions précédentes, on obtient une partition plus fine constituée des quatre composantes : - La projection ouverte-volontaire
POS (H/A)
∩
PVOL-S (H/A)- La projection ouverte-systémique POS (H/A)
∩
PSYST-S (H/A) - La projection fermée-volontaire PFS (H/A)∩
PVOL-S (H/A)- La projection fermée-systémique PFS (H/A)
∩
PSYST-S (H/A) Figure 3 : Partition croisée de la projection algorithmiqueLe contenu informationnel de ces composantes est parfois sous- estimé par l’opérateur H qui ne dispose pas d’accès direct aux deux dernières projections en raison de leur caractère fermé.
C’est souvent lorsqu’un conten- tieux survient, opposant l’opérateur au système, que la prise de conscience des enjeux réels s’effectue.
Il faut souligner que les deux premières composantes participent très directement à l’élaboration de « l’e-réputation » de l’opérateur, en alimentant son stock de traces numé- riques publiques, archivées sur et en dehors du système S.
Les informations concernant l’opérateur H, créées par d’autres intervenants (individuels ou organisations) figurent naturellement dans leurs propres projections algorithmiques.
Leurs composantes publiques peuvent faire l’objet d’une recherche de la part de H, en utilisant un moteur de recherche standard ou un algorithme spécifique. Les données obtenues s’agrègent alors au sein d’une nouvelle projection PS (H/ ARECH) où ARECH est l’algorithme de recherche utilisé.
Le formalisme des projections reste totalement compatible avec les notions de traces, d’identité numérique et d’e-réputation.
1.6. S-projection algorithmique d’un opérateur Définition 2
Nous appelons S-projection algorithmique d’un opérateur H sur le système S, la réunion des projections algorithmiques PS (H/A) prise sur tous les algorithmes exécutables sur S.
La S-projection est notée PS (H) et vérifie : PS (H) = UAPS (H/A)
Par convention, lorsque l’opérateur H n’a pas encore exécuté ou provoqué l’exécution de l’algorithme A sur le système S, la projection PS (H/A) est vide ; on notera qu’elle peut également être vide à la suite de l’exécution d’un algorithme ne laissant aucune trace sur S.
On obtient une version instantanée de la S-projection en considérant la réunion des projections algorithmiques instantanées PS (H/A)toù t désigne la variable de temps.
Selon la nature et les propriétés de S, la projection instantanée peut varier dans le temps à la suite d’effacements, de modifications volontaires ou accidentelles des données la composant.
La persistance des données est liée à la robustesse – résilience du dispositif d’archivage de S.
Définition 3
Nous appelons S-projection instantanée d’un opérateur H sur le système S, la réunion des projections algorithmiques instantanées PS (H/A)tprise sur tous les algorithmes exé- cutables sur S.
La S-projection instantanée est notée PS (H)tet vérifie : PS (H)t= UAPS (H/A)t
La définition 2 n’utilise pas de paramètre temporel mais procède d’une approche asymp- totique en temps. Celle-ci consiste à supposer que le système S est suffisamment robuste – résilient pour ne jamais perdre ses données, ou, lorsqu’une panne majeure survient, pour qu’une duplication préventive ait été réalisée sur un système extérieur.
L’architecture en nuage est compatible avec ce type d’hypothèse « optimiste ».
De la même façon, la modification de la projection algorithmique par le système lui-même s’apparente à l’exécution d’un nouvel algorithme sur S qui donne lieu à une nouvelle pro- jection venant enrichir la réunion initiale. Cette hypothèse forte et simplificatrice permet de s’affranchir de la variable temporelle en ne manipulant que des entités ensemblistes absolues.
L’information contenue dans la S-projection d’un opérateur H n’est pas structurée.
Son organisation résulte d’une agrégation de mots binaires issus des projections élémentaires.
Elle peut comporter des doublons mais elle reflète toujours l’intensité de nos interactions informationnelles avec S.
1.7. Projection algorithmique globale d’un opérateur Définition 4
La projection algorithmique globale d’un opérateur H est obtenue par réunion des S-projections prise sur tous les systèmes numériques accessibles. Elle est notée P(H) et vérifie :
P(H) = USPS (H)
D’un point de vue systémique, la projection algorithmique globale est vide à la nais- sance de l’opérateur, elle évolue et s’enrichit tout au long de son existence en fonction de sa cyber-activité.
La projection globale instantanée de H est notée P(H)tet vérifie : P(H)t= USPS(H)t
Un individu H n’ayant aucune interaction numérique durant toute sa vie possède une projection algorithmique globale vide.
1.8. Big Data et projections algorithmiques – Base de projection Définition 5
Appelons G = {H1, …, Hn} un groupe de n utilisateurs du système S, décidant ou pro- voquant l’exécution de certains algorithmes sur S. Soit A un algorithme exécuté sur S par
chacun des utilisateurs. Les projections algorithmiques PS (Hi/A) peuvent être réunies dans une base de données notée BS, G (A) appelée base de projection de G sur S selon A, vérifiant BS, G (A)= U1 ≤ i ≤ n PS (Hi/A)
Le contenu de cette base reflète l’utilisation par G de l’algorithme A sur S.
En considérant tous les algorithmes exécutables sur S, on construit la base BS, G définie par : BS, G = U1 ≤ i ≤ n PS (Hi) réunissant les S-projections du groupe d’utilisateurs G, appelée base de projection de G sur S.
Ces deux bases constituent un gisement de données pré-structuré par l’action du ou des algorithmes A exécutés sur S.
On peut alors envisager une exploitation commerciale d’analyse prédictive de ce Big Data (si n est grand) s’appuyant sur la création d’agrégats en temps réels.
Les bases de projection interviennent très directement dans les structures de Datamining.
La nature de l’algorithme associé à la projection influence les processus d’enrichissement des données, de séquencement ou de classement des informations collectées.
L’étude de fréquences, les analyses comparatives, la création de « paniers comporte- mentaux » (habitudes, influences, tendances) s’inscrivent aisément dans le formalisme des bases de projections.
D’une façon générale, la représentation d’une donnée par projection peut améliorer son marquage dans le cadre de micro-ciblage et faciliter la prise de décision à faible temps de latence.
2. Quelques exemples de projections algorithmiques
Nous proposons des exemples canoniques de projections associées à des algorithmes élémentaires comme PRINT, MAIL, BID, BUY, PAY, CRYPT...
2.1. L’algorithme PRINT
PRINT désigne toute publication volontaire d’un texte, d’une image, d’un son, d’une vidéo effectuée par un opérateur sur un système à consultation publique.
Typiquement, on retrouve sous ce formalisme la rédaction d’un tweet, d’un message public sur un forum de discussion ou sur un réseau social, la mise en ligne d’une vidéo sur Youtube ou d’une photo sur Instagram.
La publication résulte d’un acte volontaire décidé à une date donnée.
L’opérateur H est conscient du devenir public de son information et souhaite a priori être lu, entendu ou vu.
La projection PS (H/ PRINT) contient le message M ainsi que les métadonnées qui lui sont associées (date, horaire d’envoi, identifiants de l’opérateur...).
Dans ce cas, PS (H/ PRINT) contient l’ensemble IS (H/ PRINT) et ses métadonnées.
Le message posté par l’opérateur est archivé sur son compte personnel, donc sur le système d’archivage de S avec parfois une forte ambiguïté sur le contrôle final de cette information.
L’opérateur supprime (ou a l’illusion de supprimer) le message de sa zone personnelle alors que ce dernier est conservé sur les zones de stockage de S.
La composante de projection ouverte POS (H/ PRINT) contient elle aussi le message et certaines métadonnées, la composante fermée rassemble les métadonnées crées par S
mais dépend avant tout du potentiel d’analyse et d’interprétation du système exécutant l’algorithme de publication.
La composante volontaire de la projection réunit l’intégralité du message alors que les métadonnées associées sont archivées sur la composante purement systémique.
2.2. L’algorithme MAIL
MAIL désigne naturellement tout envoi d’un message (texte, image, vidéo, SMS...) effectué volontairement par un opérateur expéditeur H vers un ou plusieurs destinataires.
Il est sous-entendu que l’opérateur ne souhaite pas que son message soit lu par quiconque excepté le ou les destinataires.
Le message est en général, momentanément archivé sur les comptes de messageries de l’expéditeur et des destinataires. Il peut l’être également par tout système (S ou d’autres) chargé de collecter et d’analyser ce type de données. L’archivage, clandestin et automa- tisé, s’effectue à l’insu de l’opérateur expéditeur et vient alimenter les bases de données
« Big Data » souvent supervisées et gérées par des agences étatiques. L’éventualité d’une sauvegarde systématique suivie d’une analyse automatisée suscite actuellement de fortes polémiques (système Prism) et force le cyber citoyen à une réflexion sur le devenir des informations qu’il transmet quotidiennement.
PS (H/ MAIL) peut contenir, selon la nature du système et son potentiel intrusif, unique- ment les métadonnées associées à l’envoi du message mais également ces métadonnées et le message complet. La composante de projection ouverte POS (H/ MAIL) est en principe vide, mais la totalité de l’information peut résider sur la composante fermée PFS (H/MAIL).
Le choix de crypter ou non le message transmis ne modifie pas les transferts d’informa- tions mais impose une phase de cryptanalyse pour le système qui met en œuvre un contrôle et une surveillance automatisée du trafic mail. La nature et le sens de l’information restent invariants, seul son codage est modifié. La composante volontaire peut contenir tout ou partie du message initial, en fonction de la politique d’archivage développée par le système S.
2.3. L’algorithme BID
BID désigne tout dépôt d’enchère sur un système commercial supervisant des transac- tions de cette nature. PS (H/BID) correspond alors à l’information archivée sur S (données et métadonnées) à la suite d’un passage d’enchère concernant la mise en vente d’un objet référencé par S.
La projection contient en particulier le montant de l’enchère proposé par H, les identi- fiants de l’objet et de l’opérateur. L’information archivée, même réduite à un simple montant d’enchère, peut s’avérer
« parlante » au regard des concurrences de surenchères et du prix de vente final de l’objet.
L’intérêt que l’opérateur porte à l’objet apparaît de façon naturelle dans l’enchaînement logique des passages d’enchères, ce qui n’existe pas dans un achat à prix fixe qui relève d’une décision binaire (j’achète ou je n’achète pas).
La suite des projections sur un cycle complet d’enchères portées sur un objet mis en vente sur S, notée {PS (H/BID1), PS (H/BID2), …, PS (H/BIDk)} contient l’information résultant de la stratégie mise en œuvre par l’opérateur H.
Selon les systèmes et le choix des vendeurs, cette suite de projection peut être ouverte ou fermée, dans ce dernier cas, seules certaines métadonnées restent accessibles.
2.4. D’autres algorithmes
On peut également évoquer les projections associées aux algorithmes élémentaires BUY et PAY, pour l’achat et le paiement en ligne d’un objet ou d’un service. Celles-ci contiennent l’historique de la transaction et les métadonnées qui permettent de structurer l’information.
L’algorithme CRYPT utilisé pour crypter une information sensible engendre une pro- jection dont le contenu peut à son tour servir à une cryptanalyse.
Enfin, CRAWL désigne toute recherche algorithmique effectuée sur le web en utilisant un moteur de recherche accessible.
Ce formalisme par type d’algorithme peut faciliter le marquage d’une donnée brute dans le cadre d’une collecte automatisée. Si la donnée est identifiée comme résultant d’une projection algorithmique associée à A, sa structuration utilisera les caractéristiques de l’algorithme et permettra la constitution d’agrégats informationnels pertinents.
3. Volumes d’une projection algorithmique
3.1. Volume brut d’une projection
En tant qu’ensemble fini de mots binaires, toute projection algorithmique PS (H/A) possède un volume brut fini. Celui-ci mesure la taille de l’information contenue dans la projection sans mise en forme particulière et sans compression de cette information. Les doublons sont donc « comptés » avec leurs ordres de multiplicité.
On notera dans la suite |PS (H/A)| ce volume brut exprimé en unité binaire et ses multiples.
3.2. K-Volume d’une projection
Désignons par K un algorithme de compression d’information sans perte s’appliquant à tout mot binaire fini m. K(m) est le compressé de m. Pour être efficace, on attend que sa longueur l(K(m)) vérifie l(K(m)) < l(m).
Si PS (H/A) = {m1, m1, …, mn}, la concaténation (selon un codage auto délimité) des mots de projection m = m1m2 … mn est un mot binaire sur lequel K s’applique.
On notera K (PS (H/A)) = K(m) la compression par K de la projection algorithmique.
Définition 6
Le K-volume de la projection PS (H/A) est noté |PS (H/A)|K et vérifie : |PS (H/A)|K= |K (PS (H/A))|
Le K-volume est une mesure relative à l’algorithme de compression sans perte K choisi, il permet d’évaluer la quantité d’information contenue dans la projection algorithmique en supprimant certains doublons informationnels.
3.3. Volume compressé moyen d’une projection Définition 7
Si K1, K2, …. , KP désignent p algorithmes de compression sans perte, on notera μ (PS (H/A)) = 1/p ∑1 ≤ i ≤ p I PS (H/A) IKi
le volume compressé moyen de la projection PS (H/A) relativement à la famille de compresseurs {K1, K2, …, KP}.
Remarque : Il est possible de construire une mesure de similarité de contenu entre deux projections à partir d’un algorithme de compression sans perte K.
Cette mesure s’avère utile lorsque l’on cherche à classer des projections par degré de similarité, relativement au compresseur K.
4. E-réputation et projections algorithmiques
L’e-réputation, parfois appelée réputation numérique, web-réputation ou cyber réputation réunit l’opinion commune qui se forme sur l’espace numérique à propos d’un individu ou d’une entité déterminée.
Cet ensemble informationnel hétérogène émerge directement des interactions numé- riques et des transferts d’informations diffusant entre l’espace physique et le cyberespace.
Le formalisme projectif fournit alors un outil d’approche systémique de l’e-réputation.
4.1. Historique de l’e-réputation
C’est au milieu des années 1990 que les premiers questionnements sur le transfert de réputation d’un individu vers l’espace numérique voient le jour. Ils accompagnent le déve- loppement des jeux vidéo et des premières compétitions entre joueurs qui construisent leur réputation à partir de leurs performances ludiques.
La notion d’e-réputation apparaît pour la première fois en 2000-2001 dans un article publié par McDonald et Slawson (2002) traitant de la « réputation sur internet ». Les auteurs utilisent le contexte d’un grand site de vente aux enchères pour mettre en lumière les inte- ractions qui opèrent entre les vendeurs et acheteurs du système, le prix des produits et le rôle des réputations naissantes. Les indicateurs ou marqueurs issus des évaluations positives ou négatives (historique des transactions, messages publics, nombre d’étoiles) influencent directement la formation du prix de vente final d’un objet et contribuent à établir le degré de confiance nécessaire à la transaction. Les scores de réputation installent la confiance et pérennisent l’activité.
Le terme « e-réputation » est employé pour la première fois par Chun et Davies en 2000.
Ces derniers analysent l’émergence de l’e-réputation à partir de la diffusion de signaux de conformité projetés sur le cyberespace. Ceux-ci construisent et renforcent la réputation associée à l’espace physique comme celle qui s’installe sur les espaces virtuels.
Les premières questions systémiques apparaissent à cette époque : comment construire sa réputation sur et par internet ?
Entre 2002 et 2005, de nombreux articles traitent des méthodes permettant de mesurer l’e-réputation d’un opérateur à partir de son activité passée sur un système.
Les problématiques du commerce en ligne alimentent régulièrement ce questionnement en l’appliquant au vendeur comme à l’acheteur.
L’établissement de la confiance à partir de signaux numériques fait l’objet de plusieurs articles traitant d’optimisation des performances marketing et commerciales.
En 2005, N. Chazaud (2008) débute une thèse de doctorat, soutenue en 2008, sur les liens entre veille stratégique et évolution de l’e-réputation. Il étudie les contributions effec- tives issues d’une veille informationnelle dans la maîtrise ou le contrôle de l’e-réputation d’une entreprise.
La période 2006- 2009 est celle d’une multiplication des recherches et réflexions sur le sujet accompagnées le plus souvent de développement d’outils logiciels d’évaluation de l’e-réputation d’une entité. De nombreuses agences prestataires, exclusivement dédiées à l’e-réputation, voient le jour durant cette période. Celles-ci offrent des services de veille active (opinion mining, lanceur d’alerte, cartographie, analyse d’influence, community management) qui permettent au client d’obtenir un « instantané » partiel de sa réputation numérique.
Le concept d’e-réputation est avant tout manipulé par ses « praticiens » : agences de publicité, agences de conseils en marketing, presse écrite, médias.
Depuis 2009, la médiatisation du sujet a entraîné une prise de conscience généralisée des enjeux de l’e-réputation : commerciaux, économiques, juridiques, psychologiques, et stratégiques.
La notion de droit à l’oubli sur l’espace numérique est apparue comme corollaire immé- diat de l’e-réputation et a fait émerger de nouvelles interrogations de natures juridiques et éthiques.
De plus en plus intégrée au sein du système d’information de l’entreprise, la gestion de l’e-réputation occupe aujourd’hui une position stratégique, mobilise des technologies spécifiques et participe à la création d’emplois dédiés.
Tout en cherchant à normaliser et à développer la gestion de son e-réputation, l’entreprise doit veiller à ne pas devenir la victime des biais collatéraux induits par cette nouvelle entité.
Elle doit en particulier être consciente des limitations fonctionnelles actuelles bridant les outils d’analyse automatisée (de nature sémantique) de l’e-réputation.
Enfin, elle doit prendre en compte l’extrême volatilité d’une opinion commune exprimée sur l’espace numérique.
L’avis binaire (cette marque est sérieuse ou non, ce vendeur est recommandé ou non) collecté sur un Big Data n’est qu’un instantané contextualisé qu’il convient de mettre à jour en temps réel si l’on recherche une information réellement exploitable.
4.2. Approche systémique de l’e-réputation d’un opérateur
L’e-réputation d’un individu se construit à partir de sa propre projection algorithmique globale (ce que l’individu a produit sur lui-même) et d’autre part, à partir de ce que les autres opérateurs produisent sur les systèmes au sujet de cet individu.
Cette seconde composante, d’origine externe, est répartie au sein des projections algo- rithmiques engendrées par ces opérateurs.
Dans toute la suite, H* désigne un opérateur humain et D (H*) un ensemble de déno- minations de l’individu H*.
D (H*) = {d1, d2, …, dn} pour lequel chaque dénomination dipermet d’identifier sans ambiguïté l’individu H* (nom prénom, identifiant numérique, fonction spécifique assurant l’identification, photographie, empreinte biométrique unique, ….).
On considère le groupe d’opérateurs humains ayant exécuté l’algorithme A sur S en produisant une projection algorithmique PS (H/A) qui rencontre D (H*) c’est-à-dire telle que :
PS (H/A)
∩
D (H*) ≠ Ø. On le note G (D (H*), A, S).Cet ensemble réunit les opérateurs qui ont produit de l’information projetée à propos de H* sur S selon l’algorithme A.
G (D (H*), A, S) = {H, PS (H/A)
∩
D (H*) ≠ Ø}Il permet ensuite de définir l’information projetée issue de l’exécution de A sur S ren- contrant l’ensemble de dénomination D (H*) par :
J (D (H*), A, S) = U PS (H/A)
H ϵG (D (H*), A, S)
En considérant la réunion, prise sur tous les algorithmes exécutables sur S, de ces informations projetées, nous définissons la S-information projetée rencontrant D (H*) par :
J (D (H*))S = UAJ (D (H*), A, S)
Puis, par réunion sur tous les systèmes accessibles, nous définissons l’information projetée rencontrant D (H*) par :
J (D (H*)) = USJ (D (H*))S
L’ensemble J (D (H*)) contient toute l’information produite par les opérateurs à propos de H* rencontrant l’ensemble de dénomination D (H*). Il est croissant par ajout de déno- minations supplémentaires dans D (H*).
Comme pour une projection algorithmique, l’information projetée rencontrant D (H*) est constituée d’une composante volontaire (issue de la volonté des différents opérateurs contribuant à l’alimenter par leurs projections algorithmiques), et d’une composante pure- ment systémique engendrée lors de l’exécution des algorithmes contributeurs. On retrouve également la partition en information projetée ouverte et information projetée fermée.
L’e-réputation d’un individu H* se forme par rétroaction, dans les composantes ouverte et fermée de l’information projetée rencontrant D (H*).
Si l’ensemble de dénomination est suffisamment « couvrant », J (D (H*)) contient au sens informationnel l’e-réputation de l’individu H*.
La construction précédente permet de sectoriser cette réputation selon plusieurs échelles ; au niveau le plus fin par l’algorithme définissant les projections, puis au niveau du système sur lequel on se place et enfin, au niveau global de production d’information.
L’algorithme utilisé puis le système impactent directement le type d’information produite et projetée (son volume, sa qualité, sa variété, son débit, sa pertinence). La décomposition projective donne accès aux nuances de textures qui forment l’e-réputation d’un individu.
5. Concurrences, duels et projections algorithmiques
Un conflit de rationalités opposant des groupes d’opérateurs humains se projette natu- rellement sur le cyberespace. Il engendre alors des situations de concurrences ou de duels algorithmiques (Berthier, 2013a) qui impactent directement le contenu des projections algorithmiques ainsi que leur morphologie.
Des boucles de rétroactions s’installent, agissant sur les projections des différents acteurs.
Le cadre d’une cyber attaque ciblant un système informatique provoque des turbulences sur les espaces physique et numérique et induit la production de projections algorithmiques caractérisant l’attaque.
Un Cheval de Troie ou Trojan est un programme utilisé comme vecteur afin d’introduire dans un système numérique un ou plusieurs autres programmes ayant une fonction propre : prise de contrôle différée, destruction ou sabotage d’une infrastructure, duplication, modifi- cation ou suppression d’information. Dans sa forme, le Trojan possède deux composantes : une première, publique, qui doit sembler inoffensive, attractive, utile à l’utilisateur et/ou au système qu’il cible et qui existe dans le seul but d’être acceptée par l’opérateur et/ou le système. La seconde composante, privée, furtive, contient la charge algorithmique offensive active qui va se déployer dans le système après l’avoir pénétré et permettre ensuite une prise de contrôle partielle ou totale de ce système.
L’installation d’un Trojan pourra par exemple rendre possible la lecture, la modification ou la suppression de données ou programmes du système ciblé.
L’exécution sur le système cible S de l’algorithme T contenant un Trojan résulte le plus souvent d’une décision malheureuse d’un opérateur humain H trompé par l’apparence inoffensive et utile de T.
La validation du Trojan qui s’effectue uniquement sur sa partie publique et attractive déclenche l’exécution de la charge virale sur le système ciblé. La projection PS (H/T) qui en résulte contient souvent les traces des effets de deux composantes de T.
La partie attractive publique de la charge se projette sur la composante volontaire PVOL-S (H/T) tandis que la partie offensive se projette sur la composante purement systé- mique PSYST-S (H/T).
Une fois infecté, le système S archive des projections qui peuvent potentiellement contenir les traces d’activité de la charge virale T. Ainsi, une partie de l’historique d’activité de T figure sur les S-projections des opérateurs produites après l’infection.
Celles-ci serviront d’alerte auprès des administrateurs du système infecté qui procéderont, via de nouvelles projections algorithmiques, à la neutralisation de T.
D’autres virus V chercheront à minimiser leurs empreintes numériques sur les S-projections afin de rester invisibles sur S le plus longtemps possible. C’est notamment le cas des agents offensifs destinés à collecter de l’information (renseignement économique ou militaire) tout en maintenant un haut niveau de furtivité au sein du système cible.
L’agent viral déployé sur le système s’attachera à collecter au profit de l’attaquant toute projection algorithmique fermée, volontaire ou systémique archivée sur S.
Parallèlement, une recherche exhaustive des projections ouvertes associées à la cible viendra compléter cette quête d’information.
Parfois, l’objectif de l’attaquant consistera en la modification ou la suppression de projec- tions sur le système cible. Il devra conjuguer furtivité et célérité afin d’atteindre ces données tout en déjouant les boucliers de sécurité installés sur S. Ce contexte de duel algorithmique engendrera une dualité des projections que chaque acteur cherchera finalement à exploiter.
6. Usage des projections et perspectives
Pour être pertinent, un formalisme doit à la fois faciliter la représentation d’interactions complexes mais doit aussi participer à la mise en lumière de relations, de similarités inédites, jusqu’alors peu ou pas visibles à partir des modèles existants.
L’approche par projection sous-entend un positionnement situé à l’interface de deux strates de calculs : celle du calcul humain et celle du calcul artificiel. Cette zone abstraite, à la frontière de l’informatique du silicium et des stratégies humaines est en constante mutation (Dossé, Kempf, 2011).
La convergence NBIC (pour Nanotechnologies, Biotique, Informatique, sciences Cognitives) réduit rapidement les distances séparant les supports de calculs. Le mouve- ment évolue clairement vers la fusion bio-numérique. Il paraît donc naturel de définir des formalismes compatibles avec cette convergence.
L’accélération exponentielle de notre production de données numériques justifie, elle aussi, la recherche de représentations des flux d’information diffusant de l’espace physique vers le cyberespace.
En 2012, l’univers numérique contenait environ 2 837 exaoctets (un exaoctet = 1018 octets). En 2015, ce volume global atteindra les 8 500 exaoctets, puis dépassera les 40 000 exaoctets en 2020 soit 40 zettaoctets (1021 octets).
En 2011, 5 exaoctets de données étaient générés tous les deux jours sur terre alors qu’en 2013, cela prend moins de 12 minutes !
D’ici à 2020, les machines vont multiplier par 15 le volume de données produites.
Les pays émergents produiront alors plus de données (62 %) que les pays développés (38 %).
La Chine à elle seule générera 22 % du volume mondial de données (Kempf, 2012).
Ces données seront liées aux loisirs humains, à la surveillance généralisée des espaces physiques et virtuels, à la sphère médicale. S’ajouteront aux données d’origine humaine, les données produites par les machines : téléphonie, appareils électroniques, objets connectés.
Dès aujourd’hui, la quantité d’informations stockées sur le cyberespace à propos d’uti- lisateurs individuels dépasse la quantité de données qu’ils créent eux-mêmes.
Notre modèle propose une partition en projection volontaire et projection systémique qui permet de décrire fidèlement cette dualité de production tant au niveau « micro » sur une interaction élémentaire homme-système qu’au niveau « macro » sur les bases de projections.
L’association d’une donnée à l’algorithme qui l’engendre facilite son marquage et son incorporation au sein d’un amas de données structuré ou en voie de structuration.
Réciproquement, l’étude d’un algorithme comprend sa description exhaustive exprimée dans un langage formel, une évaluation précise de sa complexité en temps et en espace ainsi qu’un domaine de validité fixant le type et les plages de données compatibles avec une exécution sur un système.
Ses zones d’instabilité, si elles existent, doivent faire l’objet d’une localisation précise (Berthier, 2013b).
Enfin, les bases de projection associées à un algorithme A exécuté sur un système S contribuent à la compréhension des interactions induites opérant entre le système et les opérateurs. La projection assure en quelque sorte un « retour d’expérience » sur la mise en œuvre de A et nous renseigne les réponses du système S.
Sur un autre plan, les S-projections d’un opérateur et sa projection globale ouvrent un champ d’étude appliqué aux boucles interactives qui peuvent s’installer entre l’opérateur et sa projection (Ventre, 2007 ; 2010).
La dynamique informationnelle de ces boucles obéit à des forces d’origine humaine (pul- sions narcissiques, manque affectif ou éducatif, addiction, militantisme, élan mystique,....).
L’opérateur est contraint à réalimenter sa projection qui opère alors comme un miroir public et restitue une image filtrée par les actions conjointes de A et de S.
La boucle s’installe en s’auto-alimentant des réponses opérateur-système.
Un cas concret illustrant ce mécanisme est celui d’un individu qui s’auto-radicalise par la fréquentation de sites ou forums d’activistes extrémistes. La radicalisation constitue alors le corollaire de la boucle systémique (Dossé, Kempf, Malis, 2013).
Les situations de concurrences ou de duels algorithmiques (Berthier, 2013a) relèvent de mécanismes similaires.
La collecte et l’analyse de données opérées à des fins de marketing, de veille écono- mique ou stratégique ou de surveillance et détection automatisée de menaces peut trouver avantage à la représentation projective des données.
La projection globale d’un individu contient par définition l’ensemble de ses traces numériques archivées, chacune marquée par son algorithme générateur.
Cette projection peut faire l’objet d’un ciblage dans le cadre d’une procédure de récolte de renseignement obtenu à partir de sources ouvertes (ROSO) (Ifrah, 2010).
L’identification et « l’étude » de la cible passent par l’interprétation de sa projection globale.
Les sphères d’application du formalisme projectif semblent aussi nombreuses que variées.
Reste à développer la suite du modèle intégrant relations et fonctions définies sur les projections puis l’infrastructure algorithmique supervisant l’ensemble.
Bibliographie
Arquilla J., Ronfeldt D., 1993. Cyberwar is Coming! Comparative Strategy12 (2), 141-165.
Berthier T., 2013a. Concurrences et duels algorithmiques. Revue de Défense Nationale 761.
Berthier T., 2013b. Créons l’observatoire des évolutions algorithmiques. Défense et Sécurité Internationale mai.
Boyer B., 2012. Cyberstratégie, l’art de la guerre numérique. Nuvis, Paris.
Chazaud N., 2008. Réputation d’entreprise et veille informationnelle : vers un modèle anticipatif de gestion des risques de réputation sur internet. Thèse de Doctorat, Montpellier I, Montpellier.
Chun R. and Davies G., 2000. E-Reputation and the Role of Mission and Vision Statements – Conference contribution – Manchester Business School, Manchester.
Dossé S., Kempf O., (Dir), 2011. Stratégies dans le cyberespace. L’esprit du livre, Sceaux.
Dossé S., Kempf O., Malis C., 2013. Le cyberespace, Nouveau domaine de la pensée stratégique. Economica, Paris.
Ifrah L., 2010. L’information et le renseignement par internet. PUF, Paris.
Kempf O., 2012. Introduction à la cyberstratégie. Economica, Paris.
McDonald C.G. and Slawson V.C., 2002. Reputation in an Internet Auction Market. Economic Inquiry 40 (3), 633-650.
Ventre D., 2007. La guerre de l’information, Hermes Lavoisier, Paris.
Ventre D., (Dir), 2010. Cyberguerre et guerre de l’information, Règles, stratégies, enjeux. Hermes Lavoisier, Paris.