• Aucun résultat trouvé

En 2004, Chris Anderson publiait un article dans la revue Wired intitulé « The long

tail ». Anderson (2004) redécouvrait alors le principe des « Lois de puissance » -un

type de relation mathématique particulier entre deux quantités (telle que la proportion 80-20 de Pareto) : Lorsque la fréquence d'un événement varie conformément à la puissance (mathématique) de certains attributs de cet événement (par exemple sa taille), on dit d‟elle qu‟elle est conforme à une « loi de puissance »- applicable, selon Anderson, en tant que business model, ce qui en faisait une nouveauté en soi.

Globalement, ces « lois, [sont] caractéristiques de diversité plutôt que de dispersion,

ont souvent été liées à la théorie de l'entropie » (Lhen et al., 1995, p.137)

Historiquement, on retrouve le type de distribution suivant une « loi de puissance » exprimée par Pareto (1917) dans son traité de sociologie générale qui prendra son nom de « distribution de Pareto » grâce notamment aux travaux de Joseph Juan. A l‟origine, Pareto observait, au début du XXe

siècle que 20 % de la population italienne possédait 80 % de la richesse nationale. Puis, Zipf dès 1932 dans

135

Internet Assigned Number Authority, Qui gère notamment l’espace d’adressage IP sur internet 136

Internet Corporation for Assigned Names and Numbers, chargé, entre autres, de gérer l’attribution des noms de domaines sur Internet. Il ne serait pas faux de dire que cette structure fait office d’organe de régulation suprême sur Internet.

son Selective Studies and the Principle of Relative Frequency in Language , détaille la distribution des mots du langage au sein du livre « Ulysse » de James Joyce - Distribution suivant une courbe bi-logarithmique tel qu‟illustré en -.

Fait notable, un certain nombre de phénomènes suivent fidèlement ce schéma de diversité (aussi appelé loi de concentration). D‟ailleurs, Mandelbrot généralisera la « loi de Zipf » trop empirique alors pour faire consensus. Pour cela, il s‟inspirera du « A Mathematical Theory of Communications »(1948) de Claude Shannon, sa théorie sera reconnue entre autres à travers Science et théorie de l’information de Brillouin (1953).

Parmi les phénomènes remarquables :

 En biologie, (Hill, 1953) établit que la distribution des espèces animales est fidèle à la loi de zipf

 En bibliométrie, (Lotka, 1926) corrèle production scientifique et loi de Zipf  En économie : (Anderson, 2004) le cumul des ventes en ligne d‟un grand

nombre de produits peu vendus est supérieur au cumul des ventes des « best

sellers ». Les pure players, ne vendant par nature que via internet et non des

boutiques, peuvent centraliser le stockage à moindre frais et par conséquent offrir un large choix de produits parmi lesquels un grand nombre de sera acheté qu‟un très petit nombre de fois.

Figure 42 Distribution typique d'une loi de puissance. La longue traine est ici en jaune. Elle représente un très grand nombre de produits qui vont être vendus peu de fois. Les pure players tels que amazon ne vendent qu’en ligne, aussi les stocks s’effectuent dans des entrepôts centralisés – Figure publiée dans l’article original de Anderson. Tous droits réservés, Wired News Magazine - 2004

5.6.1 Quelques effets Saint Matthieu en sciences

« Car on donnera à celui qui a, et il sera dans l'abondance, mais à celui qui n'a pas on ôtera même ce qu'il a. » (Matthieu 13:12, LSG)

Familièrement, on dit qu‟ « on ne prête qu’aux riches ». Scientifiquement, on appelle cela un effet de concentration (Zipfien par exemple), dont (Merton, 1968) étudiera une certaine manifestation en sciences : les récompenses décernées aux scientifiques. Dans le cadre de son étude, Merton (p.57) interrogera des lauréats de prix Nobel qui « observent qu’à plusieurs reprises d'éminents scientifiques se sont

vus attribuer de manière disproportionnée un grand crédit pour leurs contributions à la science alors que d’autres, relativement inconnus, ont tendance à obtenir de manière tout aussi disproportionnée peu de crédit pour des contributions comparables. »

De même, (Carayol, 2006, p.1033) observe que « La production scientifique est

distribuée très inégalement sur la population des chercheurs, c’est-à-dire que quelques chercheurs publient un très grand nombre d’articles alors qu’un très grand nombre de chercheurs publient peu » qu‟en effet « des avantages cumulatifs […] affectent la compétition académique » et « Ainsi, la compétition entre chercheurs académiques est dynamiquement biaisée » (Ibid, p.1045)

En 2001, Bonitz et Scharnhorst, du fait qu‟ils s‟intéressent la compétition en sciences, notamment entre pays, vont poser deux choses :

Les citations de Matthieu : soit « dans une revue scientifique, le nombre de

citations observées quant aux articles peuvent s'écarter sérieusement du score attendu: certains papiers obtiennent des excédents de citations, d'autres sont sous-cités ou pas cité du tout. La somme de toutes les citations excédentaires acquises par les articles «gagnants», est égale au nombre de toutes les citations non attribuées aux articles perdants. Ces citations qui sont apparemment «redistribuées» au sein d’une revue, des perdants vers les gagnants » (p.38)

 Les « Matthew Core Journals » ou MCJ : Bonitz et Scharnhorst comptabilisent l‟incidence des citations dites « de Mathieu » à travers un panel de 2712 journaux pour 9267696 citations. Ils dénombreront 823 428 citations de Mathieu parmi celles –ci. Les auteurs découvriront que la distribution des

citations de Mathieu à travers ces 2712 journaux suit une loi de puissance. En effet la moitié d‟entre elles se situent dans seulement 144 journaux. Ils porteront dorénavant le nom de « Matthew Core Journals » établissant qu‟ils seraient les « marchés les plus compétitifs quant aux publications scientifiques » (Ibid. p.40) 5.6.2 Incidence de l’effet Saint Matthieu sur le traitement des données

Dans sa thèse de doctorat, Pierret émet l‟idée que « derrière une fréquence, aussi faible

soit-elle, peut se cacher une information d’une grande valeur » (2006,

remerciements). Par ailleurs, l‟internaute est cognitivement limité : il se limite aux premiers résultats retournés par un moteur de recherche (voir 4.4.8.2 ci-dessus) et, en ce qui concerne la recherche d‟articles scientifiques, certains moteurs tels que

Google Scholar et Harzing’s Publish or Perish classent les articles par nombre de

citations obtenues. Par transitivité, et à moins de citer un article non consulté, les articles les plus cités devraient avoir tendance à l‟être encore plus dans ce contexte. C‟est une forme d‟effet Saint Matthieu.

De plus « La présence même d’une référence bibliographique d'un article dans une

base de données élimine toute nouveauté : l’information qu’il contient est rendue publique et est accessible à tous » (Ibid., p.7). Cela dit, on peut nuancer cette idée,

du fait de l‟effet Saint Matthieu, à moins d‟une recherche minutieuse axée sur un objectif de KDD (voir 4.4.1 ci-dessus), il va exister un petit nombre d‟articles cités un grand nombre de fois et inversement (une distribution en puissance inverse telle que Zipfienne) jusqu‟à « jamais cité ». Afin d‟être innovant, de pouvoir amener un apport scientifique, il pourrait être envisageable, à l‟instar de Pierret (p.129), de rechercher parmi des items (ici des publications scientifiques) à fréquence faible (les moins cités et apparaissant parmi les derniers résultats de recherche, donc peu consultés) des mots clés spécifiques. Cette technique, utilisée en KDD avec succès, pourrait être portée quant à la recherche d‟articles scientifiques.