• Aucun résultat trouvé

4. État de l’art dans le domaine de la bibliométrie appliquée à la

4.3 Les lois « piliers » de la bibliométrie

Les lois de Lotka, Bradford et Zipf sont les piliers de la bibliométrie (Bailón-Moreno et al. 2005). Expliquant des phénomènes distincts, elles présentent toutefois un certain nombre de ressemblances (Rostaing 1996). “[T]hey express the empirical relation between sources and the items they deliver” (De Bellis 2014, p. 37). De Bellis (2014)

relève le fait que leur dénominateur commun est le constat d’une disparité dans le modèle qu’elles analysent : la majeure partie des publications scientifiques ayant un impact dans un domaine scientifique sont le fait de quelques chercheurs (loi de Lotka) ; la majorité des articles significatifs dans un champ disciplinaire sont publiés dans quelques revues (loi de Bradford) et enfin un nombre relativement restreint de « groupes » de mots récurrents domine les comportements linguistiques individuels dans la communication scientifique (loi de Zipf).

4.3.1 La loi de Lotka

Basant son étude sur le decennial index of chemical abstracts38 et l’index d’Auerbach's

Geschichtstafeln der Physik, Lotka (1926) souhaite savoir s’il est possible de déterminer la manière dont des chercheurs de différents acabits contribuent au progrès de la science. Soit la distribution de la productivité scientifique des chercheurs (Gingras 2014a). Lotka (1926) observe que seul un nombre restreint d’auteurs publie un nombre conséquent d’articles à savoir que ladite productivité se limite à un certain nombre de scientifiques : le nombre de chercheurs publiant n contributions scientifiques est égal à 1/n2 et est dès lors inversement proportionnel au carré de n (cf. Annexe 13). Si des études menées depuis lors ont confirmé cette loi, d’autres la remettent en question. Ainsi, Price (1986) relève que le nombre de chercheurs les plus prolifiques en termes de publication s’approcherait plus de l’inverse du cube et non du carré39. Certains estiment que « [l]a présentation générale et la régularité de la distribution […] ne sont plus remises en cause [et que] seule la formulation mathématique reste sujet de discussion » (Rostaing 1997, p. 42). La loi de Pareto ou loi des 80/20 est une extension de la loi de Lotka au domaine de l’économie et de la démographie (Bailón-Moreno et al. 2005).

4.3.2 La loi de Bradford

Les revues contiennent des articles pouvant intéresser plus d’un domaine scientifique. Partant de l’observation que seul un tiers des articles publiés sont présents dans les journaux d’abstract et d’indexation, Bradford (1934) souhaite découvrir s’il est un moyen de sélectionner les revues les plus pertinentes40 en cherchant à définir quel en est leur “nucleus” (noyau). Il analyse la manière dont les publications spécifiques à un domaine sont réparties dans les revues qui se voient classées en trois groupes : i. celles qui publient plus de quatre articles ; ii. celles qui publient entre un et quatre articles et iii. celles qui en publient un, si ce n’est moins, par an. Les revues de ce dernier groupe sont

38 Lotka (1926) a sélectionné les chercheurs dont le nom commence par A ou B.

39 En analysant les réseaux de citation, il trouve toutefois une loi de distribution très similaire

à celle de la loi de Lotka (Price 1965).

Pour de nouveaux instruments d’évaluation des publications scientifiques : état des lieux théorique et scénarios les plus nombreuses et de nature très variée. Bradford (1934) s’étonne du fait que certaines d’entre elles, pourtant orientées vers ses domaines de recherche, ne publient pas plus d’articles sur le sujet. Il exprime sa loi de distribution des articles traitant d’un sujet spécifique dans les revues de la manière suivante :

“[…] if scientific journals are arranged in order of decreasing productivity of articles on a given subject, they may be divided into a nucleus of periodicals more particularly devoted to the subject and several groups or zones containing the same number of articles as the nucleus, when the numbers of periodicals in the nucleus and succeeding zones will be as 1 : n : n2...”

(Bradford 1985, p. 178, publication originale Bradford 1934) Au terme de son étude, Bradford (1934) arrive au constat qu’un changement radical est nécessaire : la littérature scientifique ne doit plus être résumée et indexée par sujet, mais par source.

En vue du lancement du SCI, Garfield cherche à déterminer le nombre de revues scientifiques qui permettront de recueillir le nombre optimal d’information scientifique. L’OCDE (1997) relate les étapes suivies par Garfield. Dans un premier temps, il détermine, sur la base d’une loi elle-même fondée sur celle de Bradford, que ce sont entre cinq cent et mille revues qui doivent être consultées pour obtenir 95% « de la littérature « significative » dans un domaine donné » (OCDE 1997, p. 18). Dans un second temps, du fait que la loi de Bradford se réfère à un domaine scientifique, Garfield cherche à déterminer le nombre de revues à sélectionner en vue de couvrir plusieurs domaines. Il associe une loi de concentration qu’il a développée à la loi de dispersion de Bradford. Puis établit qu’il ne faut pas multiplier le nombre de revues par le nombre de domaines qu’il souhaite couvrir : du fait que nombre de « disciplines se recoupent, le cœur de la littérature pour l’ensemble de ces disciplines peut également être couvert par environ 500 à 1’000 revues » (OCDE 1997, p. 18). Il s’agit alors pour Garfield de repérer ces revues. Il se réfère au nombre de citations :

« Premièrement, on compte le nombre de fois qu’un article est cité dans une revue donnée. Ensuite, on calcule le facteur d’impact […] en divisant le nombre de citations par le nombre d’articles contenus dans cette revue. Cela permet d’éliminer tout avantage lié à aux dimensions de la revue, et rend la citation proportionnelle au nombre d’articles. » (OCDE 1997, p. 18) Nous traitons du fonctionnement du nombre de citations dans le chapitre 4.4.2.2 puis du facteur d’impact dans le chapitre 4.4.4.

4.3.3 La loi de Zipf

George Kingsely Zipf dénombre les occurrences des près de trente mille mots se trouvant dans Ulysses de James Joyce avant de les classer par ordre décroissant de fréquence f et leur attribuer un rang r (Rostaing 1996). Multipliant f par r, Zipf observe

que le résultat obtenu est toujours proche d’une constante C, soit f(r).r = C. La fréquence est inversement proportionnelle au rang du mot. Constatant que l’être humain préfère avoir recours à des mots ordinaires plutôt que singuliers, Zipf nomme en 194941 sa loi comme étant celle « du principe du moindre effort » (Rostaing 1997 ; Bailón-Moreno et al. 2005). Si cette loi de puissance ou “power low ” est aujourd’hui connue sous le nom de loi de Zipf, elle avait déjà été relevée plus tôt dans le XXe siècle par le sténographe Jean-Baptiste Estoup puis par le physicien nucléaire Edward Uhler Condon (Bailón- Moreno et al. 2005 ; Rousseau, Egghe et Guns 2018). En outre :

“The regularities he observed do not follow from a universal property of the human mind, but they are rather a consequence of the laws of probability. Zipf curves are merely expressing a consequence of regarding a message source as a stochastic

process.” (Rousseau 2002, p. 14)

Ce qui fut originellement formulé par Benoit Mandelbrot selon Rousseau (2002) et peut être considéré comme une généralisation de la Loi de Zipf : Mandelbrot intègre à sa fonction un paramètre supplémentaire qui s’applique dès lors plus facilement aux données observées (Rousseau, Egghe et Guns 2018). Plus récemment, il a été démontré que la notoriété des pages internet peut être décrite selon la loi de Zipf (Aida, Takahashi et Abe 1998, cités dans Rousseau 2002). Si les lois de puissances que sont les lois de Lotka et de Zipf sont considérées comme similaires :

“[…] starting with ‘Zipf’ leads to ‘Lotka’. Starting with ‘Lotka’ does not in general lead to ‘Zipf’ but rather to a generalization due to Mandelbrot.”

(Rousseau 1990, cité dans Rousseau 2002, p. 16)