• Aucun résultat trouvé

Nouvelle revue en ligne en culturmétrique : appel pour un comité sc...

N/A
N/A
Protected

Academic year: 2022

Partager "Nouvelle revue en ligne en culturmétrique : appel pour un comité sc..."

Copied!
6
0
0

Texte intégral

(1)

(Titre) « ETUDES CULTUROMIQUES »

(sous-titre) La science numérique de la culture : histoire et linguistique.

Mot clés : Contexte-technologies-domaines d’application- perspectives-histoire- linguistique –Big Data-

LIGNE EDITORIALE

La revue en ligne intitulée « Etudes Culturomiques » gravite autour d’un néologisme qui combine le champ vaste des sciences humaines avec le monde infini de l’univers numérique. Devant ce double vertige, il fallait faire des choix.

Notre publication a ainsi pour but de proposer des analyses structurelles dans le domaine spécifique de l’Histoire et de la linguistique, ces deux disciplines analysées par le prisme d’outils informatiques liés aux « Big Datas ». Cette notion apparue dans les années 1990 constitue aujourd’hui un défi technologique qui a bousculé toutes les Sciences Humaines qui vivent une mutation ou une crise structurelle et épistémologique. Où et quand se situe cette crise ?

En juin 2008, Chris Anderson rédacteur en chef de Wired Magazine publiait un article au titre provocateur : « The End of Theory : the Data Deluge Makes the Scientific Method Obsolete ». Selon lui, lorsque nous disposerons de suffisamment de données, les nombres parleront d’eux-mêmes et les corrélations ainsi dévoilées remplaceront les relations de causalité que postulent les théories. La science pourra se développer sans faire d’hypothèses explicites. Qu’en est-il pour l’Histoire et la Linguistique ? Comment cette crise est–elle vécue ? La toile de fond de notre revue aura pour but d’expliquer toutes ces ruptures épistémologiques.

Pour ce qui est de l’Histoire, nous insisterons sur la dimension idéologique qui a constitué l’appareil de pensée des Historiens. Or, l’analyse des données massives et leur corrélation va permettre de déconstruire les mythes qui se sont accumulés dans les différentes écoles d’historiens. Nous verrons ainsi que beaucoup de chercheurs ont souvent mis « en intrigue » leur discours et ont pu se retrouver dans le rôle d’un romancier selon le chercheur américain Hayden White. Tout discours ou écrit en histoire ne serait, selon cet historien, qu’une mise en scène, qu’une sorte de

« Making Fiction Operation ». Face à cette rupture, l’historien s’est mis à douter de lui-même. Toute l’histoire et son écriture devenant ainsi tragiquement subjectives.

(2)

L’autre mutation de ce traitement massif des données, c’est l’approche linguistique de notre revue. Pour ce qui est de ce domaine, nous interviendrons dans le champ de la linguistique informatique, de la linguistique des corpus, et des modèles probabilistes. Le calcul intensif et la modélisation permettent de générer une modélisation et une visualisation infinies des données. L’ère du « Big Data » se caractérise donc par son pragmatisme, conduisant les « Data Scientists » à minimiser l’utilisation d’apriori dans la construction des modèles et à mesurer leur qualité par leur pouvoir prédictif. Nombreux sont les plateformes « Factory Lab » qui proposent une lecture massive de données textuelles dans une perspective historique et linguistique. Aux Etats-Unis, beaucoup de projets ont vu le jour.

Ainsi, le laboratoire « Cesta » à Stanford est apparu en 2012 et il se consacre à des analyses massives de textes dans le temps et l’espace notamment en utilisant des applications telles que « Palladio » ou « Lacuna Stories » ou encore l’application

« Pelagios Common » financée par la fondation Andrew W. Mellon.

Auparavant, nous avions vu émerger un premier « Observatoire Culturel » situé à Harvard et dirigé par Jean-Baptiste Michel qui a pu entreprendre avec Google, la mise en ligne ouverte à tous de l’application intitulée « N-gram-Viewer » (visualisateur de fréquence de mots) et mise en ligne dès 2010.

A l’aide de ce programme, on peut par exemple étudier l’édition mondiale produite durant les 19ème et 20ème siècles. Cet instrument numérique en ligne sur l’Internet peut permettre une approche assez précise des occurrences lexicales des deux derniers siècles à partir de millions d’ouvrages numérisés.

(3)

Tous ces outils, souvent en ligne sur Internet, permettent ainsi la lecture d'occurrences inattendues ce qui ouvre la possibilité de rénover les procédures méthodologiques à partir de méga-corpus linguistiques. Les données quantitatives et historiques obtenues par ces technologies donnent accès à un monde numérique jusqu’ici peu pratiqué et presque caché. Ces applications désincarnées sur le Web permettent d'identifier une sorte de double immatériel de la mémoire culturelle.

Les données textuelles seront donc variées, comme la culture des Hommes. D’où la nécessité de les analyser automatiquement par des algorithmes pour en extraire des corrélations et des connaissances (data mining) et quelques fois de représenter ces résultats sous forme visuelle (data visualisation). La difficulté épistémologique des Big Data est pourtant la suivante : l’existence des corrélations (data analytics) ne signifie pas la réalité de cause à effet entre leurs référents. Et une corrélation n’équivaut pas une signification ou une connaissance. La tension fondamentale entre une science fondée sur la causalité et une analyse qui s’appuie sur les corrélations restera au centre de tous nos débats qui se cristalliseront autour de cette question finale : le « Big Data » va –t-il réellement changer la Science ?

La technique des fouilles de données (data mining), celle de l'utilisation de la science de réseaux (les nombreux graphes d'Internet), et leur mise à jour par « datas centers », fourniront donc les trois thèmes principaux de cette revue.

Eric Bailblé

(4)

(Title) "CULTURAL STUDIES"

(Subtitle) Journal of the Digital Science of Culture : History and Linguistics Keywords: Context-technologies-application domains- perspectives-history-linguistics

-Big Data-

EDITORIAL SLANT

The on-line journal entitled "Culturomic Studies" revolves around a neologism that combines the vast field of human sciences with the infinite world of the digital universe.

Faced with this double vertigo, one had to make choices. Our publication aims to propose structural analyzes in the specific field of history and linguistics, both of which are analyzed in the prism of computer tools linked to the Big Datas. This notion emerged in the 1990s today is a technological challenge that has upset all the sciences that are experiencing a structural or epistemological mutation or crisis. Where and when was located the break?

How to approach history, linguistic face the arrival of the quantum computer?

In June 2008, Chris Anderson, editor-in-chief of Wired Magazine, published an article titled

"The End of Theory: The Deluge Makes the Scientific Method Obsolete". In his view, when we have enough data, the numbers will speak for themselves and the correlations thus disclosed will replace the causal relationships that theories postulate. Science can develop without making explicit assumptions. What about History and Linguistics?

As far as history is concerned, we shall insist on the ideological dimension which constituted the apparatus of thought of the Historians. However, the analysis of the mass data and their correlation will make it possible to deconstruct the Cherished myths accumulated in History.

We will see that many researchers in the field of History were able to "intrigue" their speech and were able to find themselves in a more literary and romantic field according to the American researcher Hayden White. According to this historian, all discourse or writing in history is only representation, a sort of "Making fiction operation." Faced with this rupture, the historian began to doubt himself. The whole of history and its writing thus become tragically subjective.

It is this epistemological crisis that will underlie our vision of History in this review.

The other mutation of this massive data processing is the linguistic approach of our journal.

As far as this field is concerned, we will intervene in the field of computer linguistics, corpus linguistics, and probabilistic models.

Intensive computing and modeling allow for infinite modeling and visualization of data. The era of Big Data is characterized by its pragmatism, leading Data Scientists to minimize the use of a priori in the construction of models and to measure their quality by their predictive power. Many Factory Lab platforms offer a massive reading of textual data from a historical and linguistic perspective. In the United States, many projects have come into being. The laboratory "Cesta" in Stanford appeared in 2012 and is devoted to massive analyzes of texts in time and space especially using applications such as "Palladio" or "Lacuna Stories".

(5)

Previously, we had seen the emergence of a "Cultural Observatory" on Harvard headed by Jean-Baptiste Michel, who was able to undertake with Google the open up of the application entitled "N-gram-Viewer" (Frequency of words) and put online since 2010.

With this program, for example, one can study the world edition produced during the 19th and 20th centuries. This online digital instrument on the Internet can allow a fairly precise approach to the lexical occurrences of the last two centuries.

All these tools, often online on the Internet, allow the reading of unexpected occurrences, which opens the possibility of renovating the methodological procedures from linguistic mega-corpus. The quantitative and historical data obtained by these technologies give access to a digital world hitherto little practiced and almost hidden. These web-disembodied applications make it possible to identify a kind of intangible double of cultural memory.

The textual data will therefore be varied, as the culture of Men. Hence the need to analyze them automatically by algorithms to extract correlations and knowledge (data mining) and sometimes to represent these results in visual data. The epistemological difficulty of Big Data, however, is the following: the existence of correlations (data analytics) does not mean the reality of cause and effect between their referents. And a correlation does not mean a meaning or a knowledge. The fundamental tension between a causality-based science and an analysis based on correlations will remain central to our epistemological debates with this last burning issue : will Big Data really change science?

Data mining, the use of network science (the many graphs of the Internet), and their updating by datas centers, will provide the three main themes of this review. This backdrop will be the logic of our publications, which will bring linguistics, history and a digital universe into the hands of multiple texts from different languages.

E.Bailblé

(6)

Références

Documents relatifs

Car si l’on veut que cette utilisation d’énergies fossiles soit privilégiée d’abord dans les domaines où ces énergies sont le plus difficile à rem- placer – c’est

Mais si l’on veut que cette uti- lisation soit privilégiée d’abord dans les domaines où ces énergies sont le plus difficile à remplacer – c’est le cas du transport,

Mais toute sa vie elle aspire à un ailleurs mythique et quand, enfin, le docteur, à l’indépendance, propose de lui donner sa maison, elle refuse le cadeau malgré

L’autre versant de la problématique était d’observer qu’au moment où dans la majorité des Universités d’Outre Mer et même chez nos voisins Tunisiens, le

Avec tamazight, nous avons l’exemple d’une langue en situation de minorisation sur le marché linguistique national, mais qui, cependant, a fait l’objet d’une

15 Dans le premier cas les textes sont comparés deux à deux indépendamment du corpus étudié (c’est le cas des distances de Jaccard, Hamming …) ; dans le second les calculs

Sur la base d’une couche de référence, par exemple la photographie aérienne calée, nous pouvoir saisir de nouvelles entités spatiales. (géométriques) en les dessinant avec

Nous recourons donc, ici, aux technologies modernes de l'information en élaborant un logiciel pour évaluer et rééduquer les erreurs de perception visuelle des mots écrits en