• Aucun résultat trouvé

Le rapport au temps est un ancrage majeur pour l’historien, en ce sens les analyses diachroniques, éventuellement en lien avec l’espace, semblent intéressantes à étudier. Cette section exploite des données de plus haut niveau de formalisation (donc restriction du domaine d’étude) en utilisant les entités nommées dans le corps du texte, automatiquement ou manuellement extraites, et des métadonnées externes au corps du texte (liées au fichier). Les représentations des documents précédemment utilisées (VSM) doivent être revues pour les représentations spatio-temporelles. En effet, si on peut considérer que la distance entre 2 mots quelconques est constante (ou quantifiable, voir section “Word2Vec” (4.2.4)), la distance entre dates ou lieux implique d’autres opérations. Le problème se résume à un espace à 1 ou 2 dimensions souvent (temps ou espace) parfois 3 dimensions (espace et temps). Alors certaines des méthodes de clustering précédemment évoquées directement appliquées à ces nouvelles représentations des documents produisent des résultats peu intéressants. Par exemple, utiliser les k-moyennes sur des documents représentés par une date et un lieu (vecteur 3) est trivial. Cette section montre donc les défis que représentent les analyses plus fines, de données souvent dynamiques (temporelles) et les visualisations adaptées

4.3.1 Diachronie.

Les séries temporelles sont classiquement analysées dans de nombreuses disciplines (analyses prédictives) principalement en économie / finance où les phénomènes sont stationnaires (persistance de l’objet mesuré). Il s’agit essentiellement de découvrir des règles d’association d’éléments dans le temps. De nombreux modèles sont développés depuis les années 1950 (Whittle, 1951) : modèles autorégressifs (AR) et moyenne mobile (MA), ARMA est une combinaison linéaire des deux. Le modèle Vecteur

Autoregressif (VAR) se focalise sur la prédictibilité d’une variable à partir des antécédents d’autres variables (interdépendances). Sauf dans certains cas rares d’histoire sérielle (Chaunu, 1970) très rigoureux et conscrits, les phénomènes historiques ne sont pas stationnaires.

FIGURE 1.30 – Principe de la détection d’événement dans des séries temporelles sur base d’étude de variation de graphes de similarités entre documents

Certaines analyses de motifs temporels s’affranchissent de la non-stationnarité des variables et étudient les co-occurrences, co-évolutions d’événements. Des études de détection d’événements (event detection) pourraient intéresser les analyses histo- riques. Les graphes dynamiques (temporels) (Ren et al., 2017) permettent d’identifier des proximités entre nœuds en étudiant la stabilité temporelle (création et disparition de nœuds ou arêtes). La figure 1.30 illustre le principe. Ces graphes peuvent par exemple être issus de mesures de proximités entre documents. Par une autre approche, l’outil Diachronic’Explorer (Lamirel et al., 2016), complémentaire au clustering, permet une analyse de l’évolution des clusters dans le temps (pour les gros corpus textuels), et étudie donc aussi la stabilité d’ensembles textuels, Mei et Zhai (2005) mène une étude similaire en utilisant les modèles de Markhov cachés pour déceler les thèmes transverses aux sous-corpus (obtenus par clustering) malgré des décalages temporels. Enfin de nombreuses études concernent les journaux ou Twitter (Stilo et Velardi, 2016) où les similarités temporelles sont ga- geures de relations sémantiques (« Time makes sense ») entre termes (cf. figure 1.31). Dans ce cadre ce sont les distributions des occurrences de termes qui sont comparées et qui définissent des événements (clusters de termes situés dans le temps).

FIGURE1.31 – Comparaison de la distribution temporelle normalisée des occurrences de certains termes. (Stilo et Velardi, 2016)

4.3.2 Spatio-temporelle

L’analyse des données temporelles en relation avec l’espace produit des motifs dit spatio-temporels. Ces motifs permettent, par exemple, de déterminer au cours du temps les occurrences des événements et leurs localisations. Des analyses peuvent porter sur ces trajectoires. Ces analyses sont principalement menées depuis des données capteurs : GPS des objets connectés, ou depuis des bases de données existantes : étude des espèces invasives, ou depuis les textes (journaux) la diffusion de maladies comme la dengue. La reconnaissance mondiale du livre de Cressie et Wikle (2011) marque l’intérêt pour ce domaine.

La prise en compte de la géographie dans les textes (textual geography), davantage utilisée en sociologie qu’en Histoire, fait l’objet d’innombrables études via les réseaux sociaux (twitter principalement). Le standard ISO19108 (ISO, 2015) décrit le

schéma temporel pour les données géographiques, il dépend de ISO8601 (le standard classique pour la description du temps) et s’intéresse plutôt au temps long. Une ontologie (« time » du W3C) complète ces possibilités de description du temps.

Pour les textes bruts (en anglais), de nombreux programmes de recherche développent des outils comme Textual Geography Analyzer6 (Wilkens, 2015) : ils utilisent les NERC (celui de Stanford) et un API de localisation (de Google) pour produire des visualisations des entités géographiques issues de textes.

Le projet international phare dans ce domaine est mapping the Republic of Letters (Ceserani et Armond, 2015). Ce projet consiste à créer des représentations spatiales et temporelles des correspondances de grands auteurs européens de la fin duXVIIeet début du

XVIIesiècles. La figure 1.32 montre un exemple de visualisation résultant de ce projet. Notons que ces visualisations constituent la « partie émergée de l’iceberg », issues de nombreuses années de travail en amont sur les corpus d’archive (cf. section “Des données textuelles aux connaissances explicites” (3)) par les groupes D’Alembert du CNRS et Huygens ing des Pays-Bas.

FIGURE1.32 – Visualisation de la correspondance de D’Alembert (Projet mapping the Republic of letters)

Incertitudes. La prise en compte des incertitudes sur les données spatiales et temporelles en contexte archéologique/Historique a été étudié par l’équipe de C. de Runz (Zoghlami et al., 2011). Ces travaux établissent un pont entre la logique spatio-temporelle floue (au sens de la logique floue) de l’historien (ex : tournant duXXesiècle) et l’absurde précision du « timestamp » de l’ordi-

nateur (ex : 1905-10-30T10 :45 UTC). Ils complètent la norme ISO8601 (ISO, 1988), qui permet d’encoder des durées, et gère mal l’incertitude temporelle.

Le verrou que nous abordons ici est celui des relations spatiales et temporelles aux données textes. Lorsque ce type de données sont disponibles nous devons être en mesure de les prendre en compte dans leur acceptation incertaine (dans la continuité des graphes flous pour les relations sémantiques), même pour les phénomènes non-stationnaires. Il semble primordial que ces dimensions ne deviennent pas un moyen d’accès exclusif aux données. En effet certaines n’ont pas de dimension spatiale ou/ni temporelles, pourtant elles demeurent centrales pour la compréhension du phénomène historique et patrimonial (ex : les conditions de travail dans les mines de charbon). Il s’agit d’une approche multi-dimensionnelle du patrimoine.

Verrou scientifique (7)

(a) TextDNA (b) Linkurious FIGURE1.33 – Exemples d’interfaces de visualisation de deux logiciels