• Aucun résultat trouvé

AMÉLIORATION DE LA CONNAISSANCE DES SÉISMES HISTORIQUES PAR L UTILISATION DE TECHNIQUES DE DATA MINING

N/A
N/A
Protected

Academic year: 2022

Partager "AMÉLIORATION DE LA CONNAISSANCE DES SÉISMES HISTORIQUES PAR L UTILISATION DE TECHNIQUES DE DATA MINING"

Copied!
31
0
0

Texte intégral

(1)

A MÉLIORATION DE LA CONNAISSANCE DES SÉISMES HISTORIQUES PAR L UTILISATION DE TECHNIQUES DE DATA MINING

Emmanuelle NAYMAN (1) , Natacha TESTUT (1,2) , Meryl BOTHUA (1) , Jessie MAYOR (1)

SÉMINAIRE TEMPÊTES ET SUBMERSIONS HISTORIQUES

Online, 17 décembre 2020

(1)

EDF,

(2)

Université Montpellier 3

[email protected]

(2)

L A S ISMICITÉ H ISTORIQUE

Sismicité historique Sismicité instrumentale

QUALITATIVE QUANTITATIVE

• Basée sur la recherche et l’analyse des témoignages sur les tremblements de terre conservés dans le patrimoine littéraire

• Constitue la base de la macrosismicité (la sismicité dont les effets peuvent être décrits)

• Conservés dans une base de donnée dédiée : SisFrance (BRGM, EDF, IRSN depuis 1975) - Répertorie l’ensemble des effets des séismes,

- Évalue les intensités macrosismiques associées,

- Permet une estimation de la localisation des épicentres.

séismes sur le territoire

métropolitain entre 463 et 2007 épicentres observations ou localités références bibliographiques

6 000 1 800 100 000 10 000

SisFrance

(3)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 3

L E D ATA M INING A PPLIQUÉ À LA S ISMICITÉ H ISTORIQUE

ce que l’on veut (idéalement)

Internet

Process AUTOMATIQUE

(4)

ce que l’on fait actuellement

Text Mining

Process MANUEL

ce que l’on fait actuellement

L E D ATA M INING A PPLIQUÉ À LA S ISMICITÉ H ISTORIQUE

(5)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 5

Galli ca & R et ro N ews

6 000 000 documents

Compte-tenu du volume de documents collectés, il n’est pas

possible de l’explorer avec un simple moteur de recherche

L E C RAWL DE 2 S ITES P ILOTES

(6)

Analyse linguistique, statistique et sémantique de documents

• Extraire les informations pertinentes

• Architecturer l’information extraite de façon à ce qu’elle soit réutilisable rapidement.

• Classification automatique Non structuré

Structuré Algorithme général

Préparation des données : - nettoyage des mots

- nettoyage préalable à l'apprentissage statistique des fichiers (stop words)

Vectorisation des données textuelles

Modélisation selon différentes méthodes (logistique, arbre, forêt aléatoire) Régression logistique, méthode de CART,… (apprentissage incrémental)

L E T EXT M INING SUR B ASE DE D ONNÉES C RAWLÉES

(7)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 7

Textes Bruts Complexe Data Structure

Indexation Information Extraction

Preprocessing

Analyse &

extraction de données structurées

Génération de modèles de concepts

+ Localisations + Dates

+ Ontologies dédiées

+ Relations

Basé sur l’apprentissage supervisé de SisFrance

T EXT M INING : S TRUCTURATION DE D ONNÉES

(8)

Apprentissage supervisé sur SisFrance

SisFrance

OCR Text mining

mots clés

Sélection &

Classification

automatique des

documents crawlés

(9)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 9

Constituer une ontologie sismologique servant dans le processus data mining comme filtre

A PPRENTISSAGE S UPERVISÉ S IS F RANCE

É TAPES

1. Définition a priori de l’ontologie sismologique

2. Utilisation de l’OCR pour convertir des documents

3. Détection de langue pour travailler sur des documents en français 4. Reconnaissance des entités nommées

5. Enrichissement de l’ontologie

(10)

D ÉFINITION DE L ’ ONTOLOGIE SISMOLOGIQUE

Ontologie Sismologique

Évoquant des dommages matériels ou

physiques

Évoquant des allusions au divin

Évoquant les structures et

bâtiments Évoquant le

comportement humain ou animal pendant ou après le tremblement de

terre

Évoquant le son entendu pendant ou après le tremblement de terre

Tous les termes se référant au tremblement de terre

Concept Sonore

Concept

Comportemental

Concept Divin

Concept Bâti Concept

Dégâts Concept

Séisme

(11)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 11

U TILISATION DE L ’OCR

SisFrance document (CHR : 1697) OCR of SisFrance document (CHR : 1697)

OCR: Reconnaissance des caractères optiques

Distingue les caractères de textes

imprimés ou manuscrits dans

l’image numérique d’un document

physique

(12)

U TILISATION DE L ’OCR : SUR MANUSCRIT

Résultat OCR dans la GED

OCR ne peut pas lire les caractères présents Le document est inutilisable

Sr Fellis Maixe trézorier moderne de la Comté du lieu de Pierrevert péiés à Jean Maixe du mesme lieu quatre livres pour un voiage qu'il a fait à Aix pour pourter le raport de rézon du tramblement du domage qu'il avoit cauzé aus mézons à monseigneur l'intant. En reportant le pressant et acquit vous sera pasé à votre compte.

A pierrevert, le six octobre 1709.

Blanchardis, Maire.

Retranscription

Résultat dans la GED

Document SisFrance (CHR 9440)

(13)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 13

U TILISATION DE L ’OCR : SUR IMPRIMÉ DE MAUVAISE QUALITÉ

Résultat OCR dans la GED

OCR ne peut pas lire les caractères présents Le document est inutilisable

En 1789, et le 10 avril, à deux heures après-midi, le temps était serein et le Nord régnant,

on entendit dans les mêmes parties de la Bresse et du Revermont, un bruit ou détonation

semblable à un coup de tonnerre prolongé, et dans le même instant la terre fut ébranlée ;

la direction du mouvement était la même, et l'on reconnut également qu'il s'était affaibli

en se portant vers l'Ouest.

Retranscription

Résultat dans la GED

Document SisFrance (CHR 1698)

(14)

D ÉTECTION DE LA LANGUE

Que est ce que n-gram ?

bi-grams _T, TE, EX, XT, T_

tri-grams _TE, TEX, EXT, XT_, T__

quad-grams _TEX, TEXT, EXT_, XT__, T___

Nous détectons la langue en comparant 2 profils :

Profil de langue anglaise [TH, ING, ON, ER, AND, ED]

Exemple de profil de document [TH, ER, ON, LE, ING, AND ] Répartition des langues des documents SisFrance

Vieux français 52%

français 28%

Allemand;

10%

Anglais 5%

Espagnol 3%

Latin

2%

(15)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 15

R ECONNAISSANCE DES ENTITÉS NOMMÉES

Nous utilisons GATE© pour extraire :

• Dates

• Lieux

• Personnes

• Termes ontologie sismologique

General Architecture for Text Engineering ou GATE est une suite d’outils Java utilisé pour de nombreuses tâches de traitement de langage naturel, y compris l’extraction d’informations dans de nombreuses langues.

Nous devons faire face à des données sales :

• Mots agglutinés

• Fautes d’orthographe

• Abréviations

• Synonymes

OCR document SisFrance (CHR : 1697)

(16)

16

(17)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 17

E NRICHISSEMENT DE L ’ ONTOLOGIE

Ontologie Word2Vec

Ontologie linguistique

Documents SisFrance

Traitements Word2Vec

Interactions usager

Téléchargement de l’ontologie

Recherches de termes

Validation manuelle des termes

Ontologie enrichie

Word Embedding

Technique de réprésentation d’un mot, ou d’un

ensemble de mots, en vecteur qui permet de

retrouver d’autres mots similaires par

comparaison de modèle vectoriel.

(18)

P EUPLEMENT DE L ’ ONTOLOGIE

Divin

Etablissement, escalier, atelier, immeuble, lustre, sommier, banc, sacristie, salle, caserne, armoire, lampe, maison, château,

presbytère…

Bâti (47)

Affaissement, éclat, effondrement, amortissement, renversement, tintement, écroulement, agitation, lézarde, frémir…

Dégâts (23)

Angoisse, inquiétude, crainte, accès, consternation, embarras, terreur, stupeur, peur, cauchemar

Comportemental (10)

Sifflement, mugissement, fracas, brait, bruissement, roulement, coup, craquement, tintement, bourrasque, rumeur, trépidation, canonnade,

bruit, ronflement

Sonore (15)

Oscillation, agitation, ondulation, désastre, sinistre, cataclysme, crise, tourbillons, hypocentre, séismologie, violent, élevé, modéré, prononcé, épicentral, macrosismique, pléistoseiste, microseis,

réplique, sismographe

Séisme (20)

Ontologie Sismologique

115 termes ont été ajoutés aux 206 termes identifiés par les experts

(19)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 19

V ERS DES DONNÉES STRUCTURÉES …

Superposer des espaces vectoriels pour une recherche performante de documents pertinents

Concepts Dédiés Documents Proportion de concepts et indexation

Séisme

Bâti

Dégâts

Comportemental

Dates Loc ali sa ti ons

dégâts

comportemental

séisme

• Extraction des concepts dédiés (ontologie)

• Annotation automatique des bases de connaissance

• Détection des relations inter-concepts

• Définir l’espace latent dédié d’un document dans un espace vectoriel

(20)

… EXPLOITÉES EN SIMILARITÉ PAR SACS DE MOTS

Mettre en place la similarité pour éviter de retrouver les doublons Gallica/SisFrance

Echelle de similarité

Cette méthode s’est montrée très efficace pour retrouver facilement

des récits inédits de séismes ressentis en France métropolitaine.

(21)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 21

R ÉSULTATS

Le système mis en place est efficace

Il permet de trouver de nouveaux documents

apportant de nouvelles informations sur des séismes passés

1608 documents

séismes FRANCE

Relatifs à 377 séismes déjà connus entre 580 et 1978

d’intensité épicentrale II à IX

Non référencés dans SisFrance dont 45% apportent de nouvelles

informations

996 documents

inédits

Améliore la connaissance des séismes historiques !

+ 26 documents sur 24 tremblements de terre inconnus. + 10% de documents dans SisFrance

(22)

P ERSPECTIVES

VALORISER LES DOCUMENTS

TROUVÉS CONTINUER LA

RECHERCHE

VALORISER LA MÉTHODE

Un système plus autonome, plus efficace,

déployés sur d’autres bases de données et thématiques

(23)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 23

FIN FIN

(24)

SLIDES

BACK-UP

(25)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 25

Exploitation de SisFrance

Enrichissement des bases de données et des bases de connaissance

Mise en place de techniques de datamining avancées

Mise en place de l’effet boule de neige

Similarités Bags of Words (BoW) pour comparer les textes OCRisés SisFrance avec les textes enrichis du corpus documentaire

[15-20%]

[20-25%]

[60%]

L A S TRATÉGIE : LES ÉTAPES CLÉS

(26)

Quelques documents historiques

(27)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 27

DEFINITIONS

(28)

Les concepts pour bien commencer

• CRAWL : désigne l'exploration d'un site web par un robot d'un moteur de recherche, en cliquant sur les liens proposés, afin de découvrir toutes les pages du site au travers d'une navigation naturelle.

• INDEXATION : référence à des processus de représentation de l'information d'un document par un indice ou un mot clé, avec l'aide ou non d'un langage documentaire, en vue d'en faciliter le repérage et la

consultation.

• OCR : Optical Character Recognition (ou océrisation) : désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.

• TEXT MINING est une branche du DATA MINING qui se spécialise dans le traitement de corpus de textes pour en analyser le contenu puis en extraire des connaissances.

• INTELLIGENCE ARTIFICIELLE (Apprentissage automatique)

• Apprentissage supervisé : MACHINE LEARNING

L’apprentissage est dit supervisé lorsque les données qui entrent dans le processus sont déjà catégorisées et que les algorithmes doivent s’en servir pour prédire un résultat en vue de pouvoir le faire plus tard lorsque les données ne seront plus catégorisées

• Apprentissage non supervisé : DEEP LEARNING

L’apprentissage non supervisé est beaucoup plus complexe puisqu’ici le système va devoir détecter les similarités dans les données qu’il reçoit et les organiser en fonction de ces dernières.

back

(29)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 29

Analyse qualitative

• Détails rapportés sur le ressenti du séisme à Vic-le- Comte et Mauzun (Puy-de-Dôme)

Vic-le-Comte

Mauzun

(30)

Analyse qualitative

• Témoignages rapportés du ressenti du séisme à Neschers et Maringues (Loire et Puy-de-Dôme)

Maringues

Neschers

(31)

© EDF – DIRECTION INDUSTRIELLE Séminaire Tempêtes et submersions historiques | déc. 2020 31

Analyse qualitative

• Détails rapportés sur le ressenti du séisme à Huy et Tirlemont (Belgique)

Huy

Tirlemont

Références

Documents relatifs

But : A partir de ` donn´ ees d’entraˆınement, on veut apprendre une loi de pr´ ediction pour : pr´ edire une donn´ ee de sortie y ` a partir d’une donn´ ee d’entr´ ee x,

Le but de cette partie est d’´ etudier l’´ evolution empirique de certaines quantit´ es th´ eoriques vues en cours : l’exc` es de risque ainsi que l’erreur d’approximation

Le but du cours n’est pas seulement d’exposer une th´ eorie de l’apprentissage, mais aussi d’introduire un certain nombre de concepts et techniques de math´ ematiques appliqu´

— Apprentissage supervisé : Dans ce type de problème, on cherche à définir une règle de

As already mentioned, the present work is concerned with the modelling of large- scale data within a data streaming framework, using Machine Learning methods, specifically the

Cet article propose une approche destinée à valoriser les bases de données historiques afin de mieux caractériser le millésime en cours. L’approche proposée repose sur

• utilisation : pour une entrée X (de  d ), chaque neurone k de la carte calcule sa sortie = d(W k ,X), et on associe alors X au neurone « gagnant » qui est celui de sortie la

Les arbres sont utilisés pour des problèmes de régression ou de classification.. Il existe plusieurs méthodes pour construire