TECHNIQUES DE TAL POUR LA RECHERCHE DES « SIGNAUX FAIBLES » ET CATEGORISATION DES RISQUES DANS LE REX SDF DES LANCEURS SPATIAUX

(1)

HAL Id: hal-02063852

https://hal.archives-ouvertes.fr/hal-02063852

Submitted on 11 Mar 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

TECHNIQUES DE TAL POUR LA RECHERCHE DES

“ SIGNAUX FAIBLES ” ET CATEGORISATION DES RISQUES DANS LE REX SDF DES LANCEURS

SPATIAUX

Loïc Galand, Michal Kurela, Horacio Clavijo

To cite this version:

Loïc Galand, Michal Kurela, Horacio Clavijo. TECHNIQUES DE TAL POUR LA RECHERCHE

DES “ SIGNAUX FAIBLES ” ET CATEGORISATION DES RISQUES DANS LE REX SDF

DES LANCEURS SPATIAUX. Congrès Lambda Mu 21, “ Maîtrise des risques et transformation

numérique : opportunités et menaces ”, Oct 2018, Reims, France. �hal-02063852�

(2)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

TECHNIQUES DE TAL POUR LA RECHERCHE DES « SIGNAUX FAIBLES » ET CATEGORISATION DES RISQUES DANS LE REX SDF DES LANCEURS

SPATIAUX

APPLICATION OF NATURAL LANGUAGE PROCESSING FOR “WEAK SIGNALS”

AND RISKS CATEGORIZATION IN SPACE LAUNCHERS RAMS LESSONS LEARNED

Loïc GALAND Michal KURELA, Horacio ROMERO CLAVIJO

LIPN, UMR7030, Université Paris 13 CNES Direction des Lanceurs DLA/QGP/SQL 99 avenue Jean-Baptiste Clément 52, rue Jacques Hillairet

93430 Villetaneuse - FRANCE 75612 Paris Cedex - FRANCE

+33 1 49 40 28 32 +33 1 80 97 71 21

Résumé

L’objectif de l’article est l’évaluation des approches méthodologiques de recherche des « signaux faibles » de défaillances latentes qui laisseraient des traces dans les retours d’expérience (REX) qualitatifs de Sûreté de Fonctionnement. La multiplication des sources de REX a eu pour effet une augmentation croissante de la taille et de l’hétérogénéité des bases de données de REX. Pour en faire face, un traitement efficace de ces REX s’avère nécessaire pour répondre plus rapidement à des besoins spécifiques du développement des lanceurs spatiaux. Les expériences menées avec plusieurs méthodes ont permis de démontrer leur utilité et pertinence pour ce type de traitement par rapport au traitement manuel.

Summary

The objective of the article is the evaluation of methodological approaches used to search "weak signals"

of latent failures that would leave traces in RAMS qualitative lessons learned (REX). The multiplication of REX resources has resulted in a growing rise of REX database size and heterogeneity. In order to deal with this new situation, an efficient REX processing is required to respond more quickly to specific needs related to space launchers development. Experience conducted with several methods has shown their utility and relevance for this type of treatment with respect to completely manual analysis.

Objectifs

L’objectif de l’article est l’évaluation des approches méthodologiques de recherche des « signaux faibles » des défaillances latentes qui laisseraient des traces dans les retours d’expérience (REX) qualitatifs de Sûreté de Fonctionnement. Ces approches ont été expérimentées sur les cas issus de l’industrie des lanceurs spatiaux aussi bien en phase de développement des nouveaux systèmes qu’en exploitation des systèmes existants au travers des Fiches des Points Critiques et d’autres faits techniques formalisés sous la forme textuelle.

Contexte

La multiplication des sources de REX a eu pour effet une augmentation croissante de la taille et de l’hétérogénéité des bases de données de REX. Face à une masse de données toujours plus dense, il est parfois difficile de retrouver des informations essentielles à la sûreté de fonctionnement, et une bonne partie du savoir se retrouve alors inexploité.

De nouveaux projets, tels que le système de lancement Ariane 6, le démonstrateur de moteur à oxygène et méthane « Prométhée » ou encore le démonstrateur d’étage réutilisable « Callisto », génèrent des contextes nouveaux en terme d’utilisation des systèmes techniques connus. Ils génèrent également des fonctions techniques nouvelles avec des risques, qui sont moins bien caractérisés par rapport aux systèmes en exploitation.

Enfin, des gros changements d’organisation mis en place génèrent des risques organisationnels de passage outre certains retours d’expérience passée.

Si le CNES a déjà déroulé de nombreux travaux d’exploitation quantitative de ses données de REX, les ressources qualitatives s’avèrent plus difficiles à exploiter.

Leur exploitation a pu être faite notamment dans le cadre d’analyses de risques réalisées en développement, en exploitation et au profit de la mission de contrôle de conformité avec la Loi sur les Opérations Spatiales (LOS).

Ils ont servi en particulier à établir l’état des évènements redoutés (ER), caractériser leurs causes et effets ainsi que proposer des mesures de leur réduction (MRR). Une classification des risques en plusieurs catégories mettant l’accent sur ces ER et MRR permettait de mieux sensibiliser des acteurs impliqués. Ces exercices exigeaient une analyse manuelle très chronophage, gourmande en ressources d’experts techniques afin de sortir une synthèse rapidement applicable.

De ce constat est né l’initiative du CNES d’explorer les techniques de Traitement Automatique des Langues (TAL) qui permettent d’automatiser en partie le travail d’analyse d’information qualitative au profit des experts techniques, et viennent en aide à ces derniers pour exploiter de manière plus intuitive les immenses bases de données mises à leur disposition.

Méthode manuelle de l’exploitation du REX

Le CNES exploite ses REX depuis le début de son activité sur les lanceurs. Dans le passé cette capitalisation a conduit à la génération des guides des bonnes pratiques et méthodes pour la conception et l’exploitation des lanceurs.

Ces ressources avaient pour but d’éviter de commettre des erreurs techniques du passé, celles commises par la concurrence ou bien dans l’industrie spatiale européenne et éviter ainsi des échecs des lancements.

Communication 2A /1 page 1/9

(3)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Dans les années 1980, fort de l’expérience de développement de plusieurs familles de lanceurs (Diamant, Ariane 1 à 3, REX industriel sur Europa), le CNES avait mis en place une démarche plus structurée de REX. Des règles de conception (Spécifications Générales, SG) et des spécifications de management (SM) ont été établies et rendues applicables aux développements d’Ariane 5. Ces documents étaient la traduction normalisée du REX sous forme des exigences techniques. Ils incluaient la prise en compte des guides de conception NASA publiquement disponibles, des méthodes de la conception, production, exploitation en état de l’art et des recommandations venant des faits techniques apparus pendant les développements et exploitations passées (des échecs de lancement, des problèmes fortuits apparus en essais, etc.) ou tout simplement le savoir technique des ingénieurs. Ces exigences traitaient l’ensemble du cycle de vie d’un système de lancement et toutes filières techniques d’un système de lancement, telles que propulsion liquide, guidage, navigation, contrôle, systèmes électriques, pyrotechniques, etc. La force des SG/SM était leur applicabilité, exigée contractuellement sur les activités industrielles : des matrices de conformité assuraient la justification de la prise en compte de ces exigences. Les SG/SM étaient révisées périodiquement avec des nouveaux REX par des groupes de travaux communs avec l’industrie. In fine, les SG/SM assuraient la fiabilité intrinsèque du lanceur Ariane.

Avec l’avènement des outils informatiques et l’augmentation de la concurrence technologique entre les lanceurs spatiaux la quantité des REX bruts disponibles a sensiblement augmenté. Par ailleurs, la quantité des faits techniques issus de l’exploitation des lanceurs a augmenté très sensiblement entre les années 1980, avec uniquement quelques lancements, et les années 2000 quand les cadences des lancements européens se sont stabilisées au niveau d’une dizaine par an. Ces faits techniques, en grande majorité anodins, constituent donc potentiellement une source de renseignements permettant d’optimiser des performances d’un système de lancement.

L’application des SG/SM avait généré par elle-même des quantités importantes de REX dus aux mécanismes de management inscrits dans ces spécifications. Typiquement il s’agit des exigences pour dérouler :

- des AMDEC, des analyses des zones et des essais conduisant à l’ouverture des Fiches des Points Critiques (FPC) avec leurs plans d’actions associés,

- des revues de conception avec leurs listes des Fiches d’Etude des Problèmes Soulevés (FEPS) et des actions résultantes,

- ou encore des Fiches d’Anomalies (FA) et dérogations d’exploitation.

En résultat, la quantité d’information textuelle plus ou moins importante se compte en dizaines, voire centaines de milliers des documents distincts. Le tri entre l’information anodine et critique devenait de plus en plus difficile. Le risque de ne pas détecter ou écarter par erreur une information importante devient de plus en plus important dans cet ensemble hétérogène.

A l’époque du projet Ariane 5ME (2008-2014), les éléments mentionnés ci-dessus étaient revus au début de développement (vers 2008-2010) en groupe de travail. Le travail était manuel en forme de la relecture des listes d’actions et des recommandations des revues, des commissions d’enquête passées par une groupe de travail CNES/industrie. L’adéquation de ces éléments de REX sur

le développement Ariane 5ME se traduisait par la définition des actions prises par l’industrie dans le cadre de ce développement.

Depuis le début du projet Ariane 6, le CNES a mis en place une démarche d’exploitation de REX très tôt en phase de développement afin d’alimenter les études SdF qui serviront à l’aide à la décision lors de la conception de nouveaux systèmes. Parmi les nombreuses démarches de ce type, 5 exercices de REX sont abordés ci-après sur les thématiques suivantes :

- vannes,

- défaillance mécanique, - pollution,

- pressurisation, - propulsion liquide.

L’exercice s’appuyait sur l’analyse des Fiches des Points Critiques issues des développements précédents et des échecs des lanceurs concurrents. La sélection parmi quelques milliers des FPC s’est faite en plusieurs étapes :

1. première sélection des 200-300 FPC et échecs par une recherche par des mots clés. Ces mots clés, correspondant à chaque thématique, étaient définis au préalable avec les experts techniques,

2. réduction du nombre des résultats après une relecture des informations contenues dans les fiches (i.e. : titre, évènements redoutés, effets..) par des experts techniques.

3. relecture de contenu total des quelques dizaines fiches restantes par les experts techniques et classification manuelle.

En résultat, un jeu des recommandations techniques ainsi que des arbres de causes synthétiques ont été proposées avec les références vers les anciennes FPC ou des échecs de lancement. Un exemple graphique est présenté ci- dessous pour la thématique « pollution ». Il retrace un arbre des causes à partir des conséquences redoutées prédéfinies jusqu’à plusieurs causes racines (évènements redoutés – « ERx »), en passant par des causes intermédiaires « Cy » identifiées par l’analyse des FPC.

Figure 1. Exemple d’un arbre de cause généré par l’exploitation du REX FPC sur la thématique « pollution » Le REX déroulé ainsi a une forte valeur ajoutée, car il permet de justifier d’une manière simple le bien fondé des recommandations qu’il propose pour traiter ces différents évènements redoutés et leurs effets menant jusqu’à des conséquences catastrophiques ou graves.

Communication 2A /1 page 2/9

(4)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Par contre la génération d’un tel REX exige l’engagement de ressources conséquentes. L’exemple présenté ci- dessus demandait plusieurs réunions de travail d’une demi-journée de 2-3 personnes. Par ailleurs le prétraitement a nécessité une assistance technique pour reproduire manuellement le contenu et la structure des 31 FPC dans une base de données Excel (séparation des textes correspondant aux causes, effets et actions de réduction des risques), qui ont fait l’objet de la relecture et analyse technique détaillé par les experts. La même démarche était déroulée pour les autres thématiques traitées.

Méthodes du TAL proposées pour le traitement du REX

L’exercice de traitement du REX qualitatif décrit ci-dessus a été comparé à une approche plus avancée, utilisant plusieurs techniques de TAL. Certaines d’entre elles font partie de l’état de l’art, d’autres sont davantage expérimentales. L’utilisation de ces différentes techniques a permis de les comparer entre elles et de faire un diagnostic de leur utilité pour le traitement du REX plus spécifiquement pour :

- Grouper des fiches dans les classes non connues à priori (topic-modelling)

- Associer des fiches à des classes définies à priori

- Rechercher des antériorités au sein des fiches de REX par la recherche de similarités

Extraction des données

Le processus de traitement du REX avec TAL démarre avec l’extraction des données textuelles des bases de données. Ces données textuelles sont ensuite nettoyées pour les limiter à leurs éléments déterminants et les normaliser.

- Tokenisation : Le texte de chaque document est divisé en « tokens », soit en mots uniques, soit en n-grammes, c’est-à-dire en fenêtres de N mots centrées sur chaque mot du texte. Les n- grammes permettent de prendre en compte le contexte des mots en plus de leur identité individuelle. Dans notre étude les n-grammes de n=3 étaient utilisées en plus des tokens individuels.

- Lemmatisation : Chaque mot peut être ramené à une forme générale afin d’effacer les variations morphologiques. Cela peut être fait en utilisant la forme dictionnaire (lanceur, lanceurs → lanceur, lançait → lancer) ou le stemming qui ne garde que la racine du mot (lanceur, lançait -> lanc). Le stemming n’a pas été utilisé dans notre étude.

- Étiquetage : Les mots reconnus se voient attribuer une étiquette indiquant leur catégorie grammaticale.

- Stopwords : liste manuellement définie de termes porteurs de peu d’information sémantique et d’autres trop généraux et qui risqueraient de biaiser les tendances déduites par les algorithmes du TAL. Autrement dit c’est une liste de mots qui sera ignorée par le processus.

Représentation des données

Une fois les documents extraits en « sacs de mots » (ou de n-grammes), l’étape suivante est de représenter le texte

sous une forme qui ait du sens d’un point de vue computationnel.

La technique TF-IDF (Term Frequency-Inverse Document Frequency) permet de représenter chaque document par un vecteur dont chaque valeur correspond au TF-IDF.

Cette valeur est définie comme la fréquence d’un « token » (un mot ou un ensemble des mots) dans un document, multiplié par l’inverse de sa fréquence dans le reste du corpus. Cela permet de diminuer le poids des mots trop fréquents, et de booster celui des mots rares. Le corpus est alors représenté par une matrice d’occurrences de chaque token dans chaque document. Chaque ligne de la matrice est un vecteur représentant un document. Une fois les documents représentés sous forme de vecteurs, nous pouvons calculer la similarité de ceux-ci en calculant le cosinus de deux vecteurs représentatif de la distance angulaire usuelle entre 2 vecteurs. Le modèle TF-IDF reste dépendant d’un vocabulaire commun entre les documents.

Réduction de dimensionnalité

La réduction de dimensionnalité est un ensemble de techniques ayant pour but de réduire la taille de la matrice.

Il est détaillé ci-dessous deux des techniques de réduction de dimensionnalité les plus répandues :

- LSA (Latent Semantic Allocation) : cette technique permet de réduire le nombre de dimensions des vecteurs documents par la fusion de dimensions-tokens similaires. Elle permet donc d’alléger la charge mémoire de la matrice d’occurrences et des vecteurs documents, ainsi que de résoudre les problèmes de synonymie et de polysémie par la fusion des dimensions de tokens similaires.

- LDA (Latent Dirichlet Allocation) : les nouvelles dimensions de la matrice correspondent cette fois-ci non pas à des structures sémantiques mais à des topics. Ce modèle part du principe qu’un document est créé selon le modèle génératif suivant. Lorsque l’on rédige un document, on choisit plusieurs topics qui caractériseront le texte. Chacun de ces topics est lui-même caractérisé par une probabilité de voir apparaitre chaque mot du lexique.

L’allocation de Dirichlet latente consiste à reconstituer cette double distribution à postériori par inférence statistique à partir du corpus. Pour cela, on itère plusieurs fois sur le corpus en améliorant la précision du modèle à chaque itération.

Figure 2. Représentation du modèle génératif du LDA Catégorisation automatique

Do cum en t Topic 1 (0,12)

Mot 1 (0,23) Mot 2 (0,08) Mot 3 (0,06)

… Topic 2 (0,23) …

… …

Communication 2A /1 page 3/9

(5)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Afin de déterminer automatiquement les thématiques majeures d’un corpus de REX, ainsi que la répartition des documents dans celui-ci, nous avons eu recours au topic modelling, c’est-à-dire l’apprentissage automatique de topics par la machine. L’apprentissage automatique est efficace sur une masse importante de données, ce qui correspond à nos importants corpus de REX.

La technique que nous avons utilisée est le LDA (Latent Dirichlet Allocation) qui vise à reconstruire par inférence statistique la distribution des mots dans les topics (préalablement définis), et des topics dans les documents.

Clustering

Il permet de représenter la proximité sémantique de plusieurs documents par leur regroupement progressif en clusters. Cette représentation donne une idée de l’organisation des documents dans le corpus. Le clustering permet faire émerger des catégories pertinentes en cas d’absence de topics prédéfinis ainsi que confronter un topic déjà en place.

Modélisation vectorielle (Word2Vec)

La modélisation vectorielle de l’algorithme Word2Vec est réputée pour capturer de nombreuses subtilités sémantiques après un entrainement non-supervisé. Afin d’estimer sa capacité à apprendre les similarités sémantiques entre les mots du lexique des fiches documentaires analysées, nous avons effectué un clustering sur les vecteurs de mots fournis par le modèle. Il ne s’agit pas ici d’un clustering hiérarchique, comme pour les dendrogrammes classiques, mais d’un clustering en k- moyennes. Cette technique consiste à fixer un nombre arbitraire k de clusters dont les centres sont d’abord placés au hasard dans l’espace vectoriel. Chaque document dans l’espace est attribué au centre le plus proche, et à chaque itération, le centre est recalculé comme la moyenne de la position des documents qui lui sont attribués, jusqu’à stabilisation du modèle.

Essais sur le REX réalisés avec TAL –

« topic modelling »

Pour les essais de catégorisation automatique des textes, nous avons eu recours au topic modelling. Nous avons constitué un corpus de test réduit, composé de 229 fiches issues de plusieurs exercices du REX « manuel » sur les fiches des points critiques du développement des lanceurs Ariane 5. Ces fiches abordant quatre grandes thématiques :

- Vannes : 47 fiches

- Défaillance mécanique - Interfaces sol/bord : 68 fiches

- Pressurisation: 82 fiches - Pollution : 31 fiches

Le but des essais était de reproduire ces thématiques par apprentissage automatique à l’aide du LDA. La signification de thématiques générées par ce modèle doit être établie par les experts, car l’outil fournit uniquement les mots significatifs décrivant chaque thématique.

Nous partions du principe que le corpus était divisé en quatre thématiques : pollution, défaillance mécanique, pressurisation et vannes. Nous avons par conséquent commencé par entraîner le modèle LDA en lui demandant de définir quatre topics, en espérant que les topics dégagés reflèteraient les quatre thématiques dont proviennent les différentes fiches.

Ces topics ne correspondaient cependant que très peu aux thématiques identifiées par les experts et manquaient de cohérence. Devant ces résultats peu satisfaisants, nous avons augmenté le nombre de topics à 5. Cette fois-ci, les topics correspondaient bien plus aux thématiques présupposées, avec un topic supplémentaire plus général.

On dresse un parallèle entre les thématiques présupposées et les topics grâce à l’analyse des résultats par les experts techniques:

Tableau 1. Topics prédéfini vs topic LDA

Notre premier test a été de vérifier à quels topics les documents du corpus avaient été attribués, et de vérifier si ceux-ci correspondaient bien à la thématique qui leur avait été attribuée par les experts. Le tableau ci-dessous montre, pour chaque groupe de fiches, le résultat du topic attendu, à savoir si le topic a été attribué comme le seul topic du document, comme le topic principal avec d’autres topics secondaires, comme un topic secondaire avec un autre topic comme topic principal, ou s’il n’a simplement pas du tout été attribué au document.

Thématique Topic unique Topic

principal Topic

secondaire Non attribué

Vannes 13 17 6 11

Défaillance

mécanique 14 19 12 23

Pollution 4 7 12 8

Pressurisation 5 4 5 68

Total 36 47 35 110

Tableau 2. Attribution des topics attendus Thématique Topic attendu

attribué comme topic principal

Topic attendu attribué

Topic attendu attribué non

Vannes 63.83% 76.60% 23.40%

Défaillance

mécanique 48.53% 66.18% 33.82%

Pollution 35.48% 74.19% 25.81%

Pressurisation 10.98% 17.07% 82.93%

Total 36.40% 51.75% 48.25%

Tableau 3. Pourcentages d'attributions correctes On constate immédiatement une différence importante entre les fiches traitant de la pressurisation et les autres. Si pour ces dernières, le topic supposé est attribué dans 66 à 76% des cas, et avec certitude dans 35% à 63% des cas, les fiches traitant de la pressurisation obtiennent un score bien plus bas. Plus de 80% des fiches traitant de la pressurisation ne se voient pas attribuer le topic associé à ce thème dans le REX manuel. L’analyse plus détaillée du contenu des topics indique que la pressurisation n’ait en fait pas été clairement identifiée par le modèle et se soit

« diluée » dans les topics des vannes, défaillance mécanique et de la pollution générale. L’entrelacement des différents sujets explique raisonnablement la difficulté du modèle à distinguer la thématique de la pressurisation.

topic n° Topic prédéfini en analyse manuelle

Topic LDA interprété par

l’expert

0 vannes Vannes

1 Défaillance

mécanique perte interface sol- bord

2 pollution Pollution

3 pressurisation pressurisation réservoir

4 - Pollution

Communication 2A /1 page 4/9

(6)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Les thématiques vannes, défaillance mécanique et pollution, établies par les experts, correspondent donc bien aux topics 0, 1 et 2 tandis que la thématique de la pressurisation n’est identifiée que partiellement par le modèle dans le topic 3. Les topics 3 et 4 rendent compte de thématiques plus sous-jacentes, découvertes par le modèle. Nous avons observé les fiches qui se sont vues attribuer ces deux topics pour vérifier que cette logique thématique était respectée. On a conclu que ces thématiques étaient bien cohérentes, même si ce n’était pas les thématiques qui avaient été choisies lors de la composition du corpus. On touche ici à un aspect important de l’apprentissage non-supervisé : les topics qui en ressortent sont pertinents et peuvent faire émerger des logiques non-identifiées (signaux faibles à analyser en détail), mais si l’on souhaite identifier une thématique spécifique et déjà définie, il serait plus intéressant de se tourner vers un apprentissage supervisé.

Ensuite on a testé l’influence de deux paramètres sur les topics produits pour tenter d’améliorer le résultat :

- l'ajout à la liste des stopwords des termes techniques apparaissant dans les topics mais considérés comme non-essentiels, termes généraux (par exemple « PC », « pouvoir »,

« défaut », « place » …) et

- la non-prise en compte des champs textuels ayant trait aux effets potentiels des points critiques. Ceux-ci pouvaient potentiellement généraliser la thématique à un problème global du lanceur, parasitant de ce fait l’identification de la thématique du point critique lui-même.

Nous avons refait les tests avec et sans le champ textuel concernant les effets potentiels.

FPC Topic

unique Topic

principal Topic

secondaire Non attribué Sans risques

potentiels 36 47 35 110

Avec risques

potentiels 36 45 37 110

Tableau 4. Comparaison de l'attribution du topic attendu, avec ou sans le champ textuel des effets potentiels En résultat s’il y a effectivement une très légère dégradation des attributions avec la prise en compte du champ textuel des risques potentiels, celle-ci est tellement négligeable qu’elle n’aura qu’un impact négligeable sur les résultats obtenus. Par contre le retrait des termes généraux avait conduit à une amélioration sensible, comme visible dans le tableau ci-après :

Thématique

Topic attendu attribué comme topic

principal

Topic attendu attribué

Topic attendu non

attribué

Vannes 63.83% 76.60% 23.40%

défaillance

mécanique 60.29% 76.47% 23.53%

Pollution 70.97% 83.87% 16.13%

Pressurisation 34.15% 60.98% 39.02%

Total 53.07% 71.93% 28.07%

Tableau 5. Pourcentages d'attributions correctes après filtrage des tokens généraux

Presque les trois quarts des fiches se voient maintenant attribuer le topic attendu (contre la moitié avant filtrage) et la moitié des fiches se le voient attribuer avec certitude (contre un tiers avant filtrage). L’amélioration est particulièrement visible sur les fiches défaillance mécanique et pollution attribuées avec certitude (passage de 47% à 60% et de 32% à 70%) et sur les fiches pressurisations qui se voient attribuer le topic attendu dans 60% des cas (contre 17% avant filtrage).

Les essais furent concluants, mais nécessitèrent un processus d’essais et d’erreurs avant de parvenir au dit résultat. Ces essais concernaient principalement le nombre de topics à faire apprendre au modèle, et la quantité de mots à filtrer (notamment les mots trop génériques qui induisaient le système en erreur) afin d’obtenir un résultat optimal. Pour le calcul automatique du nombre idéal des topics nous avons testé des mesures de perplexité et cohérence, mais ils ne se corrélaient pas très bien avec l'appréciation humaine des experts. Ils donnaient par contre des pistes explorés par ces experts lors des essais permettant d’améliorer des résultats.

Le topic modelling a l’avantage de produire des résultats statistiquement avérés et humainement compréhensibles.

La difficulté est d’obtenir un modèle idéal, même lorsque l’on ne connait pas le résultat attendu, contrairement à la situation lors de nos expérimentations.

Essais sur le REX réalisés avec TAL – recherche de la similarité

Pour la recherche de similarité, nous avons testé les modèles TF-IDF et LSA sur des jeux de documents identifiés lors d’enquêtes préalables comme liés. Nous avons alors tenté de les faire ressortir du corpus par calcul de similarité avec une fiche de référence. Nous avons divisé le corpus des fiches de points critiques en un corpus d’entraînement correspondant à 75% du corpus total, soit :

- Vannes : 35 fiches

- Défaillance mécanique : 51 fiches - Pressurisation : 62 fiches - Pollution : 24 fiches

Et un corpus de test correspondant à 25% du corpus total, soit :

- Vannes : 12 fiches

- Défaillance mécanique : 17 fiches - Pressurisation : 20 fiches - Pollution : 7 fiches

Nous avons créé un modèle TF-IDF et un modèle LDA (220 dimensions, à nouveau aucun changement notable n’a été observé avec plus ou moins de dimensions) avec le corpus d’entrainement en précisant la catégorie de chaque document. Nous avons ensuite projeté les documents du corpus de test dans cet espace et leur avons attribué une catégorie en se basant sur les k plus proches documents.

Nous prenons comme valeur pour k la racine carrée du nombre de documents d’entraînement, soit 13 dans ce cas-ci. Les résultats sont listés dans le tableau ci-dessous.

TF-IDF TF-IDF LSA LSA

Correcte Incorrecte Correcte Incorrecte

Vannes 0 12 0 12

Défaillance

mécanique 15 2 16 1

Pollution 7 0 7 0

Pressurisation 19 1 19 1

Total 41 (73%) 15 (26%) 42 (75%) 14 (25%)

Communication 2A /1 page 5/9

(7)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Tableau 6. Catégorisation automatique de fiches de points critiques

On constate ici quelque chose de remarquable : quasiment toutes les fiches sont correctement classées, à l’exception de celles concernant les vannes, presque toutes classées en pressurisation (une seule a été classée en défaillance mécanique). L’explication peut se trouver dans le fait qu’un point critique concernant les vannes va sans doute également traiter de pressurisation, les deux sujets étant proches. On note dans ce cas un avantage du topic modelling qui tient compte plus facilement de la distribution de plusieurs thématiques au sein d’un document. Un autre test avec un échantillon du corpus en égalisant le nombre de fiches de chaque type, et en baissant k à 9 n’a pas montré le résultat sensiblement diffèrent. L’effet de biais, qui pourrait être attribué au nombre des fiches de la thématique « pressurisation » n’est donc pas avéré.

Influence du filtrage du lexique sur le calcul de similarité

Une des études de REX déroulé par le CNES au profit d’Ariane 6 concernait la recherche des échecs de lancement concurrents similaires à certains points critiques afin d’identifier les actions de réduction des risques, des symptômes d’apparition avérés. Il s’agissait de l’identification des échecs pertinents dans quelques centaines d’incidents connus dans le monde. Or les descriptions de ces incidents varient en termes de vocabulaire utilisé par rapport aux points critiques à cause de la différence technique d’Ariane 5 par rapport aux autres lanceurs concurrents et de la moindre qualité d’information technique, qui peut être trouvée dans les sources publiques par rapport aux sources internes de l’industrie spatiale européenne. Suite à ce REX, 13 échecs ont été identifiés manuellement comme pertinents pour la problématique « pollution ». Ils ont été utilisés pour mesurer l’efficacité du calcul de similarité.

Lors de nos expérimentations, nous évaluons généralement les performances du modèle avec des jeux de données consistant en plusieurs documents thématiquement liés. Lors des calculs de similarité, nous utilisons un de ces documents en entrée, et observons où se situent les autres documents du jeu dans les résultats.

Au plus ils sont proches de la position 0 (le premier résultat), au plus le modèle est considéré comme performant.

Afin d’alléger la taille mémoire occupée par le corpus, le temps de calcul des opérations sur le modèle, et pour filtrer les mots trop ou trop peu importants qui parasiteraient les tendances apprises par le modèle, nous avons essayé de filtrer les mots présents dans plus de 50% des documents du corpus d’entraînement, et ceux présents dans moins de 5 documents. Cette approche est différente du filtrage par stopwords, qui est une liste définie manuellement, et pas un filtrage statistique. Nous avons cependant constaté que si ce filtrage permettait d’éviter la présence de termes trop ou trop peu spécifiques dans les topics du LDA, il avait tendance à dégrader les calculs de similarité avec le modèle LSA.

Dans notre cas de test, nous avions un document en entrée du calcul de similarité (correspondant à un FPC majeur de la thématique « pollution ») et 13 autres documents similaires que nous attendions en sortie. Nous avons testé le calcul de similarité avec des modèles LSA de différentes dimensions et observé la position des documents attendus dans les résultats renvoyés par le

calcul de similarité. La métrique utilisée correspond à cette position dans la liste. On considère que plus les documents attendus sont proches de la position 0 (le premier résultat renvoyé), plus le modèle est efficace. On voudrait donc dans l'idéal que les 13 fiches attendues soient dans les positions 0 à 12, donc qu'elles soient les 13 premières fiches renvoyées. Le graphique ci-dessous représente la position des documents attendus dans les résultats, en fonction du nombre de topics du modèle utilisé. La ligne horizontale rouge indique la limite arbitraire fixée par les experts et considérée comme acceptable pour un document attendu. Tous les documents au-dessus de la ligne rouge se situent dans les quarante premiers résultats du calcul de similarité.

Figure 3. Position des documents attendus selon le nombre de dimensions LSA (de 1 à 300) avec filtrage des

tokens trop ou trop peu présents

Figure 4. Position des documents attendus selon le nombre de dimensions LSA (de 1 à 300) sans filtrage des

tokens trop ou trop peu présents

On constate que si six des documents attendus se stabilisent dès un petit nombre de dimensions dans les 40 premiers résultats, les autres varient beaucoup plus sans jamais émerger. En observant les documents en question après leur prétraitement ainsi que le lexique du modèle, nous avons constaté que des mots très importants de la thématique pollution dont il traitait, comme « gel » ou

« froid », étaient filtrés lors du prétraitement car trop peu présents dans l’ensemble du corpus. Nous avons alors désactivé le filtrage pour observer si cela améliorait les résultats.

L’amélioration est très nette. Non seulement une majorité des documents passe la barre déterminante des 40 premiers résultats, mais ceux-ci suivent à présent tous une courbe similaire d’évolution. Cela nous a permis de

Communication 2A /1 page 6/9

(8)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

constater qu’il est important d’adapter le filtrage des tokens à la taille du corpus, à la proportion de documents de la thématique qu’on cherche à identifier, et du modèle utilisé.

Cependant, le modèle LSA, qui souffre le plus d’un filtrage du lexique, est également celui qui occupe le plus de place en mémoire lors de l’opération de réduction en valeurs singulières de la matrice d’occurrences. Par conséquent, nous avons souvent été contraints, pour les corpus les plus importants, de filtrer le vocabulaire, sans quoi l’entièreté des matrices ne tenait pas en mémoire.

Les essais se sont avérés concluant avec le TF-IDF, toutefois le modèle LSA a peiné à montrer des résultats significativement meilleurs, en particulier sur les documents pour lesquels le vocabulaire employé était différent. Il se peut que les limitations techniques en termes de mémoire, qui nous ont contraint à filtrer le vocabulaire plus rare du corpus, aient joué dans les résultats décevants du LSA. Le modèle TF-IDF présente cependant toujours des résultats très solides. Par rapport aux recherches « manuelles » précédentes, quelques documents pertinents supplémentaires ont pu être rapprochés. Bien que ceci ne soit pas directement assimilable aux signaux faibles, l’analyse SdF des thématiques a pu être améliorée diminuant ainsi le risque de non détection des causes et effets pertinentes par les experts, dû à la quantité d’information et de son complexité.

Clustering

Nous avons confronté le regroupement a priori établi par les experts en quatre catégories à un regroupement automatique sur base d’un modèle TF-IDF et d’un modèle LSA. Dans les deux cas, on distingue difficilement une ou des catégories distinctives. La couleur des cadres autour des références des documents dans l’extraction partielle des 3 catégories indique leur catégorie :

- Vannes : vert

- Défaillance mécanique : jaune - Pollution : bleu

Figure 5. Extraction partielle du clustering des FPC avec modèle TF-IDF (cadre couleur: catégorie des documents) On constate dans le dendrogramme ci-dessus que le regroupement des fiches ne se fait pas totalement selon la logique des quatre catégories issues de l’exercice manuel.

Pour être plus précis, les premiers regroupements, à basse distance, se font généralement entre documents au sein d’une même catégorie, mais au fur et à mesure qu’on remonte le dendrogramme, les regroupements se font à travers les différentes catégories.

Les dendrogrammes du clustering permettent de s’intéresser à certaines relations indirectes entre différentes fiches traités, telles que les raisons profondes liant les « défaillances mécaniques » avec les défaillances liées aux vannes (visualisées par la couleur rouge des dendrogrammes), menant à l’approfondissement de l’analyse d’expert sur les causes et les effets des risques associées. Dans ce cas précis le lien est dû à l’impact des défaillances identifiés sur les systèmes fluides du segment sol et du lanceur conjointement, sachant que la thématique

« vannes » concerne plutôt le lanceur (vannes des étages fluides) et « défaillance mécanique » plutôt son segment sol. L’analyse des « branches » des dendrogrammes permets de cibler et donc d’accélérer la recherche des points de défaillance uniques et inversement de chercher des causes potentielles pour un type de défaillance.

Word2Vec - Construction des ressources langagières pour alimenter le prétraitement

Afin d’estimer la capacité à apprendre les similarités sémantiques entre les mots du lexique des fiches documentaires analysées, nous avons effectué un clustering sur les vecteurs de mots fournis par le modèle Word2Vec.

['controle', 'ctrl'] Regroupement d’une abréviation et de sa forme complète ['risquer', 'degradation',

'surface', 'fissure', 'legere', 'marque', 'deformation', 'rayure', 'leger', 'oxydation', 'graisse', 'frottement']

Regroupement thématique

['coiffe', 'sylda', 'coiffer'] Regroupement d’éléments du lanceur proches

['eap1', 'eap2']

['remontage', 'demontage'] Regroupement d’antonymes ['réglage', 'reglages'] Regroupement de

variantes

Tableau 7. Exemples de clusters de mots issus de Word2Vec

Les résultats du clustering montrent en effet un rapprochement des synonymes, abréviations, variantes orthographiques et autres termes sémantiquement liés, sans aucune analyse de surface (forme du token). Il est cependant à noter que les exemples de clusters ci-dessus ne proviennent pas tous du même clustering. En effet, le nombre de clusters arbitraire défini pour le clustering en k- moyennes joue grandement sur les résultats. Avec un petit nombre de clusters, on obtient beaucoup de clusters trop grands et vagues, mais avec un grand nombre de clusters, on obtient beaucoup de clusters nucléaires avec un seul mot. Si l’on considère en plus la part d’aléatoire due à l’initialisation des k clusters, il peut être intéressant de lancer plusieurs fois plusieurs clustering avec différents k et de confronter et/ou combiner les résultats.

Communication 2A /1 page 7/9

(9)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

Word2Vec semble donc un outil très utile pour aider à créer des ressources langagières et rapprocher les termes proches lors du prétraitement du corpus.

Perspectives

L’ensemble des techniques que nous avons expérimentées a été mis à la disposition des experts techniques du CNES pour faciliter l’exploration des bases de données du CNES dans un logiciel spécifique (GReTa - Graphic REX TAL), simple et utilisable dans l’environnement bureautique standard, développé à cette fin dans l’environnement

« open source » de Python et permettant de continuer des expérimentations ultérieures.

Les essais de l’outil se poursuivent d’ailleurs sur les corpus atteignant plus de 50000 enregistrements avec des très bons résultats au niveau de recherche de la similarité, supérieurs à 75% sur quelques dizaines de premiers résultats.

En plaçant les documents sur un axe temporel lors d’un calcul de similarité ou d’un topic modelling, nous obtenons une visualisation qui permettrait potentiellement d’identifier des thématiques émergentes et de repérer des signaux faibles par l’observation des particularités dans le gabarit des courbes. L’analyse couplée avec d’autres métadonnées ordinales est une autre piste intéressante.

Des travaux sur le fond méthodologique se poursuivent avec laboratoire ERTIM-INALCO pour améliorer la qualité de prétraitement des documents par le nettoyage des résultats d’un OCR, détection automatique des causes, effets, actions de réduction des risques ou d’autre type d’information dans le texte brut d’un document. Au-delà d’amélioration de détection des résultats pertinents pour les experts avec les techniques du TAL présentés ci-avant (analyse de sensibilité du topic modelling, des dendrogrammes du clustering, etc…), le travail sur les signaux faibles se dirige vers la détection des liens de causalité des évènements décrits dans un document et entre les documents analysés par la modélisation semi- automatique de la structure linguistique des phrases du texte analysé. Par ailleurs une modélisation fonctionnelle (par exemple une modélisation « champ-substance » de la méthode d’innovation « TRIZ ») sur la base des ontologies produites par le TAL pourrait permettre de produire automatiquement les réseaux des relations pertinentes entre les documents et les entités qui pourraient y être identifiées.

Conclusion

Nous avons démontré au cours de ce travail l’applicabilité et la pertinence des techniques de traitement automatique des langues et d’apprentissage automatique aux corpus de retours d’expérience du CNES. Nos expérimentations ont couvert un large champ, allant de l’extraction de l’information jusqu’aux opérations de calcul sur le modèle.

Cela nous a permis d’identifier les techniques de TAL les plus à même d’aider les experts en sûreté de fonctionnement dans leur exploration des retours d’expérience et dans l’identification de tendances.

En termes de calcul de similarités, le TF-IDF reste une technique très solide pour retrouver des documents similaires entre eux ou correspondant à la description d’une thématique.

Nous avons également testé le modèle LSA en espérant que l’abstraction et le rapprochement de thèmes similaires permettrait d’améliorer les résultats du modèle TF-IDF.

Cependant, dans la grande majorité de nos expérimentations, le LSA a produit des résultats quasi- identiques, et dans certains cas a même dégradé la pertinence des résultats. Il était de plus souvent nécessaire de filtrer le lexique du corpus lors de l’étape de réduction en valeur singulière, en raison de la place occupée par l’opération dans la mémoire. Dans notre cas, le LSA n’a donc pas justifié sa pertinence par rapport au TF-IDF.

Nous pensons que le LSA peut cependant être utile lors d’opérations nécessitant des vecteurs denses par opposition aux vecteurs creux du TF-IDF comprenant énormément de dimensions et beaucoup de zéro

En termes d’identification et de classification thématique, le modèle LDA a montré d’excellents résultats, rivalisant avec une méthode d’apprentissage supervisée, tout en étant plus flexible. L’apprentissage automatique a ainsi permis de reproduire des thématiques identifiées par les experts et d’identifier des thématiques non attendues, mais pertinentes. On peut ainsi espérer que le modèle soit capable d’identifier des tendances thématiques non- identifiées et qu’un système de représentation dans le temps tel permettrait d’identifier des phénomènes émergents et de prévenir des accidents potentiels. La difficulté principale à surmonter est le besoin d’un prétraitement du contenu textuel et d’un réglage des paramètres du modèle LDA. Enfin, le LDA et Word2Vec devraient permettre de construire des ontologies à partir du corpus, lesquelles viendraient elles-mêmes enrichir la chaîne de traitement dans un cercle vertueux.

Références

ALSUMAIT, Loulwah, BARBARÁ, Daniel, GENTLE, James, et al. Topic significance ranking of LDA generative models. Machine Learning and Knowledge Discovery in Databases, 2009, p. 67-82.

BLATTER, Christian et RAYNAL, Céline. Méthodes d’analyse textuelle pour l’interprétation des rex humains, organisationnels et techniques. 1A-REX-analyse de données, 2014.

BRYNIELSSON, Joel, HORNDAHL, Andreas, JOHANSSON, Fredrik, et al. Analysis of weak signals for detecting lone wolf terrorists. In : Intelligence and Security Informatics Conference (EISIC), 2012 European. IEEE, 2012. p. 197-204.

CHANG, Jonathan, GERRISH, Sean, WANG, Chong, et al.

Reading tea leaves: How humans interpret topic models. In : Advances in neural information processing systems.

2009. p. 288-296. DEERWESTER, Scott, DUMAIS, Susan T., FURNAS, George W., et al. Indexing by latent semantic analysis. Journal of the American society for information science, 1990, vol. 41, no 6, p. 391.

DECHY, Nicolas et JOUNIAUX, Pierre et HADIDA, David et al. Détection et pertinence d’un signal faible dans le traitement d’un retour d’expérience, 2013.

ELBADIRY, ANOUAR HAKIM, BASSETTO, SAMUEL, et OUALI, MOHAMED-SALAH. Étude comparative des méthodes d’analyse de similarité des défaillances de systèmes aéronautiques. 2015.

EVANGELOPOULOS, Nicholas. Comparing latent dirichlet allocation and latent semantic analysis as classifiers. 2011.

Thèse de doctorat. University of North Texas.

GRABAR, Natalia et HAMON, Thierry. Exploitation de différentes approches pour détecter et catégoriser le risque chimique et bactériologique. In : Risque et TAL, TALN 2016 workshop. 2016.

Communication 2A /1 page 8/9

(10)

21

^e

Congrès de Maîtrise des Risques et Sûreté de Fonctionnement λµ21 Reims 16-18 octobre 2018

GRABAR, Natalia et TANGUY, Ludovic. Risque et TAL:

détection, prévention, gestion. Introduction au 1 er atelier.

In : Atelier" Risque et TAL" dans le cadre de la conférence TALN. 2016.

ITTOO, Ashwin, NGUYEN, Le Minh, et VAN DEN BOSCH, Antal. Text analytics in industry: Challenges, desiderata and trends. Computers in Industry, 2016, vol. 78, p. 96- 107.

LAMY, P. et TISSOT, Claire. Analyse de récits d'accidents du travail pour identifier des dérives d'usage et apport des TAL. 8C-REX et analyse de données, 2016.

MERDY, Émilie, KANG, Juyeon, et TANGUY, Ludovic.

Identification de termes flous et génériques dans la documentation technique: expérimentation avec l’analyse distributionnelle automatique. In : JEP-TALN-RÉCITAL.

2016.

MIKOLOV, Tomas, CHEN, Kai, CORRADO, Greg, et al.

Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.

MIMNO, David, WALLACH, Hanna M., TALLEY, Edmund, et al. Optimizing semantic coherence in topic models. In : Proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2011. p. 262-272.

NEGRE, Elsa. Comparaison de textes: quelques approches.. 2013.

RAYNAL, Céline, ANDREANI, Vanessa, VASSEUR, Dominique, et al. Apport du Traitement Automatique des Langues pour la catégorisation de retours d'expérience.

8C-REX et analyse de données, 2016.

TANGUY, Ludovic, TULECHKI, Nikola, URIELI, Assaf, et al. Natural language processing for aviation safety reports:

from classification to interactive analysis. Computers in Industry, 2016, vol. 78, p. 80-95.

TISSOT, Claire. Exploitation textuelle de données de retour d'expérience sous l'angle de la prévention des risques professionnels. 8C-REX et analyse de données, 2016.

TULECHKI, Nikola. Natural language processing of incident and accident reports: application to risk management in civil aviation. 2015. Thèse de doctorat.

Université Toulouse le Mirail-Toulouse II.

Mots clés

Points Critiques, Anomalies, REX, recherche d’information, Analyse Sémantique Latente, Allocation de Dirichlet Latente, calcul de similarité, Topic Modelling, Loi sur les Opérations Spatiales, Traitement Automatique des Langues

Communication 2A /1 page 9/9