Conception d’un thésaurus de la radioprotection

3.4 Deuxième étude : complétude des mesures partagées via les médias sociau

4.1.1 Conception d’un thésaurus de la radioprotection

Dans un premier temps, nous nous sommes intéressés à l’identification et à la repré- sentation des concepts clefs de la radioprotection en phase PAN. Nous montrons tout d’abord que les modèles existants dans ce domaine adoptent le point de vue des experts et ne sont pas adaptés aux besoins des non-experts. Afin de pallier ce défaut, nous pré- sentons la démarche que nous avons mise en œuvre pour construire un thésaurus des concepts utiles aux citoyens en phase PAN (Segault, Tajariol, & Roxin, 2015b).

Modèles sémantiques existants pour la gestion PAN

Les accidents nucléaires sont des situations pour lesquelles l’interopérabilité séman- tique est particulièrement critique. La gestion de crise suite à un accident nucléaire à très large échelle (dépassant souvent les frontières étatiques) nécessite en effet la collaboration de nombreuses organisations : protection civile, sûreté nucléaire, profes- sionnels de la santé, industries (Otway, 1991, p. 139). La très longue durée de telles crises implique également de maintenir la compatibilité des données au gré de l’évolu- tion de ces organisations (e.g. changement de personnel, d’organigramme, de systèmes d’information). En outre, en raison de la haute technicité des concepts utilisés en radioprotection (e.g. normes, unités et appareils de mesures), il est capital de limiter les erreurs et les ambiguïtés dans la communication de crise. L’exploitation des technologies du Web Sémantique pour la représentation des connaissances est susceptible d’apporter une réponse pertinente à ces problématiques en assurant l’interopérabilité sémantique.

L’AIEA a très tôt entrepris une réflexion sur l’usage des technologies du Web Séman-

tique dans l’industrie du nucléaire2_{, annonçant le lancement d’un projet de Plateforme}

internationale de stockage de la terminologie nucléaire (INTERP : International Nu-

clear Terminology Repository Platform3_{). Plusieurs chercheurs ont par ailleurs proposé}

des représentations sémantiques des connaissances du domaine nucléaire. Une première ontologie a été produite dans le but de faciliter l’accès des non-experts aux connaissances du domaine, et ainsi de favoriser la communication du risque et la délibération au cours des actions de prévention (Furuta, Ogure, & Ujita, 2005). Plus récemment, NREO (Nuclear or Radiological Emergency Ontology), un thésaurus des concepts spé- cifiques à la gestion d’accidents nucléaires a été conçu pour annoter des documents et en favoriser la recherche par les citoyens (Konstantopoulos & Ikonomopoulos, 2015). Pourtant, malgré les objectifs affichés par leurs auteurs, ces deux modèles sémantiques ne sont que peu adaptés aux besoins informationnels des non-experts. En effet, les concepts qui les composent proviennent de documents écrits par et pour des experts de la radioprotection, utilisant un vocabulaire particulièrement technique (Tableau 4.1).

Or, la terminologie technique utilisée par les experts constitue un obstacle à la communication avec les non-experts (Reuter, Pipek, Wiedenhoefer, & Ley, 2012). En outre, en raison de leurs perceptions idiosyncrasiques du risque, les experts et les ci-

2. https://www.iaea.org/nuclearenergy/nuclearknowledge/Knowledge_Organization _Systems/Semantic_Tech_in_Nuclear_/index.html

3. https://www.iaea.org/nuclearenergy/nuclearknowledge/Knowledge_Organization _Systems/INTERP.html

AbsorbedDose CommittedEffectiveDose70 HalfLife

ActivityConcentration DecontaminationFactor IncrementalDose

ActivityLevel DoseRate Isodose

Activity Dose LocationFactor

AerodynamicDiameter EffectiveDoseRate OccupancyFactor

AMAD EffectiveDose OccupancyTime

CollectiveDose EquivalentDose Radioactivity

CommittedEffectiveDose GammaDoseRate RelativeBiological

CommittedEffectiveDose50 GastroIntestinalUptakeFactor Effectiveness

Tableau 4.1 – Liste des instances de la classe MeasurementTerm du thésaurus NREO

toyens accordent une importance différente à certaines informations (R. L. Heath et al., 2009). Par exemple, lorsqu’une catastrophe nécessite une évacuation de la population, la protection des animaux de compagnie est cruciale pour les familles – au point que certaines refusent d’évacuer ou tentent de retourner dans des zones dangereuses pour les sauver – mais n’est pas toujours prise en compte par les autorités (Hunt, Al- Awadi, & Johnson, 2008). Les différents acteurs de la gestion de crise ont donc des avis divergents quant aux concepts à intégrer dans les terminologies et modèles de la crise. Compte tenu de ces limites des modèles existants, nous proposons de créer un nouveau thésaurus, dont les concepts répondront aux besoins informationnels des non- experts affectés par une situation PAN.

Méthodologie

Pour identifier l’ensemble des concepts à intégrer dans ce thésaurus, nous avons dans un premier temps consulté les glossaires publiés par plusieurs organismes de sûreté

nucléaire : l’IRSN4_{, l’ASN}5_{et la CIPR}6_{. Cependant, ces glossaires souffrent des mêmes}

défauts que les ontologies précédemment évoquées : vocabulaire très technique, absence de certains concepts essentiels à la gestion du quotidien dans les territoires contaminés tels que la nourriture ou la sécurité des enfants (SAGE Project, 2005). Nous nous sommes par conséquent orientés vers des documents écrits pour des non-experts, dans le but d’y trouver un vocabulaire plus accessible et des concepts plus proches des préoccupations des citoyens. Notre approche est analogue à celle mise en œuvre dans le cadre projet CrisisLex pour extraire une terminologie généraliste pour la gestion des

4. http://www.irsn.fr/FR/connaissances/Glossaire/Pages/Glossaire.aspx 5. http://www.asn.fr/lexique/mot/%28lettre%29/95097

6. http://www.irsn.fr/FR/Larecherche/publications-documentation/collection -ouvrages-IRSN/Documents/CIPR_103.pdf

situations d’urgence (EMTerms7_{) à partir d’un large corpus de tweets (Temnikova,}

Castillo, & Vieweg, 2015).

Notre thésaurus a été construit à l’aide d’un corpus de documents en anglais et en français, écrits à destination de non-experts de la radioprotection :

— un guide rédigé par les experts du projet Ethos à destination de la population des territoires contaminés suite à un accident nucléaire (SAGE Project, 2005) ; — des extraits d’un document écrit par les experts du CODIRPA (Comité directeur

pour la gestion de la phase post-accidentelle) pour les décideurs locaux des zones affectées par un accident nucléaire (CODIRPA, 2011) ;

— le script d’une série de documentaires présentant les témoignages de Japonais après l’accident nucléaire de Fukushima, diffusés par Arte (de Halleux, 2013) — un court guide de radioprotection créé par un groupe de citoyennes japonaises,

assistées d’un médecin (Tsubokura, 2014) ;

— la transcription d’un entretien d’un expert du CEPN, rapportant à un chercheur (non-expert en radioprotection) son travail durant la phase PAN de Fukushima (SCOPANUM, 2014).

Figure 4.1 – Étapes d’extraction des concepts

Les concepts ont été extraits sur la base de leur fréquence d’apparition dans ce corpus de documents (Figure 4.1). Nous avons tout d’abord collecté tout le contenu textuel de chacun des documents. Puis, à l’aide de la librairie NLTK (Bird, 2006),

les mots ont été désuffixés (en utilisant l’algorithme de Porter8 _{pour les textes en}

anglais et ceux de Snowball9 _{pour le français}10_{) et supprimé les mots vides. Nous}

avons ensuite calculé la distribution en fréquence de tous les mots, 2-grammes, 3-

grammes et 4-grammes11_{. Les mots et les expressions les plus fréquents – au niveau}

de chaque texte et sur l’ensemble du corpus – ont été isolés automatiquement, puis

7. http://crisislex.org/crisis-lexicon.html

8. http://tartarus.org/~martin/PorterStemmer/index.html 9. http://snowball.tartarus.org

10. L’algorithme de Porter est le standard de facto pour la désuffixation de l’anglais (Willett, 2006). Snowball constitue une extension – par Porter lui-même – de cet algorithme à d’autres langues.

les listes résultantes ont été manuellement filtrées pour ne conserver que les termes concernant la gestion d’une situation PAN. Parmi les 77 expressions retenues, nous avons rassemblé les synonymes et les équivalents français-anglais (Figure 4.2).

{

" id " : " e x p o s u r e " ,

" en " : [" e x p o s u r " , " e x p o s " , " r a d i a t e x p o s u r "] , " fr " : [" e x p o s i t " , " i r r a d i "]

}

Figure 4.2 – Concept et ses labels désuffixés

Cette méthodologie nous a permis de constituer une liste de 46 concepts relatifs à la gestion des situations PAN et à la vie en territoire contaminé (Tableau 4.2).

Accident Anthropogammamétrie Anthropogammamétriste Badge en verre Bielorussie Centrale nucléaire

Centrale nucléaire de Fukushima Césium

Champignon

Conseil consultatif des intervenants Contamination

Contamination de l’environnement Contamination des aliments

Contamination interne Corps Culture de la radioprotection Débit de dose Déchet Décontamination Dose Dose externe Eau Eau du robinet Effets Effets déterministes Effets stochastiques Enfants Évacuation Exposition Exposition externe Exposition interne Fukushima Japon Jardin Mesure Niveau de contamination Nourriture Port du masque Préfecture de Fukushima Professionnel de la santé Radioactivité Radionucléide Radioprotection Résultats de mesure Situation post-accidentelle Situation radiologique Tableau 4.2 – Liste des concepts identifiés dans le corpus

Les relations hiérarchiques entre ces concepts ont été manuellement établies, en liant hyperonymes et hyponymes (e.g. « contamination » et « contamination des aliments »). Puis, nous avons automatiquement extrait les relations associatives à partir du corpus

de textes. Pour cela, à l’aide des labels (désuffixés), le nombre de cooccurrences (Nco) de

chaque couple de concepts au sein d’un même paragraphe a été décompté (Figure 4.3).

measure contamination dose radioactivity body food exposure effects radionuclide cesium water garden mushroom japan waste dose_rate health_professional radiological_situation food_contamination body_contamination stochastic_effects deterministic_effects contamination_level external_exposure measurement_results glass_badge tap_water wear_mask external_dose environment_contamination internal_exposure whole_body_measurement stakeholders_advisory_board nuclear_power_plant whole_body_measurement_operator fukushima fukushima_prefecture children accident bielarus radioprotection decontamination evacuation culture_radioprotection fukushima_nuclear_power_plant post_accidental_situation

Figure 4.3 – Réseau de cooccurrence des concepts dans le corpus

Pour quantifier la proximité entre les concepts indépendamment de leurs fréquences

d’occurrence, nous avons ensuite calculé un ratio de cooccurrence (Rco) pour chaque

paire de concepts :

Rco= Nco Nmin

où Nmin désigne le nombre total d’occurrences du concept le moins fréquent. Une

relation associative a été établie pour chaque couple de concepts dont le ratio de cooc-

currence dépasse les 50% (Rco> 0.5), c’est-à-dire que plus de la moitié des occurrences

de l’un des concepts apparaissent dans un paragraphe où l’autre concept est également mentionné. Ce seuil de 50%, adopté suite à l’exploration de différentes valeurs, a permis l’identification de 57 relations associatives – après avoir supprimé celles déjà déclarées comme relations hiérarchiques.

Le thésaurus résultant a été représenté à l’aide du vocabulaire RDF dédié SKOS (décrit plus longuement dans la Section 2.2.2) et sérialisé dans la syntaxe RDF Turtle (Figure 4.4, le thésaurus complet est en Annexe B.1). Des labels skos:prefLabel ont été ajoutés manuellement en français et en anglais. Les labels désuffixés ont été conservés sous forme de skos:hiddenLabel, afin de pouvoir être directement utilisables pour des opérations de recherche au sein d’un moteur de recherche sémantique.

s c o p a n u m - th : e x t e r n a l _ e x p o s u r e a s k o s : C o n c e p t ; s k o s : p r e f L a b e l " e x t e r n a l e x p o s u r e " @en ; s k o s : p r e f L a b e l " e x p o s i t i o n e x t e r n e " @fr ; s k o s : h i d d e n L a b e l " e x t e r n i r r a d i " @en ; s k o s : h i d d e n L a b e l " e x t e r n e x p o s u r " @en ; s k o s : h i d d e n L a b e l " e x t e r n r a d i a t e x p o s u r " @en ; s k o s : r e l a t e d s c o p a n u m - th : g l a s s _ b a d g e ; s k o s : b r o a d e r s c o p a n u m - th : e x p o s u r e .

Figure 4.4 – Concept représenté avec le vocabulaire SKOS

Limites

Le thésaurus construit à l’aide de cette méthodologie reste largement incomplet. Nous avons identifié deux principales limites de notre démarche ayant contribué à ce résultat imparfait.

Tout d’abord, certains concepts essentiels, comme ceux liés aux unités de mesure de la radioactivité ou à la sûreté des enfants, n’apparaissent pas dans le thésaurus. La faible taille du corpus de textes analysés nous semble être la principale cause de ces lacunes. Elle a en outre affecté la détection des relations associatives. En effet, si certains concepts comprennent plusieurs racines françaises et anglaises, la plupart (63%, N=29) n’ont qu’un label dans une seule langue, limitant fortement l’identification des cooccurrences. Nous avons collecté de nouveaux documents pour enrichir le corpus, mais le traitement de leurs textes en langue russe et japonaise nécessiterait l’intervention d’un traducteur ou l’utilisation de nouveaux outils de traitement automatique des langues. Par ailleurs, notre corpus pourrait ne pas complètement refléter le point de vue des non-experts sur la situation PAN. En effet, certains documents, bien qu’étant destinés à des citoyens ou des décideurs non-experts, ont néanmoins été produits par des experts. Aucune évaluation n’a été conduite pour attester de leur réelle adéqua- tion avec les besoins informationnels ou encore les connaissances de leurs destinataires.

Nous estimons que l’implication d’experts dans la rédaction de ces documents pourrait avoir limité leur représentativité des concepts utilisés par les non-experts

Au-delà des limites du corpus, la méthodologie d’extraction est par ailleurs affaiblie par la place importante qu’y occupent les procédures manuelles. En effet, nous avons sélectionné les labels pertinents, décidé de leur association au sein des concepts, de la construction des relations hiérarchiques sur la seule base de nos connaissances limitées de la radioprotection. Plus que la compétence des auteurs, c’est la signifiance et la reproductibilité des résultats qui est ici problématique. En outre, à mesure que la taille du corpus augmentera, les interventions manuelles deviendront vite irréalisables. Pour certaines étapes, telles que l’extraction des labels pertinents, des méthodes automa- tiques pourraient être implémentées. Par exemple, TF-IDF (Term Frequency - Inverse

Document Frequency) est un algorithme comparant la fréquence d’apparition d’un mot

dans un texte (ici, le corpus analysé) avec sa fréquence d’apparition dans un corpus de référence (des textes ne parlant pas de crise nucléaire). Il semble en revanche difficile de supprimer toute intervention humaine pour le groupement des synonymes (formant des concepts) et des hyperonymes / hyponyme (formant les relations hiérarchiques). En effet, les ressources habituellement utilisées à cet effet en traitement automatique des langues, comme les graphes WordNet (Miller, 1995), se concentrent généralement sur les sens les plus communs des mots tandis que leur signification dans un contexte technique spécifique – tel qu’une crise nucléaire – n’est que rarement incluse.

Si les corpus et la méthodologie utilisés n’ont pas permis de construire un thésaurus suffisamment exhaustif, la littérature évoquée dans les précédentes sections confirme le besoin de ressources sémantiques construites pour les non-experts et la pertinence de la démarche d’extraction à partir d’un corpus de documents textuels. Nous envisageons donc de poursuivre ce travail selon ces mêmes principes dès qu’un corpus plus solide aura pu être constitué.

4.1.2 Organisation des connaissances pratiques de radiopro-

Dans le document Communication de crise en phase post-accidentelle nucléaire : organisation et partage des connaissances sur le Web (Page 133-140)