• Aucun résultat trouvé

3.4 Deuxième étude : complétude des mesures partagées via les médias sociau

4.1.3 Modélisation des échanges sur les médias sociaux

Afin de compléter la plateforme sémantique supportant l’application Ginkgo, nous avons cherché à intégrer à nos modèles de la radioprotection des aspects relatifs à la diffusion des connaissances. Dans ce but, nous avons conçu une représentation séman- tique des échanges sur les médias sociaux, tout particulièrement Twitter en raison de son rôle clef dans les situations de crise. Plusieurs vocabulaires et ontologies existants ont pour cela été exploités. Nous avons en outre veillé à ce que l’ensemble des modèles mis en place pour l’organisation de ces différents types de données (thésaurus, scénarios

26. Un prototype de ce service web, développé à titre de démonstration durant le séminaire doctoral, est accessible en ligne : http://retrodev.net/cgi-bin/skz/skz.cgi. Il permet l’affichage et la navigation des scénarios, mais ne dispose pas encore d’un moteur de recherche.

et échanges sur les médias sociaux) puissent être aisément associés au sein d’une même base de connaissances.

Vocabulaires existants

L’organisation des données issues des médias sociaux nécessite de représenter à la fois les réseaux d’utilisateurs et les contenus qu’ils produisent. Les outils du Web Sémantique sont particulièrement adaptés pour représenter ces données et les multiples types de liens qui les connectent (Breslin et al., 2009). Ces technologies permettent en outre de définir une représentation unifiée pour les données provenant de différentes plateformes de médias sociaux (Breslin, Harth, Bojars, & Decker, 2005), contribuant ainsi à leur interopérabilité (Breslin et al., 2009). En effet, malgré leurs spécificités, ces différents services s’appuient sur de nombreux concepts communs (e.g. utilisateurs, profils, publications, commentaires). L’utilisation d’un même vocabulaire pour désigner ces éléments crée des ponts entre les données de ces différentes plateformes, permettant leur agrégation et leur analyse conjointe. Ces traitements permettent le développement de services et de métriques cross-plateforme au bénéfice tant des utilisateurs que des chercheurs.

Deux vocabulaires RDF créés spécifiquement pour représenter les données propres

aux médias sociaux ont été exploités. L’ontologie SIOC27(Semantically Interlinked On-

line Communities) a été conçue pour décrire les liens entre les utilisateurs et les conte-

nus publiés dans les communautés en ligne. Le module « types » de l’ontologie propose des classes spécifiques pour certains concepts propres aux blogs et forums : newslet-

ters, sondages, commentaires ...28. L’ontologie FOAF29 (Friend Of A Friend) permet

de décrire des personnes, leurs réseaux de relations et les groupes dans lesquels elles s’inscrivent. Ces deux modèles, complémentaires, présentent des liens invitant à les uti- liser conjointement : sioc:UserAccount est une sous-classe de foaf:OnlineAccount, sioc:account_of est l’inverse de foaf:account. Ces vocabulaires spécifiques aux mé- dias sociaux peuvent en outre être associés à des vocabulaires RDF plus généralistes tels que SKOS, pour représenter les folksonomies, Dublin Core pour les métadonnées

des contenus générés par les utilisateurs, ou encore Basic Geo WGS8630 pour les mé-

tadonnées géographiques. On peut ainsi décrire les données issues des médias sociaux sous forme d’un graphe associant ces différentes ontologies (Figure 4.14).

27. http://rdfs.org/sioc/spec/ 28. http://rdfs.org/sioc/types 29. http://xmlns.com/foaf/spec/ 30. http://www.w3.org/2003/01/geo/ 30. http://sioc-project.org/node/158

Figure 4.14 – Graphe combinant les vocabulaires SIOC, FOAF et Dublin Core (Breslin et al., 2009, p.212)

Modélisation des tweets

Les ontologies précédemment évoquées peuvent être utilisées pour représenter une partie des données provenant de la plateforme Twitter. Cependant, ces vocabulaires ne couvrent pas l’intégralité des métadonnées qui peuvent être collectées à propos d’un

tweet31 (e.g. nombre de retweets, logiciel utilisé) ou d’un profil utilisateur32 (e.g. date

de création du compte, nombre de followers, fuseau horaire). Une ontologie modélisée à partir de l’API REST de Twitter (décrite dans la Section 3.2.1) a été proposée, de ma- nière à fournir une description exhaustive de toutes ces métadonnées (Togias & Kameas, 2012). Cependant, elle n’est liée avec aucun des vocabulaires courants (e.g. FOAF, SIOC), limitant de fait le bénéfice d’interopérabilité offert par les technologies du Web Sémantique. Nous proposons une solution intermédiaire consistant à exploiter les élé- ments des ontologies précédemment évoqués lorsqu’ils existent et créer nos propres res- sources (indiquées ici avec le préfixe tw) pour modéliser les métadonnées manquantes

31. https://dev.twitter.com/rest/reference/get/statuses/show/%3Aid 32. https://dev.twitter.com/rest/reference/get/users/show

(Figure 4.15). Par exemple, les classes tw:Tweet et tw:TwitterAccount décrivent des types plus précis que ceux fournis par SIOC (sioc:Post et sioc:UserAccount), tandis que la propriété tw:hasFollowerCount permet de représenter des données qui ne sont pas couvertes par SIOC et FOAF.

Figure 4.15 – Représentation des métadonnées d’un tweet

La modélisation des tweets à l’aide des technologies du Web Sémantique contri- bue à l’interopérabilité des données, mais favorise également l’analyse des échanges sur Twitter. En effet cette représentation forme un graphe dont les nœuds sont les URIs des comptes utilisateurs, des tweets ou encore des hashtags, et dont les arcs sont matérialisés par les différents prédicats reliant ces nœuds (reprenant les formalismes que nous avons présentés dans la section 3.2.2). Pour l’analyse des métadonnées, de simples requêtes SPARQL permettent l’extraction de composantes de ce graphe telles que les couples de hashtags et leur nombre de cooccurrences au sein d’un même tweet (Figure 4.16), ou encore les réseaux d’utilisateurs mentionnant d’autres utilisateurs

dans des publications (Figure 4.17). Ces sous-ensembles de métadonnées peuvent en- suite être étudiés par le biais des métriques issues de l’analyse structurale des réseaux

sociaux (Mercklé, 2011) ou représentés à l’aide d’outils tels que Gephi33, un logiciel

libre de visualisation et de traitement des graphes.

S E L E C T ? t a g 1 ? t a g 2 ( C O U N T (? t w e e t ) AS ? n b _ c o o c ) W H E R E { ? t w e e t s i o c : h a s _ t o p i c ? t a g 1 . ? t w e e t s i o c : h a s _ t o p i c ? t a g 2 . F I L T E R ( str (? t a g 1 ) < str (? t a g 2 ) ) } G R O U P BY ? t a g 1 ? t a g 2 O R D E R BY D E S C (? nb )

Figure 4.16 – Requête SPARQL comptabilisant les cooccurrences de hashtags

S E L E C T ? u s e r 1 ? u s e r 2 ( C O U N T (? t w e e t ) AS ? n b _ m e n t i o n s ) W H E R E { ? t w e e t s i o c : h a s _ c r e a t o r ? u s e r 1 . ? t w e e t s i o c : a d d r e s s e d _ t o ? u s e r 2 . } G R O U P BY ? u s e r 1 ? u s e r 2 O R D E R BY D E S C (? nb )

Figure 4.17 – Requête SPARQL construisant le graphe de mentions d’utilisateurs

Ce modèle de représentation sémantique des tweets, enfin, est compatible avec la syntaxe de TweetOntoSense (Cotfas, Delcea, Segault, & Roxin, 2016). Cet ensemble d’ontologies, développé parallèlement au projet SCOPANUM, permet d’annoter les tweets de manière à décrire les émotions qu’ils expriment (Figure 4.18) : à chaque tweet (tw:Tweet) peut être attribué un résultat d’analyse (twos:AnalysisResult), auquel sont associée (à travers un twos:TweetEmotionSet) à des instances d’une ontologie dé- crivant des émotions (em:Emotion) telles que la joie, la colère ... Cette annotation peut être réalisée manuellement mais aussi automatiquement, par le biais de programmes analysant les mots, les structures de phrases et les symboles (e.g. ponctuation, smiley) apparaissant dans le texte du tweet.

Figure 4.18 – Structure de TweetOntoSense, figure tirée de (Cotfas et al., 2016)

Graphe de connaissances

Pour la modélisation des échanges sur les médias sociaux, nous avons exploité autant que possible les vocabulaires d’ontologies existantes et répandues, de manière à favoriser la réutilisation des données et leur interconnexion avec d’autres bases de connaissances existantes. Cela a également facilité l’interopérabilité avec les autres modèles précé- demment décrits dans ce chapitre : les concepts de notre thésaurus, les documents, les scénarios et les tweets peuvent ainsi être associés en un même graphe de connaissances (Figure 4.19). Les connaissances fournies par les experts et organisées dans les scénarios peuvent ainsi être connectées aux messages publiés sur les médias sociaux – notamment par les citoyens. Le thésaurus joue alors un rôle clef pour l’interopérabilité, constituant un référentiel commun pour associer ces deux types de documents, mais fournissant également des ressources linguistiques – à travers les labels – susceptibles de facili- ter l’intercompréhension entre des groupes utilisant des langues ou des terminologies différentes.

scopanum-doc:guide_effect scopanum-doc:map_doct

scopanum-th:effects scopanum-th:exposure scopanum-guide:scenario6

"Ma santée est-elle affectée par la radioactivité ?"@fr

skos:related dc:subject rdf:first rdf:rest rdf:first [...] dc:subject "Cabinets médicaux"@fr "Effets des radiations sur la santé"@fr

dc:title dc:title skos:prefLabel "Exposition"@fr "Effets sanitaires"@fr skos:prefLabel skos:prefLabel https://twitter.com/scopanum_test_4/status/668449785800728580

"Avez-vous des infos concernant l'irradiation chez les enfants à naître ou les nouveaux-nés ? Quid de l’irradiation interne par allaitement ?"@fr sioc:content sioc:topic THES AURU S SCENAR IOS TWEETS

Figure 4.19 – Graphe de connaissances combinant des éléments des différents modèles proposés : scénarios et documents (en haut, en gris pâle), thésaurus (à gauche) et tweets (en bas à droite, en gris foncé)