• Aucun résultat trouvé

Section II – La hausse de l’intérêt pour la cause des femmes dans la presse nationale

B) Le périmètre de la cause des femmes dans l’espace public : les réponses du topic modelling

1/ Les grands thèmes de la cause des femmes dans les médias

Pour l’instant, on se demande donc concrètement de quoi parle notre corpus, une question à laquelle il est possible de répondre grâce au topic modelling. Il s’agit d’une méthode visant à inférer, à partir d’un corpus de textes, les « sujets » qui y sont traités, en utilisant des modèles bayésiens tels que l’allocation latente de Dirichlet342. La procédure consiste à repérer les mots qui reviennent le plus fréquemment dans un même texte, afin de créer des classes. Une fois ces classes – les sujets – créées, elles sont réexaminées de nombreuses fois jusqu’à atteindre une homogénéité intra-classe et une hétérogénéité inter-classe maximales, autrement dit, lorsqu’un mot est assigné à un « sujet », il faut être certain que sa présence ne soit pas aussi probable dans un autre sujet. Le chercheur indique en amont le nombre de sujets qu’il cherche à atteindre. Il va de soi qu’un nombre de sujets trop restreint tendra à avoir un pouvoir discriminant moindre, quand un nombre de sujets trop élevé risque de créer des classes trop artificielles et dépourvues de sens. Déterminer le nombre de sujets est donc un processus d’essais et d’erreurs.

Pour notre cas, nous avons utilisé le paquet STM343 disponible sur R, en raison de sa plus grande fiabilité comparativement aux autres paquets utilisant des modèles proches344. Dans un premier temps, lors de la construction de notre base de données, nous avons éliminé ce que les paquets désignent sous le nom de stopwords, c'est-à-dire les déterminants, conjonctions de coordination, et autres adverbes dont la prise en compte risquerait de fausser le calcul. Nous avons également supprimé les termes présents dans moins de 100 documents. Ensuite, il faut déterminer quels mots serviront à caractériser les sujets. La problématique est la suivante : ils doivent être suffisamment spécifiques pour pouvoir distinguer des thématiques, sans pour

341 MCCAMMON Holly, « Discursive Opportunity Structure », in The Wiley-Blackwell Encyclopedia of Social

and Political Movements, Blackwell Publishing Ltd, 2013, [consulté le 18 juillet 2018].

342 BLEI David M, NG Andrew et JORDAN Michael, « Latent Dirichlet Allocation », J. Mach. Learn. Res., 2003. 343 ROBERTS Margaret E, STEWART Brandon M et TINGLEY Dustin, « Stm: R Package for Structural Topic Models », J. Stat. Softw.

344 ROBERTS Margaret E., STEWART Brandon M. et AIROLDI Edoardo M., « A Model of Text for Experimentation in the Social Sciences », J. Am. Stat. Assoc., 111, Taylor & Francis, 2016.

134

autant empêcher de réunir des portions du corpus. Un paramétrage souvent utilisé, que nous avons également choisi d’adopter, consiste à utiliser, pour la création des sujets, les termes les 5% les plus fréquents parmi ceux qui apparaissent dans moins de 10% des documents.

Figure 25. Valeurs des diagnostics en fonction du nombre de sujets.

Nous avons ensuite simulé des opérations de topic modelling en divisant le corpus en 8, 10, 12, 14 et 16 sujets. Les résultats sont présentés dans la figure 25. Il apparaît que la division optimale dans notre cas (corpus de 15963 documents) soit de 12 sujets. En effet, la cohérence sémantique, un score qui calcule la probabilité que les mots les plus fréquents du même sujet soient co-occurrents dans un même document, est la plus élevée lorsqu’on découpe le corpus en 12 sujets. Parallèlement, les rares avantages que l’on obtiendrait en découpant en 14 ou 16 sujets – à savoir une held-out likelihood plus élevée345, une très faible diminution de la dispersion des résidus346 – ne s’obtiendraient qu’en abaissant cette cohérence qui est, en définitive, la mesure la plus fiable pour approcher la création de sujets jugés cohérents par des

345 Il s’agit de la capacité à reconnaître un sujet au sein d’un document en enlevant une portion des mots de ce document.

346 Un score qui indique la probabilité qu’un nombre plus élevé de sujets laisse moins de documents inexpliqués. 1 est considéré comme le score théorique « idéal », cependant très rarement atteignable.

135

humains347, dont les facteurs internes de jugement de cohérence ne peuvent après tout que très difficilement être réduits au calcul d’un indicateur statistique.

Figure 26. Estimation de la proportion du corpus occupée par chaque sujet.

347 MIMNO David, WALLACH Hanna M., TALLEY Edmund et al., Optimizing semantic coherence in topic models, Proc. Conf. Empir. Methods Nat. Lang. Process., Association for Computational Linguistics, 2011, [consulté le 14 avril 2020].

136 Numéro Intitulé

1 Philosophie, idéologie

2 Littérature, témoignage, entretien

3 Économie

4 Art

5 Violences, justice, affaires 6 Politique, partis, élections 7 Politique des États-Unis

8 Mouvement social

9 Islam, religion

10 Stéréotypes de genre

11 International

12 Mode, beauté, divertissement

Figure 27. Intitulé des sujets issus du corpus.

La figure 26 ci-dessus montre la proportion du corpus représentée par chaque sujet, et les sept mots les plus fréquents au sein de chaque sujet. En observant plus avant le contenu de chaque sujet, nous leur avons donné à chacun un titre afin de mieux percevoir leur cohérence (figure 27). Cette opération n’est pas anodine et pas non plus dénuée d’un certain pouvoir discrétionnaire du chercheur. Ainsi, il est important de mentionner qu’il existe plusieurs manières de sélectionner les mots qui seront les plus caractéristiques ou représentatifs d’un sujet – qui n’est rappelons-le qu’un « paquet de mots » à co-occurrence interne plus élevée que toute autre combinaison possible. Le chercheur peut donc consulter une liste de mots (le nombre de mots étant laissés à sa discrétion) sélectionnés selon l’une des méthodes suivantes : la plus haute probabilité marginale348 ; le score marginal de lift le plus élevé, score qui est le « ratio of a word’s probability within a topic to its marginal corpus probability »349 ; le score marginal FREX le plus élevé, où « FREX is the weighted harmonic mean of the word’s rank in terms of

348 Une valeur est ici dite « marginale » si elle fonctionne pour l’ensemble des variables dépendantes – par exemple l’année.

349 FAN Angela, DOSHI-VELEZ Finale et MIRATRIX Luke, « Prior matters » [en ligne], ArXiv170103227 Cs, 2017, p. 5, [consulté le 13 avril 2020].

137

exclusivity and frequency »350 ; et enfin le calcul Score351. C’est en comparant les mots sélectionnés par chacune de ces valeurs – afin d’être certain de ne pas être induit en erreur par les éventuels défauts d’une méthode spécifique – pour chaque « sujet » que nous avons choisi les titres. Il ne faut pas oublier que les sujets sont liés à notre corpus, aussi dans le sujet « économie » se trouvent des mots génériques correspondant à cette sphère (tels que « rémunérations », « chômage », « entreprises », « salaires ») mais également des mots propres à la thématique de notre corpus, tels que « inégalités », « discrimination », « écart », « congé », « parental », etc.

Ces titres nous permettent d’interpréter plus clairement la figure 26. On y observe que les sujets « Philosophie, idéologie », « Littérature, témoignage, entretien » et « Politique, partis, élections » sont chacun estimés être présents dans légèrement plus de 10% des documents du corpus. Le sujet « Economie » vient ensuite à environ 10%. Aussi, ces quatre sujets représentent 50% des thèmes traités dans le corpus, sans distinguer pour l’instant entre le journaux ni les années. La cause des femmes est donc essentiellement traitée, sur l’ensemble de la période, sous l’angle de la littérature traitant notamment de témoignages de femmes, des débats idéologiques et philosophiques qu’elle engendre, à travers son inclusion dans la politique partisane, ainsi que sous le prisme de ses implications en matière d’économie. Viennent ensuite « Violences, justice, affaires »352, « Stéréotypes de genre », « International », « Art », et « Mouvement social ». « Islam, religion »353, « Mode, marketing, divertissement » et « Politique des États-Unis » ferment la marche. Cependant, ce premier aperçu, s’il donne des tendances est bien insuffisant pour appréhender le traitement de la cause des femmes par les médias français : des éléments essentiels à notre travail comme l’évolution temporelle de ce traitement manquent encore. Les vingt termes les plus typiques pour chaque sujet et en fonction de chaque mode de calcul sont visibles dans l’annexe 2.

350 ROBERTS Margaret E, STEWART Brandon M et TINGLEY Dustin, « Stm: R Package for Structural Topic Models », J. Stat. Softw., p. 11.

351 β_{v, k} (\log β_{w,k} - 1 / K ∑_{k'} \log β_{v,k'}) 352 Qui contient notamment le terme « weinstein »

353 Une question s’est posée au moment de nommer ce sujet : en effet, les mots les plus fréquents pour le caractériser sont presque tous liés à l’Islam, néanmoins, selon les années, on observe des mentions récurrentes de l’Eglise catholique. Aussi le titre « Religion » aurait pu être approprié. Pour autant, il nous aurait semblé malhonnête de le nommer ainsi étant donné la quantité disproportionnée du contenu se référant explicitement à la religion musulmane. Aussi avons-nous opté pour le titre « Islam, religion », sans pour autant en être totalement satisfaits.

138

2/ L’évolution de la répartition thématique du traitement médiatique de la cause