• Aucun résultat trouvé

Mission 2 : classification des pages web

Cette deuxième mission s’attachait à traiter deux situations qui posent des problèmes pour l'indexation correcte des sites web d’entreprises car elles ajoutent des informations qui ne sont pas pertinentes pour la description de leurs activités.

i. Au sein du site web d'une entreprise, on trouve différents types de pages qui, chacune, peut contenir du textes plus ou moins pertinents pour la description de l’activité de l’organisation. Par exemple, la page de contact, même si elle contient des informations sur les coordonnées de l’entreprise, la plupart du temps elle ne contient pas d'informations sur son activité.

8Format du documents de texte représentant des données tabulaires sous forme de « valeurs séparées par des tabulations »

ii. De plus, pour des raisons techniques dans le processus de collecte d'informations, il est parfois possible que les données textuelles récupérées ne soient pas pertinentes, comme c’est le cas des pages d'erreur (404 not found), des pages en cours de maintenance, des pages piratées, etc.

Pour effectuer cette mission, nous avons suivi la les étapes du Web Mining. Nous avons prélevé des échantillons du corpus initial (plus de 3 millions de pages web) en utilisant des algorithmes développés par ProLeads pour identifier deux types de pages : pages erreur et pages contact. Ensuite, nous avons sélectionné et prétraité le texte en utilisant les techniques NLP pour identifier des attributs pour générer un modèle prédictif de classification basé sur la régression logistique. Enfin, nous avons itéré les attributs du modèle en évaluant une fonction de perte dans chaque itération.

Résultats

• Le modèle de classification des pages d'erreur que nous avons développé montre une exactitude de 99.7 % avec une augmentation de 15 % (5 261 pages de plus) de pages erreur identifiées par rapport à l’approche précédente.

• Le modèle de classification des pages contact présente quant à lui une exactitude de 98 % avec une augmentation de 10% (10 927 pages de plus) de pages erreur identifiées par rapport à l’approche précédente.

P

ARTIE

3

-

37

CHAPITRE 7

EXPLORATION DE LA PRISE DE DECISION DANS UN CONTEXTE DE

MANIPULATIONS DE LINFORMATION

I. C

HOIX DU SUJET

Afin d'explorer dans un autre périmètre la problématique, nous allons changer la source d'information du corpus de textes de la description de l'activité des entreprises à une type l'information destinée au grand public, les actualités numériques. Dans ce rapport nous avons examiné la façon dont les technologies d'information se prêtent aux manipulations de l'information et cela nous a incité à choisir les fakenews comme sujet à analyser. Le choix spécifique du COVID 19 a été fait en raison de sa nature complexe, étant donné la grande quantité d’informations générées sur ce sujet, associe a de nombreux cas de manipulations de l’information, mais aussi parce qu’il génère de nombreux débats en société et des questionnements en entreprise. Ainsi, si un manager souhaite prendre une décision relative à ce sujet, par exemple le port du masque par ses éployées il sera confiante aux limites évoqués dans la revue de littérature. Ce qui est attendu de cette démarche est d'étudier l'adéquation de l'application des techniques de NLP et son lien avec la diminution de la complexité du processus de décision.

II. C

HOIX DE LA METHODOLOGIE

Les méthodes employées pour réaliser les missions de stage se révèlent intéressantes pour traiter la problématique de la prise de décision dans un contexte de manipulations de l’information : En effet :

o Pour des raisons de marketing, les entreprises peuvent être amenées à présenter des informations qui ne sont pas équivalentes à l'ensemble des services qu'elles offrent en réalité. Autrement dit, l’action de transmettre une information pour créer une fausse impression ou conclusion.

o Parmi les limites identifiées dans le processus décisionnel, on trouve la capacité insuffisante à traiter toutes les informations disponibles (Error! Reference source not

found.). Dans l'entreprise, comme dans la vie personnelle, nous sommes soumis à une

surcharge d'informations qui, avec un objectif de manipulation des informations, peut exploiter cette vulnérabilité et altérer le processus de prise de décision.

La méthodologie expliqué dans la partie Error! Reference source not found. a été suivie, car elle utilise techniques du NLP avec la possibilité d’ajouter algorithmes de machine learning. Ainsi cette approche sera exploré pour la détection de manipulations de l’information. Le corpus de textes

38

utilisé est le Decodex - Les Decodeurs du Monde où figurent plus de 400 rumeurs qui ont circulé sur le web, les url reprenant les rumeurs (plus de 13 000 urls) et l'analyse effectuée (description de la rumeur, constat, explication) [39]⁠. Ensuite, nous avons prétraité la base de données pour récupérer les url et récupérer automatiquement le texte sur le site web. Enfin, nous avons utilisé des techniques du NLP pour explorer le texte relatif aux rumeurs sur la COVID 19.

Résultats

• Nuage de mots du corpus de texte :

Figure 8 : Nuage de mots du corpus de texte

• Liste de mots clés dans le textes déterminée par le nombre d'occurrences mais aussi en fonction de leur rareté (TF-IDF)

• Liste de 313 verbes et 498 noms et 166 adjectives utilisées dans les textes • Liste des bi-grammes et tri-grammes

• Identification d'un indice pour la détection de manipulations des informations : la répétition exacte des titres sur la même rumeur.

39

C

ONCLUSION

À travers de la revue de la littérature, nous avons pu constater que le processus de prise de décision tant dans la vie personnelle que dans l'entreprise et l’authenticité de l'information peut être affecté à cause des caractéristiques des plateformes numériques et à l’exploitation des vulnérabilités le raisonnement limité des humaines. Ce phénomène est potentialisé par la quantité des informations à laquelle on est exposé dans nos sociétés actuelles.

De plus, les résultats de ce travail d'exploration nous permettent de conclure que l'hypothèse initiale (H0), d’une solution utilisant le NLP et le machine learning facilite le processus de prise de décision en diagnostiquant les manipulations d'informations, est non infirmée. Basé sur mon expérience dans la mise en œuvre de la procédure du web mining une méthodologie pour l'identification des manipulations d'informations a été proposée. Cette méthodologie s'est révélée prometteuse car elle combine la capacité d'analyser simultanément de grandes quantités de texte, cela permet de surpasser des capacités limitées de l’humaine. De plus, dans l’exercice exploratoire du COVID 19, ce processus a permis d'identifier un type d'indice pour détecter les manipulations d'informations : la répétition exacte des titres sur une même rumeur indique une propension à classer une rumeur comme une fakenews.

La complexité technique et conceptuelle en termes d'identification des manipulations d'informations a été une limite mise en évidence lors de la phase d'exploration. En outre, le manque de ressources, telles que des jeux de données, facilement accessibles en français, rend difficile l'identification automatique de ce phénomène.

Un travail envisagé à court terme serait d'annoter un ensemble de pages web de rumeurs afin de créer un jeux de données en langue française et tester l’approche d'apprentissage automatique supervisé avec des indices linguistiques préalablement définis.

40

B

IBLIOGRAPHIE

1. Cornelius, I. (2002). Theorizing information for information science. Annual review of

information science and technology, 36(1), 392-425.

2. Définitions : information - Dictionnaire de français Larousse. (s. d.). Consulté 13 août 2020, à l’adresse https://www.larousse.fr/dictionnaires/francais/information/42993?q=information#42898 3. INFORMARE : sens de ce mot latin dans le dictionnaire. (s. d.). Consulté 13 août 2020, à l’adresse http://www.dicolatin.com/FR/LAK/0/INFORMARE/index.htm

4. Web 2.0 : définition de Web 2.0 et synonymes de Web 2.0 (français). (s. d.). Consulté 28

juillet 2020, à l’adresse http://dictionnaire.sensagent.leparisien.fr/Web 2.0/fr-

fr/#Un_terme_surtout_marketing

5. Données, information, connaissance, savoir : un peu de théorie du managemen. (s. d.).

6. Basics of information technology. (s. d.). Consulté 13 août 2020, à l’adresse

https://www.slideshare.net/alihassan1993/fit-l02-introductionit

7. A Brief History Of Information. (s. d.). Consulté 13 août 2020, à l’adresse

https://www.liquidinformation.org/information_history.html

8. Khanna, A., & Kaur, S. (2019). Evolution of Internet of Things (IoT) and its significant impact in the field of Precision Agriculture. Computers and electronics in agriculture, 157, 218-231.

9. Joule, R.-V., Beauvois, J.-L., & Deschamps, J. C. (1987). Petit traité de manipulation à l’usage

des honnêtes gens. Presses universitaires de Grenoble Grenoble.

10. Guéguen, N. (2014). Psychologie de la manipulation et de la soumission. Dunod.

11. Garcés, R. (2017). Dictadura Militar Argentina: la estrategia de comunicación durante la Guerra de Malvinas.

12. Susser, D., Roessler, B., & Nissenbaum, H. (2019). Technology, autonomy, and manipulation.

Internet Policy Review, 8(2).

13. J.-B. Jeangène Vilmer, A. Escorcia, M. Guillaume, J. H. (2018). Les Manipulations de l’information : un défi pour nos démocraties. Centre d’analyse, de prévision et de stratégie (CAPS) du

ministère de l’Europe et des Affaires étrangères et de l’Institut de recherche stratégique de l’École militaire (IRSEM) du ministère des Armées.

14. post-truth adjective - Definition, pictures, pronunciation and usage notes | Oxford Advanced

Learner’s Dictionary at OxfordLearnersDictionaries.com. (s. d.). Consulté 14 août 2020, à l’adresse https://www.oxfordlearnersdictionaries.com/definition/english/post-truth

15. Baumard, P., Harbulot, C., Huyghe, F.-B., Lucas, D., Moinet, N., Prats, C., … Valantin, J.-M. (s. d.). LA GUERRE COGNITIVE.

16. Jean-Marie, D. (1965). La propagande politique. Paris, PUF.

17. Facebook’s Ability to Target « Insecure » Teens Could Prompt Backlash | WIRED. (s. d.). Consulté 16 août 2020, à l’adresse https://www.wired.com/2017/05/welcome-next-phase-facebook- backlash/

18. Posetti, J., & Matthews, A. (2018). A short guide to the history of’fake news’ and disinformation. International Center for Journalists, 7.

19. High score, low pay: why the gig economy loves gamification | Business | The Guardian.

41

https://www.theguardian.com/business/2018/nov/20/high-score-low-pay-gamification-lyft-uber- drivers-ride-hailing-gig-economy

20. Bérard, C. (2009). Le processus de décision dans les systèmes complexes: une analyse d’une

intervention systémique. Université Paris Dauphine-Paris IX; Université du Québec à Montréal. 21. La teoría de la racionalidad limitada de Herbert Simon. (s. d.). Consulté 24 août 2020, à l’adresse https://psicologiaymente.com/inteligencia/teoria-racionalidad-limitada-herbert-simon

22. Fonseca, C. (2016). Toma de decisión:¿ Teoría racional o de racionalidad Limitada. Kálathos,

7(1), 1-13.

23. Susser, D., Roessler, B., & Nissenbaum, H. (2018). Online manipulation: Hidden influences in a digital world. Georgetown Law Technology Review, Forthcoming.

24. Chaouachi, S. G., & Rached, K. S. Ben. (s. d.). Les déterminants de la tromperie perçue dans la publicité.

25. Biros, D. P., George, J. F., & Zmud, R. W. (2002). Inducing sensitivity to deception in order to improve decision making performance: A field study. MIS quarterly, 119-144.

26. EU report on weedkiller safety copied text from Monsanto study | Environment | The

Guardian. (s. d.). Consulté 26 août 2020, à l’adresse

https://www.theguardian.com/environment/2017/sep/15/eu-report-on-weedkiller-safety-copied- text-from-monsanto-study

27. Pénet, P. (2019). Fake science et ignorance stratégique: retour sur les récentes controverses autour de l’austérité et du glyphosate. Etudes de communication, (2), 85-102.

28. George, J. F., Giordano, G., & Tilley, P. A. (2016). Website credibility and deceiver credibility: Expanding prominence-Interpretation Theory. Computers in Human Behavior, 54, 83-93.

29. Zhou, L., Burgoon, J. K., Twitchell, D. P., Qin, T., & Nunamaker Jr, J. F. (2004). A comparison of classification methods for predicting deception in computer-mediated communication. Journal of

Management Information Systems, 20(4), 139-166.

30. Moukrim, B. (2019). Intelligence artificielle en santé: espoirs et craintes des médecins généralistes.

31. Lemberger, P., & Chaumartin, F. R. (2020). Le traitement automatique des Langues:

Comprendre les textes grâce à l’intelligence artificielle. Dunod.

32. Etzioni, O. (1996). The World-Wide Web: quagmire or gold mine? Communications of the

ACM, 39(11), 65-68.

33. Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about

data mining and data-analytic thinking. « O’Reilly Media, Inc. »

34. Hashemi, M. (2020). Web page classification: a survey of perspectives, gaps, and future directions. Multimedia Tools and Applications, 1-25.

35. Su, K.-Y., Su, J., Wiebe, J., & Li, H. (2009). Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers.

36. Saquete, E., Tomas, D., Moreda, P., Martinez-Barco, P., & Palomar, M. (2020). Fighting post- truth using natural language processing: A review and open challenges. Expert Systems with

Applications, 141, 112943.

37. MONTACLAIR, F. (s. d.). Grammaire de la Fake News. Deux modalités de l’écriture de la Fake

news en média court et média long. INFORMATION, COMMUNICATION ET HUMANITÉS

42

38. Zhou, L., Twitchell, D. P., Qin, T., Burgoon, J. K., & Nunamaker, J. F. (2003). An exploratory study into deception detection in text-based computer-mediated communication. In 36th Annual

Hawaii International Conference on System Sciences, 2003. Proceedings of the (p. 10-pp). IEEE.

39. Fausses informations : les données du Décodex en 2017. (s. d.). Consulté 31 août 2020, à l’adresse https://www.lemonde.fr/le-blog-du-decodex/article/2017/12/19/fausses-informations-les- donnees-du-decodex-en-2017_5231605_5095029.html

40. Publicité: le choc, c’est chic - Libération. (s. d.). Consulté 14 août 2020, à l’adresse https://www.liberation.fr/france/2010/06/09/publicite-le-choc-c-est-chic_657800

41. Balmisse, G. (2008). Recherche d’information en entreprise: une question de gouvernance.

Usages, usagers et compétences informationnelles au 21e siècle. Hermès, 71-95.

42. Smoke gets in your eyes: 20th century tobacco advertisements | National Museum of

American History. (s. d.). Consulté 14 août 2020, à l’adresse

https://americanhistory.si.edu/blog/2014/03/smoke-gets-in-your-eyes-20th-century-tobacco- advertisements.html

43. Le nudge marketing au service de l’écologie et de la société de demain. (s. d.). Consulté 14

août 2020, à l’adresse http://gnitekram.fr/le-nudge-marketing-au-service-de-lecologie-et-de-la- societe-de-demain/

43

TABLES DES FIGURES

FIGURE 1 : MODELE HIERARCHIQUE DE LA CONNAISSANCE⁠[41]. ... 12

FIGURE 3 : PERSPECTIVE HISTORIQUE DE L'INFORMATION [6]⁠. ... 12

FIGURE 4 : LES PERIODES DE L'ERE DE L'INTERNET [8]. ... 13

FIGURE 5 :PUBLICITE EN FAVEUR DU TABAC AUX ÉTATS-UNIS QUI PRESENTE (A) DES AVIS D'EXPERTS ET (B) DES CHIFFRES PRECIS.

[42]⁠ ... 14

FIGURE 6 : PUBLICITE AU SERVICE LA SECURITE ROUTIERE [40]⁠ ... 15

FIGURE 8 :LOGO GRENOBLE IAE ... 25

FIGURE 9 : UNE PAGE WEB VUE (A) DANS UN NAVIGATEUR WEB,(B) DANS UN EDITEUR DE TEXTE,(C) EN TANT QUE STRUCTURE HIERARCHIQUE ... 26

44

T

ABLES DES MATIERES

CHAPITRE 1–L'INFORMATION, UNE RESSOURCE FIABLE ? ... 11

I. Clarifications conceptuelles ... 11

A. Définition ... 11

B. Repères historiques ... 12

C. L’information, aujourd’hui ... 13

II. Les manipulations de l’information ... 14

A. Les manipulations à l'ère numérique ... 16

B. Conséquences sur la société et l'entreprise ... 17

CHAPITRE 2–PRISE DE DECISION DANS UN ENVIRONNEMENT DE MANIPULATION D'INFORMATIONS ... 19

I. Prise de décision et rationalité ... 19

II. Influencer le processus de prise de décision ... 19

A. Facebook et les adolescents ... 20

B. Cambridge Analytica et les élections ... 20

C. Uber et le comportement des travailleurs ... 20

CHAPITRE 3–DETECTER LES MANIPULATIONS DE L’INFORMATION ... 22

I. Les Décodeurs du Monde ... 22

II. Hoaxbuster ... 22

CHAPITRE 4–L’INTELLIGENCE ARTIFICIELLE COMME OUTIL D'AIDE A LA DECISION ... 23

I. NLP : linguistique informatique ... 23

A. Analyse lexicale : l'approche classique ... 24

B. Limites du NLP ... 24

II. Web Mining et la prise de décision automatique ... 25

A. Les étapes du Web Mining ... 26

B. Le Web Mining et la détection des manipulations de l’information ... 27

CHAPITRE 5–PROBLEMATISATION ... 31

CHAPITRE 6–STAGE CHEZ PROLEADS ... 33

I. Présentation de l’entreprise ... 33

II. Description des missions ... 33

III. Mise en œuvre de missions ... 33

A. Mission 1 : analyse lexicale ... 33

B. Mission 2 : classification des pages web ... 34

CHAPITRE 7–EXPLORATION DE LA PRISE DE DECISION DANS UN CONTEXTE DE MANIPULATIONS DE L’INFORMATION ... 37

I. Choix du sujet ... 37

Documents relatifs