• Aucun résultat trouvé

L'évaluation des logiciels de veille, un cas pratique : la mise en place de la cellule de veille au sein d'ELDA

N/A
N/A
Protected

Academic year: 2021

Partager "L'évaluation des logiciels de veille, un cas pratique : la mise en place de la cellule de veille au sein d'ELDA"

Copied!
91
0
0

Texte intégral

(1)

HAL Id: dumas-01689378

https://dumas.ccsd.cnrs.fr/dumas-01689378

Submitted on 22 Jan 2018

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

L’évaluation des logiciels de veille, un cas pratique : la

mise en place de la cellule de veille au sein d’ELDA

Florent Bride

To cite this version:

Florent Bride. L’évaluation des logiciels de veille, un cas pratique : la mise en place de la cellule de veille au sein d’ELDA. Sciences de l’information et de la communication. 2009. �dumas-01689378�

(2)

eL

Da

UFR IDISTde Lille III Charles de Gaulle ELDA

L'évaluation des

logiciels de veille,

un

cas

pratique

:

La mise

en

place de

la cellule

de veille

au

sein

d'ELDA

Mémoire deStage M2 ICDparcoursPRISME2008/2009

Etudiant: Florent Bride

Tuteursuniversitaire :Stéphane Chaudiron et IsmaïlTimimi Tuteurprofessionnel :Valérie Mapelli

(3)
(4)

Remerciements

Je remercieValériepourletempsqu'ellem'a consacréetles conseils qu'elle m'aprodigués.

Jeremerciel'équipe d'ELDApour sagentillessequia surendrecestageaussiagréablequepossible.

(5)
(6)

SOMMAIRE

INTRODUCTION 8

I. PRESENTATION DE LA MISSION ET DU CORPUS 10

A. Le cadre etle domaine 10

1. Lestechnologies de la langue 10

2. Lesacteurs 10

a) ELDA 10

b) Concurrents 11

B. La missionet l'audit 13

1. La mission 13

a)

Étude

du stage précédent 13

b) Mission dustage actuel 14

2. L'audit 15

a) La veilleau seind'ELDA 15

b) Analyse des besoinsinternes 16

c) Analysedesbesoinsexternes 16

C. Sourcing etcorpus 17

1. Sourcing 17

a) Identification du type de veille 17

b) Critèresde sélection 18 c) Méthodologie 19 d) Typesde sources 19 e) Modes de diffusion 20 f) Classification 22 2. Corpus detest 22 a) Critères de sélection 22 b) Sélection 23 c) Limites 25

(7)

II. RECENSEMENT ET TYPOLOGIE 28

A. Questions préliminaires 28

1. Outils de veille : définitionetspécificités 28

2. Évaluationtechniqueou évaluation d'usage ? 29

3. Boîte noireou boîte transparente ? 30

4. Retoursurinvestissement ? 31

a) Rôle du ROI dans la veille 31

b) Au seind'ELDA? 33 B. Recensement 35 1. Critères de sélection 35 2. Fonctionnalités ciblées 35 3. Méthode de recherche 36 4. Méthode de validation 37

C. Typologie des outils 37

1. Outils de surveillance des pagesweb 38

2. LecteursRSS 40

3. Moteurs de recherche 40

4. Outilscomplémentaires 42

III. ÉVALUATION 44

A. Critères pourl'évaluation 44

1. Méthodologie 44

2. Étatde l'art desméthodologiesd'évaluation 45

3. Critères d'évaluation pourles outils de surveillance 47

4. Critères pourl'évaluation des lecteursRSS 50

5. Critèresd'évaluationpourlesmoteurs derecherche 52

B. Grilles d'évaluation 53

1. Grilles propres àchaquecatégorie 54

2. Grille de synthèse des fonctionnalités 54

(8)

C. Barèmeetremarques 57

1. Barème 57

2. Informationstechniques 58

3.

Épuration

dela liste deslogicielsà évaluer 59

CONCLUSION 62

BIBLIOGRAPHIE 64

SITOGRAPHIE 66

ANNEXES 68

A. Cahier des charges 68

B. Planning prévisionnel 71

C. Grille des sources 72

D. Liste deslogiciels de veille 74

1. Logiciels de surveillance de site web 74

a) Solutions propriétaires 74

b) Solutions open-source 74

2. Moteurs de recherche etcrawler 75

a) Moteursde recherche sanscrawlers 75

b) Moteursde recherche aveccrawlers 75

c) Crawlers 76

3. Lecteurs RSS 76

a) Lecteursenligne 76

b) Lecteurssur poste 76

c) Lecteurssur serveur 77

4. Autres 77

E. Grilles d'évaluation 78

(9)

b) Lecteurs RSS 80

c) Les moteursde recherche 81

2. Grille desynthèse desfonctionnalités 82

(10)

Introduction

La veille, contrairement à ce que ce terme peut laisser penser à certains, est

tout sauf une activité statique. Elle implique une pratique dynamique, un suivi des

évolutions constant. Ce suivi ne se manifeste pas uniquementdans les informations

auxquelles elle s'intéresse, mais également danssapratiqueenelle-même. Eneffet, la

veille se doit de s'adapter en permanence aux évolutions du monde de l'information

afin de resteraussipertinente que possible.

Or le monde de l'information a bien changé depuis une quinzaine d'années.

Le webestdevenu une source d'informationimportante dontl'exploitationa posé de

nouveaux problèmes,telsque « commentéviterl'infobésité ? ».

Si la veille est avant tout le fruit d'un savoir-faire et d'une méthodologie, le

recours à des logiciels s'est alors avéré précieux pour les professionnels de

l'information.

La mise en place d'une cellule de veille passe donc aujourd'hui par une

réflexion sur le choix du logiciel à adopter pour le fonctionnement de cette veille.

Cette réflexion, sielle veutêtre pertinente, doit s'appuyer sur des données fiablesqui

peuventêtre recueillieslors d'une évaluation.

On peut alors se demander : comment évalue-t-on des logiciels de veille ?

Quelsproblèmescela peut-ilposer? Quelle méthodologie cela peut-ilnécessiter ?

Nous allons aborderces questions au cours de ce mémoire au travers d'un cas

pratique,lamiseenplace d'une cellule deveille auseind'ELDA.

Dans une première partie, nous allons présenter le contexte du stage pour

lequel s'est déroulée cette réflexion ainsique la mise en place du corpus de test quia

été élaboré pourcette évaluation.

Nous allons ensuite aborder la question du recensement ainsi que de la

(11)

Enfin, notre dernière partie va porter sur l'évaluation en elle-même,

l'élaboration des critères de sélection, leur exploitation au sein de grilles

(12)

I. Présentation de la mission et du corpus

A. Le cadre etle domaine

1. Lestechnologies de la langue

L'expression « technologies de la langue » recouvre l'ensemble des produitset

desservices ayantpour objet le traitement automatiquedes langues,que l'on désigne

égalementsous l'acronyme TAL. Les technologies de la langue sont donc le fruit de

l'allianceentre lalinguistique etlatechnologie.

Elles s'intéressent à tout type de données linguistiques, qu'elles soient des

textes écrits ou des corpus oraux par exemple. Elles ont de multiples applications

auxquellesnous faisons face tous les jours, telles que la correction automatique dans

les traitements detexte ouleslogiciels de traduction automatique.

Elles sont également l'un des domaines-clefs capables de répondre aux

problèmes posés par l'augmentation ininterrompue des flux d'informations et les

nouvellestechnologies.

2. Les acteurs

a) ELDA

ELDA, agence pourla distribution des ressourceslinguistiquesetl'évaluation,

est une société commerciale. Elle est le corps opérationnel d'ELRA, association

européenne pourlesressourceslinguistiques.

ELDAaété créée dans le butd'identifier, classer, collecter, valideretdistribuer

les ressources linguistiques pour le compte d'ELRA et à destination de ses membres,

de ses clients et de la communauté de l'ingénierie linguistique dans son ensemble.

Ellea ainsiégalement la charge de la gestion des questionstechniques, commerciales

(13)

ELDA s'occupe aussi de la maintenance et l'alimentation de plusieurs sites

web. Il y a naturellement les sites web d'ELDA et ELRA1, le site web d'ELRA

incluant lui-même le catalogue des ressources linguistiques distribuées par ELRA2.

De plus, Il y a le Catalogue Universel qui est, quant à lui, un inventaire des

ressources linguistiques3. Il y a également les portails Technolangue et

HLT-Evaluation4.

Le cas de Technolangue est particulier puisqu'il s'agit du fruit d'une

collaboration entre plusieurs partenaires dans le cadre d'un projet européen qui a

prisfinen2006.Sonexistenceestactuellement exclusivementassurée parELDA.

b) Concurrents

ELDA a donc comme activités principales la distribution et la production de

ressources linguistiques ainsi que l'évaluation des technologies de la langue et la

diffusion d'informations sur le TAL. En raison de ces activités transversales dans le

domaine,les axesdeconcurrence ne sontpas uniques.

Si Ton considère le domaine de la distribution et de la production des

ressources linguistiques, son principal concurrent estle LDC5, créé en 1992. Comme

ELDA,le LDC dispose d'un catalogue en ligne6 qui recense aussi bienles ressources

produites sous un financement gouvernemental que toute autre ressource produite

par le LDC ou un acteur externe souhaitant la partager avec le reste de la

communauté. La politique tarifaire du LDC estégalement proche de celle d'ELDAen

^ttp:// www.ELDA.org/ et http:/ /www.elra.info/ (consultés le 1er

septembre 2009)

2

http://catalog.elra.info/ (consulté le 1erseptembre 2009)

3

http://universal.elra.info/ (consulté le 1er septembre 2009)

4

http://www.technolangue.net/ ethttp://www.hlt-evaluation.org/

(consultés le 1erseptembre 2009)

5

Linguistic Data Consortium dont le siteweb est:

http://www.ldc.upenn.edu/ (consulté le 2septembre 2009)

6

(14)

ayant notamment largement recours à la pratique de prix réservés à des adhérents

cotisants.

Il faut également noter qu'il existe le ChineseLDC1 en Chine et le GSK2 au

Japon. De même, au sujet de la distribution de ressources linguistiques, remarquons

le développement actuel de centres autour des ressources linguistiques, notamment

enIndeavec le TDIL3et LDC-IL4.

De nombreux laboratoires et différentes sociétés produisent aussi des

ressources linguistiques dans le cadre de leurs travaux et les rendent disponibles en

dehors des réseaux LDC et ELDA. Contrairement à ELDA quidistribue tout type de

ressources, celles produites par les laboratoires dépendront de la spécialité dudit

laboratoire. À titre d'exemple, citons l'UPC5 qui est spécialisé dans les technologies

dereconnaissancevocale.

Dans le domaine de l'information,unconcurrentdirectestle DFKI, qui estun

organisme allemand, avec son portail anglophone LT-World6. C'est un portail

d'informations sur les technologies de la langue constitué de quatre grandesparties :

les informations, les acteurs, les produits et les ressources et enfin une partie

communication qui inclut les actualités, les conférences et une base de connaissance

surles brevets.

1le siteweb

enversionanglophone:

http:/ / www.chineseldc.org/EN/index.htm (consulté le2 septembre 2009)

2 le site web en version

anglophone : http://www.gsk.or.jp/index e.html

(consulté le2septembre 2009)

3

http://tdil.mit.gov.in/ Technology Development for Indian Languages

(consulté le2septembre 2009)

4

Language Data Consortium for Indian Languages : http://www.ldcil.org/

(consulté le2septembre 2009)

5Université

Polytechnique de Catalogne, ontrouveses ressources ici :

http:/ /gps-tsc.upc.es/veu/LR/ (consulté le2 septembre 2009)

6

(15)

Concernantl'activité en évaluation des technologies, on peut faire mentionde

CELCT1 qui est un acteur italien directement relié à DFKI. On peutaussi remarquer

le NIST2 qui est un important organisme gouvernemental américain très impliqué

dansles activitésd'évaluation.

B. Lamission etl'audit

1. Lamission

a)

Étude

dustage précédent

Un précédent stage relatif à la veille a été effectué au sein d'ELDA du 2 avril

au31 août2007 parSandra Ferret. Sonthème étaitl'analyse et l'évaluation du portail

Technolangue qui est, entre autres choses, un portail d'informations sur les

technologies de la langue.

En tant que tel il nécessite d'être régulièrement alimenté en nouvelles

informations du domaine destechnologies de la langue. C'esten partie dans ce cadre

que Sandra Ferret - qui fut pour le temps de son stage chargée de l'alimentation

dudit portail - a mis en place une veille. Sa veille servait également à alimenter le

catalogue de ressourceslinguistiques égalementmaintenupar ELDA.

Afin de l'aider dans cette tâche, elle a eu recours au logiciel Website Watcher

édité par Aignes3. Il s'agit d'un logiciel payantmais dont l'éditeur met à disposition

du public une version d'évaluation. Cela lui a permis de surveiller jusqu'à 1110

pagesweb différentes.

Toutefois, la licence du logiciel n'a pas été acquise par ELDA à la suite de ce

stage. Il n'y a pas eu non plus de mise en place de dispositif pérenne. La seule

documentationsur laquelle nous pouvons aujourd'hui nous baser afin de capitaliser

surl'expérience dece stage précédentestlerapportdu stage.

1 Center for the Evaluation of

Language and Communication Technologies

http:// www.celct.it/ (consulté le 2 septembre 2009)

2National Institute ofStandards and

Technology

http: / / www.itl.nist.gov/iad / (consulté le 2 septembre 2009)

3

(16)

La conclusion principale de ce rapport est que, malgré la quantité

d'informations utiles que cela a pu apporter, la surveillance de 1110 signets apporte

trop de bruit. Il était donc conseillé d'en réduire significativement le nombre afin de

passer moins de temps à sélectionner les informations pertinentes. L'un des objectifs

de cette préconisation était d'avoir davantage de temps pour la rédaction des brèves

etleur miseenlignesurle site Technolangue.

b) Mission dustage actuel

Le stage se déroule du 14 avril au 30 septembre 2009 et sa missionest la mise

enplace d'undispositifpérennede veille au seind'ELDA.

Cette veille devra permettre l'alimentation du site Technolangue ainsi que

d'un futur portail du nom de HLT-Central. Ce dernier sera une version anglophone

de Technolangue ets'inspirera également du siteLT-World.

L'objectif final est de faire des sites Technolangue et HLT-Central deux

sources d'informations incontournables pour tout professionnel officiant dans les

technologies de la langue. La veille ne s'intéressera donc pas uniquement aux

signauxfaibles, elleporteraégalementsurl'ensemble des informations dudomaine.

La veille sera essentiellementtechnologique tout en recouvrant également des

aspects d'une veille économique. Ses axes de surveillance ont été prédéfinis par

ELDA et sont: les produits, à savoir quels nouveaux produits peuvent être mis à

disposition du public; les technologies, le but étant en partie de s'intéresser à elles

afin d'en dégager les tendances du moment; le marché et son évolution, suivre les

différents acteurs du marché ainsi que ses mouvements tels que les partenariats,

fusions, etc.; les événements, afin de pouvoir recenser les différentesmanifestations,

colloques ouautresconférences.

Dans l'idéal, la veille s'effectuera exclusivement à l'aide d'outils gratuits et

open-source. Toutefois, si cela s'avèrenécessaire, l'achat d'unelicence ou le recours à

unlogicielpropriétairepourra êtreenvisageable.

Le stage se décomposera en cinq étapes. Dans un premier temps, un audit

aura lieu afin d'analyser l'existant et d'établir le cahier des charges selon une

(17)

c'estune fois écoulée une certaine durée préalablement définie que l'on passera à la

troisièmephase. En effet, nous effectuerons alors un recensement et une évaluation

des différents outils existants en vue de décider quelle solution logicielle sera

adoptée. En conséquence de ce choix, onprocéderaà la mise en place de la solution

et à sa validation. Enfin, la dernière étape sera l'exploitation de la solution au sein

d'ELDA.

Une réflexionau sujetdu retour sur investissementsera égalementmenée au

cours de la mission. Elle pourra aboutir sur une mise enapplication, mais cela reste

optionnel. Ajoutons qu'ilestsouhaitableque la solutionpuisse servir àl'alimentation

duCatalogue Universelmaisque ce n'estpas une exigence.

2. L'audit

a) Laveille au seind'ELDA

ELDA emploie actuellement une dizaine de personnes, son effectif variant

légèrement selon lesprojets, certains nécessitant d'avoir recours àd'autres personnes

embauchées àtitretemporaire.

ELDA est structurée en quatre départements. Il y a le département de

communication et de marketing, le département informatique, le département

d'identification et de distribution des ressources linguistiques et enfin celui de la

productionetde l'évaluation desressources linguistiques.

Concernant l'alimentation du portail Technolangue, personne n'y est

actuellementassigné. Sile personnel d'ELDA effectue une veille quotidienne, celle-ci

s'inscrit dans la démarche du «currentawareness1 ».

Il faut aussi rappeler qu'il n'y a pas eu de capitalisation possible de

l'expérience du stage effectué en 2007. Le recours à un logiciel dédié à la veille n'a

!Le «current awareness » - expression que Ton pourrait traduire par « être

actuellement aucourant » - étantle fait de s'assurer d'être en permanence au faitdes

dernières actualités dans des domaines précis. Il s'agit d'une pratique aussi courante

quenécessaire dans de nombreux métiers, notammentet pour des raisons évidentes,

(18)

donc pas changé les pratiques en interne. La veille s'y effectue donc toujours grâce

aux lettres d'informations, aux listes de diffusion ou autres publications papier ou

bien encoreà deslogiciels tels que des agrégateurs RSS.

b) Analyse des besoinsinternes

En interne, ELDA a besoin d'undispositif de veille structurée afin de pouvoir

effectuer une alimentation rapide et de qualité de Technolangue ainsi que de

HLT-Central. L'alimentation du Catalogue Universel a été mentionnée précédemment

comme étant une application potentielle de ce dispositif, mais elle est optionnelle et

n'aurait pas lieu dans l'immédiat. Elle n'est donc pas qualifiée ici comme relevant

d'unbesoin.

La personne qui sera chargée d'utiliser le dispositif de veille mis en place ne

sera pas une personne recrutée à cette occasion, mais proviendra de l'effectif actuel

d'ELDA. Elle sera désignée par la suite, une fois le dispositif de veille mis en place.

On verra alors comment dégager un créneau horaire à cette personne afin qu'elle

puisse s'en occuper. La question du temps est donc cruciale, le dispositif se doit

d'être aussipeuchronophage que possible.

Enfin, le fait de créer deux sources d'informations incontournables pour les

professionnels des technologies de la langue permettrait d'apporter un prestige

supplémentaire àELDAfaceà sesconcurrents.

c) Analysedes besoins externes

En externe, il y a une forte attente de la part des professionnels des

technologies de la langueenmatièred'informations dans leur domaine.

Il leur faut bien évidemmentêtreconstammentau fait des dernières actualités,

qu'il s'agisse de nouvelles normes ou des dernières avancées de la recherche. Un

portail assurantune veille efficace pourraitalors, sice n'est remplacer complètement,

dumoins compléter leurpropre veille.

De plus, le fait de proposer en un point centralisé unensemble d'informations

permet de mettre à disposition un point de départ pour une recherche

(19)

sous-domaine avec lequel il n'est pas familier et qui, à ce titre, ne faitordinairement

pas partie de ses pratiquesde veille, le portail lui permettrait de rapidement palier à

ses lacunes.

C. Sourcingetcorpus

1. Sourcing

a) Identification dutype de veille

Le sourcing est la démarche qui consiste à rechercher, sélectionner et valider

les sources qui vont servir à la veille. C'est une étape importante puisque sans un

sourcing de qualité on ne peuteffectuer de veille efficace. Or, pour effectuer un bon

sourcing ilfauttoutd'abordidentifier quelleestlaveilleà mettre enplaceet quels en

sontlesbesoins.

Ici, nous recherchons à alimenter un portail en actualités ayant un rapport

avec les technologies de la langue. Notre veille se révèle donc être principalement

une veille technologique, aussi scientifique et technique. Cependant, si l'on

s'intéresse aux axes de surveillance tels que définis par ELDA, on s'aperçoit que la

veille aura aussi une dimension économique puisqu'elle aura en partie pour objet le

marchéetl'évolution desacteursdu TAL.

Après avoir défini le type de veille àmettre en place, il nous faut identifier le

degré de fiabilité exigée de nos sources. En effet, toute veille ne recherche pas un

même degré de fiabilité. Certaines vontprincipalement s'intéresser auxinformations

informelles, chercher à être autant en amont du flux d'information que possible. Le

prix de cette course à la primauté est le fait d'accepter d'avoir recours à des

informations potentiellement fausses.

Dans le cas présent, le produit de la veille se doit d'être aussi fiable que

possible. En effet, l'objectif d'ELDA est de mettre au point deux portails web

incontournablesdans leurs domaines. À ce titre,on ne saurait se permettre de mettre

en ligne des rumeurs et autres bruits de couloirs. Il esttrès important que le public

ait l'assurance que les informations publiées sont toutes fiables. La fiabilité vient ici

(20)

b) Critères desélection

Nous pouvons tout d'abord nous reporter au compte-rendu du séminaire du

groupe de travail du GFII « Intelligence économique etéconomie de laconnaissance,

outils et solutions d'accès à l'information » tenu le 23 octobre 2006 à la Chambre de

commerce et d'industrie de Paris1. Bien que légèrement daté, onpeutvoir qu'il y est

préconisé de surveiller principalement les dépôts de brevets. Il y est également

mentionnéun cas particulier, celui du Cemagref,la veille scientifique ettechnique

se doit d'avoir recours à des sources élargies. Cependant, ce pointn'est pas détaillé,

le choix dessourcesn'ayantpas encore eulieu lors du séminaire.

Si la surveillance de brevets semble être une sage idée, elle requiert des

compétences techniques poussées afin de pouvoir les déchiffrer correctement. Or la

personne qui sera chargé de la veille n'a pas encore été désignée et l'on ne saurait

donc être certain de ses connaissances en la matière. De plus, le secteur du TAL est

très riche et une personne experte en résumés automatiques ne l'est pas

nécessairement en traduction automatique de la langue. Nous devons donc nous

tournervers d'autrestypes desources.

Sinousne pouvons sélectionnerdes brevets, nos sourcesdoivent toutefoisêtre

aussi officielles que possible afin d'en assurer la fiabilité.

À

ces sources officielles,

nous devons ajouter celles réputées fiables auprès de leurs pairs. Nous faisons

principalementréférence iciaux listes de diffusion.

Face à cette stricte restriction de nos sources, on pourrait craindreun éventuel

« effetdepénurie d'informations

», phénomène parlequelonviendraitàmanquer de

matièreafin d'alimenter les sites web.Cependant, la richesse du domaine duTAL est

assezgrande pour nous assurer quepareil scénariorelève de l'improbable.

1

Jennifer Clerté. « Quelles sources pour quelles veilles ? Compte-rendu du

séminaireGFII » inBases n°233. Bases, Paris, décembre 2006. Disponibleenligne :

http://

(21)

c) Méthodologie

Un premier travail de sourcing a été effectué lors du projet tutoré

Technolangue qui a eu lieu en coopération entre le Master 2 PRISME et ELDA

pendant les trois mois qui ont précédé le stage. Ce sourcing a eu lieu selon des

critères sensiblement semblables à ceux que nous venons d'évoquer. Il s'est

principalement servi des sources fournies par un document provenant du stage de

Sandra Ferret ainsi que par un travail de recherche sur Internet. Ce travail de

recherche a notamment procédé par recours aux annuaires et autres listes de liens

des sites déjà identifiés. Ily a également eu une partie du sourcing par interrogation

directe demoteurs derecherche puispar trides différents sites trouvés.

Les sites ontalorsétévalidésparle personnel d'ELDAqui les aclassés suivant

les sous-domaines des technologies de la languecouverts.

Ce sourcing aété complété lors du stage par un nouveau travail de recherche

sebasantnotammentsurla lecture de NetRecherche1. Ma tutriceprofessionnelle ainsi

que le PDG d'ELDA m'ont également faitparvenir les noms de plusieurs sites qu'ils

désiraientvoirapparaître dans la liste dessourcesà surveiller.

d) Typesde sources

Les sources qui ontété retenues sont principalement lessites web officiels des

laboratoires, les sites officiels d'organismes ou d'entreprises reconnus dans le milieu

etles listes de diffusionde référence. Cesontdonc icides sources spécialisées dans le

domaine duTAL.

Des sources généralistes ont également été sélectionnées. Il s'agit toujours de

sources officielles ou de référence comme les agrégateurs Yahoo News2 ou Google

News3 ou les sites comme 01 Informatique4. Bien que n'abordant

1Véronique Mesguich, Armelle Thomas. Net Recherche, Le guide Pratique pour

mieux trouverl'information utile. 2007,ADBS Editions,Paris.

2

http://fr.news.yahoo.com/ (consulté le 1erseptembre 2009)

3

http://news.google.com/ (consulté le 1erseptembre 2009)

4

(22)

qu'occasionnellement les technologies de la langue, on considère qu'elles peuvent

être des sources intéressantes, apporter un autre éclairage voire mettre en avant

certaines informations pouvant être négligées par les sources spécialisées. Toutefois,

leur sélection apporte obligatoirement du bruit qu'il nous faudra savoir gérer par la

suite,sansquoinous serions aufinal obligés de nous passer de ces sources.

Nous n'avons pas sélectionné deblogueou de forumparminos sources. Nous

justifions ce choix par le fait de ne pas avoir trouvé de blogue à la fois pertinent et

objectif. Si certains blogues présentent des informations intéressantes, ils le font de

manière trop subjective pour pouvoir être conservés ou bienportent principalement

sur des retours d'expérience. Si nous étions dans le cadre d'une veille d'opinion, ils

nous auraient fortement intéressé, mais dans le cadre de notre veille nous ne les

avons pas retenus.

C'estla surveillance des acteurs du marché qui s'est révélée êtrela plus ardue.

En effet, celasuppose enthéorie d'avoirrecours à dessites spécialisés dans l'actualité

économique. Toutefois, ceux-ci drainent une grande quantité d'information

entraînant inévitablement un bruit conséquent. La maîtrise de ce bruit exige donc

une connaissanceaussiexhaustive quepossible des différents acteurs du marché.

De plus, nous recueillons déjà des informations sur les évolutions du marché

au travers denos sources spécialisées et généralistes. Les agrégateurs comme Google

News font notamment apparaître dans les rubriques «Technologies » toutes les

évolutions du marché touchantàunacteur du marchétechnologique.

En conséquence, nous avons décidé de ne pas sélectionner de sources portant uniquement sur le secteur économique. Nous avons estimé que cela nous permettait

de considérablement atténuer l'ampleur du bruit à gérer sans entraîner de silence

gênant.

e) Modes de diffusion

Une typologie suivant les modes de diffusion a été mise en place. Nous en

avons recensés trois: la pageweb classique, la liste diffusion etle flux RSS. Le but de

cette typologie était de savoir si l'outil mis en place pouvaitne pas savoir exploiter

un mode de diffusion ou bien si tous lui étaient nécessaires. Cette information nous

(23)

Il en est ressorti que six sites ne mettent pas de flux RSS à disposition du

public. Il s'agit de LT-World1, Langage naturel (LN du CINES)2, CorporaList3,

Terminometro4, l'OESI5, le ministère de la culture (promotion de la langue)6 et la

SIGGEN7.

Parmi ces sites, tous mettent en ligne sur leur page web les informations qui

nous intéressent. Il faut alors mentionner le fait qu'il peutêtre aujourd'hui possible,

grâce à divers outils dontcertains que nousévoquerons plus loin, de créer soi-même

un flux RSS depuis une page web existante. Ce peutêtre une solutionintéressante si

l'on désire prioritairement avoir recours au RSS. Cependant, le mode de mise en

ligne de CorporaList ne permet pas la création de flux RSS à l'aide des outils

existants.

Précisons que si nous ne pouvons obtenir de flux RSS directement depuis le

site web de Corpora, on peut avoir accès à ses informations par messagerie, étant

donné qu'ils'agitd'une liste de diffusiondont lesite web présente les archivesmises

àjour quotidiennement.

Enfin, précisons que Corporaest l'une de nos sources incontournables et qu'à

cetitre on ne peutl'omettreau coursde notreveille.

Dansl'idéal, l'outilqui sera mis enplace ne doitdonc pas uniquement êtreun

lecteur de flux RSS, ildoitégalementpouvoir surveiller les pageswebou les listes de

diffusion. Une veille passant par unlecteur RSS reste toutefois envisageable, soit en

appoint soit en la complétant d'une consultation en ligne de la liste de diffusion

Corpora.

1

http://www.lt-world.org/ (consulté le 1erseptembre 2009)

2

http: / /liste.cines.fr/info/ln (consulté le1er septembre 2009)

3

http://gandalf.aksis.uib.no/corpora/ (consulté le 1erseptembre 2009)

4

http://www.terminometro.info (consulté le 1erseptembre 2009)

5

http://oesi.cervantes.es/ (consulté le1erseptembre 2009)

6

http:/ /www.dglflf.culture.gouv.fr/ (consulté le 1erseptembre 2009)

7

(24)

f) Classification

Une classification des sources, jointeenannexe page 67, a été dressée selon les

axes desurveillance préalablement définis, à savoir les produits, les technologies, le

marché et son évolution et les événements. A cela nous avons également ajouté le

critère de la langue et dutype de source, à savoir s'il s'agit d'une source spécialisée

ou généraliste.

On a ainsi pu voir clairement que les sources sont principalement

francophones et anglophones. On peutmême remarquer une nette prédominance de

la langue française. Il faut toutefois la relativiser en raison du fait que certaines

sources, comme celles de l'Union Européenne - sont multilingues et que par

commodité nous avons choisi la langue française. De plus, les listes de diffusion de

Corpora et Linguist, probablement les deux sources les plus riches en informations

parminos sources spécialisées, sontprincipalementanglophones.

Il est apparu également qu'aucune source n'est classée dans un seul axe de

surveillance. Nous l'avons donc noté comme étant un point à considérer lors de

l'évaluation des outils. En effet, si l'outil n'autorise pas l'attribution d'une même

source à plusieurs dossiers alors il ne nous permet pas de classer nos sources selon

nos axesde surveillancesans créer dedoublon.

2. Corpus de test

«

Corpus» et « Evaluation» vont de pair dans les technologies de l'information. En effet, si l'on évalue à l'aide d'une grille - nous aborderons la

questionde la nôtre plus tard- onle fait égalementparrapportàun corpus.

a) Critèresde sélection

Les règlesconcernantl'établissement d'un corpusconnaissent logiquement de

légères variations en fonction de la nature de l'évaluation à mettre en place. Ainsi,

l'évaluation d'une lemmatisation de logiciels n'a pas les mêmes exigences que

l'évaluation de l'usage d'un logiciel de recherche d'informations dans le cadre d'une

(25)

Nous précisons donc que l'évaluation menée dans le cadre du stage consiste

en uncomparatif des différentes technologies des outils évalués. Nousenjustifions le

choix dansla seconde partiedecemémoire.

Nous pouvons maintenant nous intéresser aux règles de constitution d'un

corpus correspondant à ce type d'évaluation. Tout d'abord, si l'on veut garantir la

plus grande équité il faut que le corpus soit le même pour tous les outils évalués.

Cela appelle une première question: si certains outils peuvent, par des

fonctionnalités particulières, exploiter des ressources que d'autres concurrents ne

saventpasexploiter, doit-onlessélectionner ?

Nous pensons qu'une évaluation doit, dans la mesure du possible, porter sur

l'intégralité des capacités d'un outil.

À

ce titre, elle doit faire apparaître les points

forts et les faiblesses des outils, tant au niveau de leurs performances qu'au niveau

de leurs capacités. Il revient toutefois à l'évaluateur de ne pas non plus se laisser

griser par des arguments commerciaux et de savoir ignorercertaines fonctionnalités

qu'il considérerait, après réflexionetargumentation, comme inutiles.

Ensuite, le corpus se doit d'être représentatif. Si nous évaluons un traducteur

dans seize langues, il convient d'établir un corpus comprenant des documents dans

ces seize langues. Le but de notre évaluation étant de permettre une prise de

décision, il lui est nécessaire d'être à l'image d'une utilisation quotidienne. Elle ne

doit pas pouvoir être taxée de s'être déroulée dans un cadre uniquement théorique,

elle doit rendre compted'une utilisationpratique.

b) Sélection

Dans laconfiguration d'une « évaluation idéale », nous pourrions imaginer la

conception d'une série de sites web nous servantcomme corpus. Nous contrôlerions

alors l'intégralité de l'évaluation. Celanous permettrait, entre autres, d'avoir le choix

des différentes technologies utilisées sur les sites web - entendre ici les protocoles et

les langages de programmationcommel'ajax ou lejavascript-etde pouvoirélaborer

des « scénarios» - une page web devenant inaccessible ou dont le contenu serait

(26)

L'INISTa eu comme projet de mettre à disposition du public un«crash site »

dans le cadre du projet « Analyse comparative des outils de veille »1. Il s'agit d'une

démarche sensiblement semblable à celle de la mise à disposition de «kits

d'évaluation», fruits de campagnes d'évaluation et dont l'objectif de leur mise à

disposition est de permettre à d'autres d'effectuer leur propre évaluation2.

Malheureusement, le projetsemble avoir été suspendu si ce n'estarrêté avant que le

crashsite ait été mis enligne.

En raison du manque de temps pour la conception de sites web spécialement

dédiés à notre évaluation et de l'absence de «kit d'évaluation» disponible, nous

avonsdécidé d'élaborernotrecorpus d'évaluation d'après lessitesweb identifiés lors

du sourcing.

Nous avons dirigé notre choix selon le critère de représentativité

préalablement évoqué. Cela nous a conduit à sélectionner CorporaList car il s'agit

d'une liste de diffusion quin'estpas accessible en flux RSS. Il importaitdonc de voir

dans quelle mesure les différents outils pouvaient l'exploiter. Toutefois, cette

sélection dans notre corpus n'exclut pas d'office la sélection de lecteurs RSS pour

notre évaluation. S'il est préférable que l'outil sélectionné au final sache exploiter

Corpora, il n'est pas non plus exigé que l'intégralité de la veille à mettre en place

passe par un outil. Ainsi, la consultation de manière traditionnelle de Corpora

commeappoint àuneveille parRSSestenvisageable.

Le deuxième site sélectionné est LT-World, en raison de son importance dans

le domaine, du fait qu'il ne propose pas de flux RSS et que, de surcroît, il recourt à

une navigationpar «cadres ». Les « cadres » - ou« frames » en anglais- sont connus

pour causeruncertain nombre de problèmes aux crawlersnotamment-ce quiesten

partielaraison de leur désaffection- ettendentà disparaître. Toutefois,certains sites

1 Le site web du

projet est disponible à cette url : http://outils.veille.inist.fr/

(consulté le 6 mai2009)

2

Stéphane Chaudiron, Khalid Choukri. « L'évaluation :fondements, processus

et résultats » in L'évaluation des technologies de traitement de la langue. Hermès, Paris,

(27)

web persistent donc à les utiliser, ce qui nous conduit à nous intéresser au

comportementdes différents outils aveceux.

Nous avons ensuite choisi la liste Linguist car elle est accessible à la fois par

un site qui n'a pas recours aux cadres et par des flux RSS. L'intérêt est alors de

pouvoir observer la manière dont les outils peuventexploiter la technologie du RSS

et de pouvoir comparer la surveillance d'une pageweb par rapport à la surveillance

du flux RSS d'unemêmeliste de diffusion.

Enfin, nous avons sélectionné Google News car il s'agit d'un agrégateur de

pressegénéraliste quiestaussiaccessible par flux RSS. Nous pouvons doncavoir une

idée du bruit qu'il peut générer utilisé de manière « brute ». De plus, le flux RSS de

Linguist se cantonne à afficher le titre de la page ainsi que sa date de publication

alors que Google News joint une image, le début de l'article ainsi que le nom de sa

source et quelques liens ayantun rapport avec l'article. Il s'agit donc d'un flux RSS

plus « complet», qui en exploite davantage les capacités. Il nous permet ainsi

d'évaluer plusen profondeur lescapacitésdes outilsavec latechnologie RSS

c) Limites

Notre corpus a été composé en vue de l'évaluation d'outils de surveillance,ce

quiexplique le fait qu'il soit uniquement constituéde sites web. Nousavons éliminé

d'emblée l'évaluation d'outils de fouille detexte.

En effet, pour trois de ses quatre axes de surveillances la veille doit se

concentrer sur les éléments factuels contenus dans les actualités des différentes

sources identifiées. Or, l'objet de ces actualités apparaît le plus souvent dans le titre

même de l'article et soncontenu fait rarementplus de 500 mots. Il ne nous est donc

pasnécessaire d'utiliserun outil de fouille de textes pourenextraire les élémentsqui

nousintéressent.

S'il reste un dernier axe de surveillance, celui des technologies, pour lequel le

recours à un outil de fouille de textes pourrait être utile afin d'en identifier les

signaux faibles, il n'est pas pour autant indispensable. Le veilleur peut très bien

opérer cetravail par lui-même. Il peut, au fil desa veille età la lecture des actualités,

(28)

Enfin, une évaluation des outils de fouille de textes enplus de celle des outils

de surveillance aurait nécessité un surcoût en temps très important. Nous avons

donc préféré écarter ce volet dispensable afin de nous assurer de mener notre

(29)
(30)

III. Recensement et

typologie

A. Questionspréliminaires

1. Outils de veille : définitionet spécificités

Avant de commencer le recensement et l'évaluation, il nous est nécessaire

d'effectuer une réflexion sur l'expression même « outils de veille ». Afin d'éviter

toute méprise, ilconvientd'enôter toute ambiguïté.

A l'image des « outils bureautiques », les « outils de veille » ne se définissent

pas parleurs fonctionnalités maisparleur utilisation. Ainsi, c'estune désignationpar

l'usage qui englobe une série de différents logiciels qui, eux, pourront être désignés

par leurs fonctionnalités. Nous pouvons à nouveau illustrer cela avec l'exemple de

l'expression «outils bureautiques » qui désigne, entre autres, les logiciels de

traitement detexte etlestableurs.

Cela signifie que si les logiciels que nous allons recenser et évaluer auront

comme point commun principal leur usage, ils pourront avoir diverses

fonctionnalités.

Enconséquenceet avantd'aller plus loin,nous devons clairementexpliciter ce

que nous entendons par le terme «veille » que nous avons déjà utilisé à plusieurs

reprises. Nous définissons ici la veille comme une pratique visant à surveiller un

environnement - qui peutêtre aussi bien économique

que technologique ou social

-afin de collecter, sélectionner et d'analyser les informations utiles à un organisme,

notamment par la détection ou l'anticipation des changements de l'environnement

surveillé.

Un outil de veille est donc un logiciel se rapportant à ces tâches de

surveillance, de collecte et d'analyse des informations utiles. Cette clarification nous

permetde considérer les difficultés quel'évaluation decesoutils de risque deposer.

Nous pouvons commencer par remarquer que si nous avons levé les

éventuelles ambiguïtés concernant la signification du terme « veille », cela n'a pas

résolu tous les problèmes inhérents à l'expression « outils de veille ». En effet, le fait

de connaître la finalité de l'usagene définitpas de fait le détail des fonctionnalités. Il faut ajouter à cela la question des détournements d'usage, outil peut-il

(31)

réellement considéré comme étant « de veille» si on l'utilise pour effectuer de la

veille d'unemanière quin'étaitpasprévuelors de saconception ?

Nous pensons que si un outil peut se révéler être efficace lorsqu'il est utilisé

pour effectuer une veille, alors nous pouvonsle qualifier « d'outil de veille », quand

bienmêmecelane seraitpas sonbutpremier.L'idée estd'obtenirun panorama aussi

large que possible des différentes possibilités de mise en place d'une solution

logicielle de veille. L'identification d'éventuels détournements d'usage pourra

également être l'occasion de soulever des perspectives d'évolutions pour certains

logiciels.

Pour le volet de l'évaluation, c'est la multitude de fonctionnalités que nous

risquons de rencontrer qui peut poser problème. En effet, bien que notre évaluation

porte sur des logiciels dont le principal point commun est l'usage, nous avons

préféré mettre en place une évaluation technologique plutôt qu'une évaluation

d'usage.

Évaluer technologiquement les outils de veille nous demandera donc

probablement d'évaluer des technologies différentes. La question d'une évaluation

globale des outils de veille aux technologies divergentes ou bien d'une série

d'évaluations de chaque type d'outils de veille aux caractéristiques proches apparaît

déjà ici comme étant une question importante et épineuse. Nous la développerons

parlasuite.

2. Évaluationtechniqueou évaluation d'usage ?

Nousjustifions le fait d'avoir opté pour une évaluation prenantla forme d'un

comparatif technique par l'impossibilité que nous avions de mettre en place une

évaluation d'usage pertinente. En effet, une évaluation d'usage n'aurait pu porter

que sur notre propre usage alors que nous ne sommes pas la personne qui sera

chargée de laveilleau final. Ornous pensons qu'une évaluation d'usage, à défautde

pouvoir directement porter sur l'usager concerné, doit se dérouler avec un corpus

d'usagers représentatif. N'ayant à notre disposition qu'un seul usager, nous ne

pouvons prétendre à la représentativité et avons préféré opter pour une évaluation

technologique dont la validité des résultats ne dépendrait pas du nombre de

(32)

Nous pouvons cependant mentionner l'évaluation d'usage des outils de veille

tel que nous l'avions envisagé. Elle aurait nécessité la mise en place de métriques

provenant d'une « veille-type » déjà effectuée sur le corpus. Ces métriques auraient été constituées par une liste des informations pertinentes contenues au sein du

corpus d'évaluation. Nous aurions alors pu mesurer l'efficacité de la veille tant au

niveau de sa rapidité que de la quantité d'informations pertinentes identifiées. Le

premier point pourrait être évalué en chronométrant le temps passé par l'usager à

utiliser l'outil avant qu'il estime avoir fini sa veille, identifié toutes les informations

pertinentes. Le second point peut être évalué en se basant sur la métrique classique

qu'est le ratio bruit/silence. On obtiendrait alors un indicateur de temps et un taux

derappelpermettantde sefaire uneidée précise des performances de chaque outil.

Notonségalementque l'absence de contrôle surlecorpus étaitunautre freinà

lamise en place d'une évaluation d'usage. Eneffet, les informationsprovenantd'une

partie tierce, aucune validation de leur pertinence dans le cadre de notre évaluation

n'auraitété possible.

Enfin, pour les mêmes raisons de moyens limités nous n'avons pas pu

procédernon plusà une évaluation technique poussée avec des mesurestelles que le

ratiobruit/silence. Notre évaluationse présente donc sous la forme d'un comparatif

technique.

3. Boîte noire ouboîte transparente?

Toute évaluation se rapportant à la technologie d'un logiciel soulève la

question de procéder à une évaluation de type « boîte noire » ou « boîte

transparente » est inévitable. En quelques mots, l'évaluation « boîte noire » ne

s'intéresse qu'à ce que Ton peut voir, ce que Ton obtient, tandis que l'évaluation

« boîtetransparente

» tientcompte de lamanière dont le logicielfonctionne, procède.

L'avantage d'une évaluation en «boîte transparente » est qu'elle peut

identifier les raisons des disparités au sein des résultats entre les divers outils

évalués. Elle peut ainsi permettre une évaluation plus fine des différentes

technologieset proposer des pistes d'amélioration pour leslogicielstestés. Toutefois,

(33)

propriétaires ayant un code source non disponible pour le public, on ne peut

théoriquement pas savoir précisément comment fonctionne ledit logiciel. Effectuer

une évaluation en «boître transparente » requiert alors l'acceptation de la part des

propriétaires des logiciels de donneraccès àce que d'ordinaire ils gardentsecret.

À l'opposé, une évaluation en « boîte noire » a comme avantage le fait d'être

plus simple à mettre en place. Elle ne nécessite pas de connaissances poussées pour

comprendre dans les détails le fonctionnement de chaque technologie. Elle demande

également moins de temps car, ne s'intéressant qu'aux résultats, elle a moins de

donnéesàtraiter.

Ainsi, on peut considérer qu'une évaluation en «boîte transparente » est

préférable dans l'idéal car elle permet de recueillir davantage d'informations. C'est

par contre sa complexité à être mise en place qui n'en fait pas systématiquement le

choixleplus pertinent.

Dans notre cas, il est assez simple de déterminer quel type d'évaluation il

convient de mener. En effet, a présence de logiciels propriétaires à évaluerainsi que

les moyens dont nous disposons nous conduisent logiquement à opter pour une

évaluationen« boîtenoire ».

4. Retoursurinvestissement ?

a) Rôle du ROI dans la veille

Nous devons encore aborder un dernier point: celui du retour sur

investissement, ouROIpour Return On Investment.

Le retour sur investissement est un ratio financier qui consiste à calculer le

rendement d'un investissement. Il s'agit donc de savoir combien on a pu

financièrement gagner ouperdre par rapport à uninvestissement donné, lequelpeut

être aussibien l'achat d'un logiciel que la mise en place d'un projet de recherche et

développement1. Le ROI se calcule donc dans une perspective temporelle. Onva par

1

Digimind.

Évaluer

le retoursurinvestissementd'un logiciel de veille. Livreblanc,

juin 2005. Disponible en ligne : http:/ /

Références

Documents relatifs

pneumoniae HUS Str eptococcus pneumoniae - associated hemolytic uremic syndrome, cHUS complete hemolytic uremic syndrome, iHUS incomplete hemolytic uremic syndrome,

Figure 3 : prédiction de la courbe de production de la 2 ème lactation d’une vache Montbéliarde en tenant compte du troupeau (effet TJC prédit) et des effets qui lui sont

Dans les races régionales à effectifs plus réduits, il est difficile de disposer d’une population de référence (PR : animaux avec génotypes et performances) de taille

L’objectif de cette étude a donc été la valorisation des données collectées en vue de la mise en place d’une évaluation génétique des bovins allaitants de

Que ce soit pour les acteurs institutionnels ou les chercheurs et enseignant-chercheurs tunisiens ayant déjà soumis un projet européen de coopération et/ou de recherche,

Here, we assemble 47 carefully selected Eemian pollen sequences from Europe to explore geographical patterns of (1) total compositional turnover and total variation for each

le constat que, selon les directions des milieux de garde en petite enfance, les pratiques les plus fréquemment réalisées au cours du processus de transition scolaire

In this paper, EISCAT/ESR radar data and in situ FAST and POLAR satellite observations have coordinately been ana- lyzed to investigate positive ionospheric storm effects in the