HAL Id: dumas-01689378
https://dumas.ccsd.cnrs.fr/dumas-01689378
Submitted on 22 Jan 2018
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
L’évaluation des logiciels de veille, un cas pratique : la
mise en place de la cellule de veille au sein d’ELDA
Florent Bride
To cite this version:
Florent Bride. L’évaluation des logiciels de veille, un cas pratique : la mise en place de la cellule de veille au sein d’ELDA. Sciences de l’information et de la communication. 2009. �dumas-01689378�
eL
Da
UFR IDISTde Lille III Charles de Gaulle ELDA
L'évaluation des
logiciels de veille,
un
cas
pratique
:
La mise
en
place de
la cellule
de veille
au
sein
d'ELDA
Mémoire deStage M2 ICDparcoursPRISME2008/2009
Etudiant: Florent Bride
Tuteursuniversitaire :Stéphane Chaudiron et IsmaïlTimimi Tuteurprofessionnel :Valérie Mapelli
Remerciements
Je remercieValériepourletempsqu'ellem'a consacréetles conseils qu'elle m'aprodigués.
Jeremerciel'équipe d'ELDApour sagentillessequia surendrecestageaussiagréablequepossible.
SOMMAIRE
INTRODUCTION 8
I. PRESENTATION DE LA MISSION ET DU CORPUS 10
A. Le cadre etle domaine 10
1. Lestechnologies de la langue 10
2. Lesacteurs 10
a) ELDA 10
b) Concurrents 11
B. La missionet l'audit 13
1. La mission 13
a)
Étude
du stage précédent 13b) Mission dustage actuel 14
2. L'audit 15
a) La veilleau seind'ELDA 15
b) Analyse des besoinsinternes 16
c) Analysedesbesoinsexternes 16
C. Sourcing etcorpus 17
1. Sourcing 17
a) Identification du type de veille 17
b) Critèresde sélection 18 c) Méthodologie 19 d) Typesde sources 19 e) Modes de diffusion 20 f) Classification 22 2. Corpus detest 22 a) Critères de sélection 22 b) Sélection 23 c) Limites 25
II. RECENSEMENT ET TYPOLOGIE 28
A. Questions préliminaires 28
1. Outils de veille : définitionetspécificités 28
2. Évaluationtechniqueou évaluation d'usage ? 29
3. Boîte noireou boîte transparente ? 30
4. Retoursurinvestissement ? 31
a) Rôle du ROI dans la veille 31
b) Au seind'ELDA? 33 B. Recensement 35 1. Critères de sélection 35 2. Fonctionnalités ciblées 35 3. Méthode de recherche 36 4. Méthode de validation 37
C. Typologie des outils 37
1. Outils de surveillance des pagesweb 38
2. LecteursRSS 40
3. Moteurs de recherche 40
4. Outilscomplémentaires 42
III. ÉVALUATION 44
A. Critères pourl'évaluation 44
1. Méthodologie 44
2. Étatde l'art desméthodologiesd'évaluation 45
3. Critères d'évaluation pourles outils de surveillance 47
4. Critères pourl'évaluation des lecteursRSS 50
5. Critèresd'évaluationpourlesmoteurs derecherche 52
B. Grilles d'évaluation 53
1. Grilles propres àchaquecatégorie 54
2. Grille de synthèse des fonctionnalités 54
C. Barèmeetremarques 57
1. Barème 57
2. Informationstechniques 58
3.
Épuration
dela liste deslogicielsà évaluer 59CONCLUSION 62
BIBLIOGRAPHIE 64
SITOGRAPHIE 66
ANNEXES 68
A. Cahier des charges 68
B. Planning prévisionnel 71
C. Grille des sources 72
D. Liste deslogiciels de veille 74
1. Logiciels de surveillance de site web 74
a) Solutions propriétaires 74
b) Solutions open-source 74
2. Moteurs de recherche etcrawler 75
a) Moteursde recherche sanscrawlers 75
b) Moteursde recherche aveccrawlers 75
c) Crawlers 76
3. Lecteurs RSS 76
a) Lecteursenligne 76
b) Lecteurssur poste 76
c) Lecteurssur serveur 77
4. Autres 77
E. Grilles d'évaluation 78
b) Lecteurs RSS 80
c) Les moteursde recherche 81
2. Grille desynthèse desfonctionnalités 82
Introduction
La veille, contrairement à ce que ce terme peut laisser penser à certains, est
tout sauf une activité statique. Elle implique une pratique dynamique, un suivi des
évolutions constant. Ce suivi ne se manifeste pas uniquementdans les informations
auxquelles elle s'intéresse, mais également danssapratiqueenelle-même. Eneffet, la
veille se doit de s'adapter en permanence aux évolutions du monde de l'information
afin de resteraussipertinente que possible.
Or le monde de l'information a bien changé depuis une quinzaine d'années.
Le webestdevenu une source d'informationimportante dontl'exploitationa posé de
nouveaux problèmes,telsque « commentéviterl'infobésité ? ».
Si la veille est avant tout le fruit d'un savoir-faire et d'une méthodologie, le
recours à des logiciels s'est alors avéré précieux pour les professionnels de
l'information.
La mise en place d'une cellule de veille passe donc aujourd'hui par une
réflexion sur le choix du logiciel à adopter pour le fonctionnement de cette veille.
Cette réflexion, sielle veutêtre pertinente, doit s'appuyer sur des données fiablesqui
peuventêtre recueillieslors d'une évaluation.
On peut alors se demander : comment évalue-t-on des logiciels de veille ?
Quelsproblèmescela peut-ilposer? Quelle méthodologie cela peut-ilnécessiter ?
Nous allons aborderces questions au cours de ce mémoire au travers d'un cas
pratique,lamiseenplace d'une cellule deveille auseind'ELDA.
Dans une première partie, nous allons présenter le contexte du stage pour
lequel s'est déroulée cette réflexion ainsique la mise en place du corpus de test quia
été élaboré pourcette évaluation.
Nous allons ensuite aborder la question du recensement ainsi que de la
Enfin, notre dernière partie va porter sur l'évaluation en elle-même,
l'élaboration des critères de sélection, leur exploitation au sein de grilles
I. Présentation de la mission et du corpus
A. Le cadre etle domaine
1. Lestechnologies de la langue
L'expression « technologies de la langue » recouvre l'ensemble des produitset
desservices ayantpour objet le traitement automatiquedes langues,que l'on désigne
égalementsous l'acronyme TAL. Les technologies de la langue sont donc le fruit de
l'allianceentre lalinguistique etlatechnologie.
Elles s'intéressent à tout type de données linguistiques, qu'elles soient des
textes écrits ou des corpus oraux par exemple. Elles ont de multiples applications
auxquellesnous faisons face tous les jours, telles que la correction automatique dans
les traitements detexte ouleslogiciels de traduction automatique.
Elles sont également l'un des domaines-clefs capables de répondre aux
problèmes posés par l'augmentation ininterrompue des flux d'informations et les
nouvellestechnologies.
2. Les acteurs
a) ELDA
ELDA, agence pourla distribution des ressourceslinguistiquesetl'évaluation,
est une société commerciale. Elle est le corps opérationnel d'ELRA, association
européenne pourlesressourceslinguistiques.
ELDAaété créée dans le butd'identifier, classer, collecter, valideretdistribuer
les ressources linguistiques pour le compte d'ELRA et à destination de ses membres,
de ses clients et de la communauté de l'ingénierie linguistique dans son ensemble.
Ellea ainsiégalement la charge de la gestion des questionstechniques, commerciales
ELDA s'occupe aussi de la maintenance et l'alimentation de plusieurs sites
web. Il y a naturellement les sites web d'ELDA et ELRA1, le site web d'ELRA
incluant lui-même le catalogue des ressources linguistiques distribuées par ELRA2.
De plus, Il y a le Catalogue Universel qui est, quant à lui, un inventaire des
ressources linguistiques3. Il y a également les portails Technolangue et
HLT-Evaluation4.
Le cas de Technolangue est particulier puisqu'il s'agit du fruit d'une
collaboration entre plusieurs partenaires dans le cadre d'un projet européen qui a
prisfinen2006.Sonexistenceestactuellement exclusivementassurée parELDA.
b) Concurrents
ELDA a donc comme activités principales la distribution et la production de
ressources linguistiques ainsi que l'évaluation des technologies de la langue et la
diffusion d'informations sur le TAL. En raison de ces activités transversales dans le
domaine,les axesdeconcurrence ne sontpas uniques.
Si Ton considère le domaine de la distribution et de la production des
ressources linguistiques, son principal concurrent estle LDC5, créé en 1992. Comme
ELDA,le LDC dispose d'un catalogue en ligne6 qui recense aussi bienles ressources
produites sous un financement gouvernemental que toute autre ressource produite
par le LDC ou un acteur externe souhaitant la partager avec le reste de la
communauté. La politique tarifaire du LDC estégalement proche de celle d'ELDAen
^ttp:// www.ELDA.org/ et http:/ /www.elra.info/ (consultés le 1er
septembre 2009)
2
http://catalog.elra.info/ (consulté le 1erseptembre 2009)
3
http://universal.elra.info/ (consulté le 1er septembre 2009)
4
http://www.technolangue.net/ ethttp://www.hlt-evaluation.org/
(consultés le 1erseptembre 2009)
5
Linguistic Data Consortium dont le siteweb est:
http://www.ldc.upenn.edu/ (consulté le 2septembre 2009)
6
ayant notamment largement recours à la pratique de prix réservés à des adhérents
cotisants.
Il faut également noter qu'il existe le ChineseLDC1 en Chine et le GSK2 au
Japon. De même, au sujet de la distribution de ressources linguistiques, remarquons
le développement actuel de centres autour des ressources linguistiques, notamment
enIndeavec le TDIL3et LDC-IL4.
De nombreux laboratoires et différentes sociétés produisent aussi des
ressources linguistiques dans le cadre de leurs travaux et les rendent disponibles en
dehors des réseaux LDC et ELDA. Contrairement à ELDA quidistribue tout type de
ressources, celles produites par les laboratoires dépendront de la spécialité dudit
laboratoire. À titre d'exemple, citons l'UPC5 qui est spécialisé dans les technologies
dereconnaissancevocale.
Dans le domaine de l'information,unconcurrentdirectestle DFKI, qui estun
organisme allemand, avec son portail anglophone LT-World6. C'est un portail
d'informations sur les technologies de la langue constitué de quatre grandesparties :
les informations, les acteurs, les produits et les ressources et enfin une partie
communication qui inclut les actualités, les conférences et une base de connaissance
surles brevets.
1le siteweb
enversionanglophone:
http:/ / www.chineseldc.org/EN/index.htm (consulté le2 septembre 2009)
2 le site web en version
anglophone : http://www.gsk.or.jp/index e.html
(consulté le2septembre 2009)
3
http://tdil.mit.gov.in/ Technology Development for Indian Languages
(consulté le2septembre 2009)
4
Language Data Consortium for Indian Languages : http://www.ldcil.org/
(consulté le2septembre 2009)
5Université
Polytechnique de Catalogne, ontrouveses ressources ici :
http:/ /gps-tsc.upc.es/veu/LR/ (consulté le2 septembre 2009)
6
Concernantl'activité en évaluation des technologies, on peut faire mentionde
CELCT1 qui est un acteur italien directement relié à DFKI. On peutaussi remarquer
le NIST2 qui est un important organisme gouvernemental américain très impliqué
dansles activitésd'évaluation.
B. Lamission etl'audit
1. Lamission
a)
Étude
dustage précédentUn précédent stage relatif à la veille a été effectué au sein d'ELDA du 2 avril
au31 août2007 parSandra Ferret. Sonthème étaitl'analyse et l'évaluation du portail
Technolangue qui est, entre autres choses, un portail d'informations sur les
technologies de la langue.
En tant que tel il nécessite d'être régulièrement alimenté en nouvelles
informations du domaine destechnologies de la langue. C'esten partie dans ce cadre
que Sandra Ferret - qui fut pour le temps de son stage chargée de l'alimentation
dudit portail - a mis en place une veille. Sa veille servait également à alimenter le
catalogue de ressourceslinguistiques égalementmaintenupar ELDA.
Afin de l'aider dans cette tâche, elle a eu recours au logiciel Website Watcher
édité par Aignes3. Il s'agit d'un logiciel payantmais dont l'éditeur met à disposition
du public une version d'évaluation. Cela lui a permis de surveiller jusqu'à 1110
pagesweb différentes.
Toutefois, la licence du logiciel n'a pas été acquise par ELDA à la suite de ce
stage. Il n'y a pas eu non plus de mise en place de dispositif pérenne. La seule
documentationsur laquelle nous pouvons aujourd'hui nous baser afin de capitaliser
surl'expérience dece stage précédentestlerapportdu stage.
1 Center for the Evaluation of
Language and Communication Technologies
http:// www.celct.it/ (consulté le 2 septembre 2009)
2National Institute ofStandards and
Technology
http: / / www.itl.nist.gov/iad / (consulté le 2 septembre 2009)
3
La conclusion principale de ce rapport est que, malgré la quantité
d'informations utiles que cela a pu apporter, la surveillance de 1110 signets apporte
trop de bruit. Il était donc conseillé d'en réduire significativement le nombre afin de
passer moins de temps à sélectionner les informations pertinentes. L'un des objectifs
de cette préconisation était d'avoir davantage de temps pour la rédaction des brèves
etleur miseenlignesurle site Technolangue.
b) Mission dustage actuel
Le stage se déroule du 14 avril au 30 septembre 2009 et sa missionest la mise
enplace d'undispositifpérennede veille au seind'ELDA.
Cette veille devra permettre l'alimentation du site Technolangue ainsi que
d'un futur portail du nom de HLT-Central. Ce dernier sera une version anglophone
de Technolangue ets'inspirera également du siteLT-World.
L'objectif final est de faire des sites Technolangue et HLT-Central deux
sources d'informations incontournables pour tout professionnel officiant dans les
technologies de la langue. La veille ne s'intéressera donc pas uniquement aux
signauxfaibles, elleporteraégalementsurl'ensemble des informations dudomaine.
La veille sera essentiellementtechnologique tout en recouvrant également des
aspects d'une veille économique. Ses axes de surveillance ont été prédéfinis par
ELDA et sont: les produits, à savoir quels nouveaux produits peuvent être mis à
disposition du public; les technologies, le but étant en partie de s'intéresser à elles
afin d'en dégager les tendances du moment; le marché et son évolution, suivre les
différents acteurs du marché ainsi que ses mouvements tels que les partenariats,
fusions, etc.; les événements, afin de pouvoir recenser les différentesmanifestations,
colloques ouautresconférences.
Dans l'idéal, la veille s'effectuera exclusivement à l'aide d'outils gratuits et
open-source. Toutefois, si cela s'avèrenécessaire, l'achat d'unelicence ou le recours à
unlogicielpropriétairepourra êtreenvisageable.
Le stage se décomposera en cinq étapes. Dans un premier temps, un audit
aura lieu afin d'analyser l'existant et d'établir le cahier des charges selon une
c'estune fois écoulée une certaine durée préalablement définie que l'on passera à la
troisièmephase. En effet, nous effectuerons alors un recensement et une évaluation
des différents outils existants en vue de décider quelle solution logicielle sera
adoptée. En conséquence de ce choix, onprocéderaà la mise en place de la solution
et à sa validation. Enfin, la dernière étape sera l'exploitation de la solution au sein
d'ELDA.
Une réflexionau sujetdu retour sur investissementsera égalementmenée au
cours de la mission. Elle pourra aboutir sur une mise enapplication, mais cela reste
optionnel. Ajoutons qu'ilestsouhaitableque la solutionpuisse servir àl'alimentation
duCatalogue Universelmaisque ce n'estpas une exigence.
2. L'audit
a) Laveille au seind'ELDA
ELDA emploie actuellement une dizaine de personnes, son effectif variant
légèrement selon lesprojets, certains nécessitant d'avoir recours àd'autres personnes
embauchées àtitretemporaire.
ELDA est structurée en quatre départements. Il y a le département de
communication et de marketing, le département informatique, le département
d'identification et de distribution des ressources linguistiques et enfin celui de la
productionetde l'évaluation desressources linguistiques.
Concernant l'alimentation du portail Technolangue, personne n'y est
actuellementassigné. Sile personnel d'ELDA effectue une veille quotidienne, celle-ci
s'inscrit dans la démarche du «currentawareness1 ».
Il faut aussi rappeler qu'il n'y a pas eu de capitalisation possible de
l'expérience du stage effectué en 2007. Le recours à un logiciel dédié à la veille n'a
!Le «current awareness » - expression que Ton pourrait traduire par « être
actuellement aucourant » - étantle fait de s'assurer d'être en permanence au faitdes
dernières actualités dans des domaines précis. Il s'agit d'une pratique aussi courante
quenécessaire dans de nombreux métiers, notammentet pour des raisons évidentes,
donc pas changé les pratiques en interne. La veille s'y effectue donc toujours grâce
aux lettres d'informations, aux listes de diffusion ou autres publications papier ou
bien encoreà deslogiciels tels que des agrégateurs RSS.
b) Analyse des besoinsinternes
En interne, ELDA a besoin d'undispositif de veille structurée afin de pouvoir
effectuer une alimentation rapide et de qualité de Technolangue ainsi que de
HLT-Central. L'alimentation du Catalogue Universel a été mentionnée précédemment
comme étant une application potentielle de ce dispositif, mais elle est optionnelle et
n'aurait pas lieu dans l'immédiat. Elle n'est donc pas qualifiée ici comme relevant
d'unbesoin.
La personne qui sera chargée d'utiliser le dispositif de veille mis en place ne
sera pas une personne recrutée à cette occasion, mais proviendra de l'effectif actuel
d'ELDA. Elle sera désignée par la suite, une fois le dispositif de veille mis en place.
On verra alors comment dégager un créneau horaire à cette personne afin qu'elle
puisse s'en occuper. La question du temps est donc cruciale, le dispositif se doit
d'être aussipeuchronophage que possible.
Enfin, le fait de créer deux sources d'informations incontournables pour les
professionnels des technologies de la langue permettrait d'apporter un prestige
supplémentaire àELDAfaceà sesconcurrents.
c) Analysedes besoins externes
En externe, il y a une forte attente de la part des professionnels des
technologies de la langueenmatièred'informations dans leur domaine.
Il leur faut bien évidemmentêtreconstammentau fait des dernières actualités,
qu'il s'agisse de nouvelles normes ou des dernières avancées de la recherche. Un
portail assurantune veille efficace pourraitalors, sice n'est remplacer complètement,
dumoins compléter leurpropre veille.
De plus, le fait de proposer en un point centralisé unensemble d'informations
permet de mettre à disposition un point de départ pour une recherche
sous-domaine avec lequel il n'est pas familier et qui, à ce titre, ne faitordinairement
pas partie de ses pratiquesde veille, le portail lui permettrait de rapidement palier à
ses lacunes.
C. Sourcingetcorpus
1. Sourcing
a) Identification dutype de veille
Le sourcing est la démarche qui consiste à rechercher, sélectionner et valider
les sources qui vont servir à la veille. C'est une étape importante puisque sans un
sourcing de qualité on ne peuteffectuer de veille efficace. Or, pour effectuer un bon
sourcing ilfauttoutd'abordidentifier quelleestlaveilleà mettre enplaceet quels en
sontlesbesoins.
Ici, nous recherchons à alimenter un portail en actualités ayant un rapport
avec les technologies de la langue. Notre veille se révèle donc être principalement
une veille technologique, aussi scientifique et technique. Cependant, si l'on
s'intéresse aux axes de surveillance tels que définis par ELDA, on s'aperçoit que la
veille aura aussi une dimension économique puisqu'elle aura en partie pour objet le
marchéetl'évolution desacteursdu TAL.
Après avoir défini le type de veille àmettre en place, il nous faut identifier le
degré de fiabilité exigée de nos sources. En effet, toute veille ne recherche pas un
même degré de fiabilité. Certaines vontprincipalement s'intéresser auxinformations
informelles, chercher à être autant en amont du flux d'information que possible. Le
prix de cette course à la primauté est le fait d'accepter d'avoir recours à des
informations potentiellement fausses.
Dans le cas présent, le produit de la veille se doit d'être aussi fiable que
possible. En effet, l'objectif d'ELDA est de mettre au point deux portails web
incontournablesdans leurs domaines. À ce titre,on ne saurait se permettre de mettre
en ligne des rumeurs et autres bruits de couloirs. Il esttrès important que le public
ait l'assurance que les informations publiées sont toutes fiables. La fiabilité vient ici
b) Critères desélection
Nous pouvons tout d'abord nous reporter au compte-rendu du séminaire du
groupe de travail du GFII « Intelligence économique etéconomie de laconnaissance,
outils et solutions d'accès à l'information » tenu le 23 octobre 2006 à la Chambre de
commerce et d'industrie de Paris1. Bien que légèrement daté, onpeutvoir qu'il y est
préconisé de surveiller principalement les dépôts de brevets. Il y est également
mentionnéun cas particulier, celui du Cemagref,oùla veille scientifique ettechnique
se doit d'avoir recours à des sources élargies. Cependant, ce pointn'est pas détaillé,
le choix dessourcesn'ayantpas encore eulieu lors du séminaire.
Si la surveillance de brevets semble être une sage idée, elle requiert des
compétences techniques poussées afin de pouvoir les déchiffrer correctement. Or la
personne qui sera chargé de la veille n'a pas encore été désignée et l'on ne saurait
donc être certain de ses connaissances en la matière. De plus, le secteur du TAL est
très riche et une personne experte en résumés automatiques ne l'est pas
nécessairement en traduction automatique de la langue. Nous devons donc nous
tournervers d'autrestypes desources.
Sinousne pouvons sélectionnerdes brevets, nos sourcesdoivent toutefoisêtre
aussi officielles que possible afin d'en assurer la fiabilité.
À
ces sources officielles,nous devons ajouter celles réputées fiables auprès de leurs pairs. Nous faisons
principalementréférence iciaux listes de diffusion.
Face à cette stricte restriction de nos sources, on pourrait craindreun éventuel
« effetdepénurie d'informations
», phénomène parlequelonviendraitàmanquer de
matièreafin d'alimenter les sites web.Cependant, la richesse du domaine duTAL est
assezgrande pour nous assurer quepareil scénariorelève de l'improbable.
1
Jennifer Clerté. « Quelles sources pour quelles veilles ? Compte-rendu du
séminaireGFII » inBases n°233. Bases, Paris, décembre 2006. Disponibleenligne :
http://
c) Méthodologie
Un premier travail de sourcing a été effectué lors du projet tutoré
Technolangue qui a eu lieu en coopération entre le Master 2 PRISME et ELDA
pendant les trois mois qui ont précédé le stage. Ce sourcing a eu lieu selon des
critères sensiblement semblables à ceux que nous venons d'évoquer. Il s'est
principalement servi des sources fournies par un document provenant du stage de
Sandra Ferret ainsi que par un travail de recherche sur Internet. Ce travail de
recherche a notamment procédé par recours aux annuaires et autres listes de liens
des sites déjà identifiés. Ily a également eu une partie du sourcing par interrogation
directe demoteurs derecherche puispar trides différents sites trouvés.
Les sites ontalorsétévalidésparle personnel d'ELDAqui les aclassés suivant
les sous-domaines des technologies de la languecouverts.
Ce sourcing aété complété lors du stage par un nouveau travail de recherche
sebasantnotammentsurla lecture de NetRecherche1. Ma tutriceprofessionnelle ainsi
que le PDG d'ELDA m'ont également faitparvenir les noms de plusieurs sites qu'ils
désiraientvoirapparaître dans la liste dessourcesà surveiller.
d) Typesde sources
Les sources qui ontété retenues sont principalement lessites web officiels des
laboratoires, les sites officiels d'organismes ou d'entreprises reconnus dans le milieu
etles listes de diffusionde référence. Cesontdonc icides sources spécialisées dans le
domaine duTAL.
Des sources généralistes ont également été sélectionnées. Il s'agit toujours de
sources officielles ou de référence comme les agrégateurs Yahoo News2 ou Google
News3 ou les sites comme 01 Informatique4. Bien que n'abordant
1Véronique Mesguich, Armelle Thomas. Net Recherche, Le guide Pratique pour
mieux trouverl'information utile. 2007,ADBS Editions,Paris.
2
http://fr.news.yahoo.com/ (consulté le 1erseptembre 2009)
3
http://news.google.com/ (consulté le 1erseptembre 2009)
4
qu'occasionnellement les technologies de la langue, on considère qu'elles peuvent
être des sources intéressantes, apporter un autre éclairage voire mettre en avant
certaines informations pouvant être négligées par les sources spécialisées. Toutefois,
leur sélection apporte obligatoirement du bruit qu'il nous faudra savoir gérer par la
suite,sansquoinous serions aufinal obligés de nous passer de ces sources.
Nous n'avons pas sélectionné deblogueou de forumparminos sources. Nous
justifions ce choix par le fait de ne pas avoir trouvé de blogue à la fois pertinent et
objectif. Si certains blogues présentent des informations intéressantes, ils le font de
manière trop subjective pour pouvoir être conservés ou bienportent principalement
sur des retours d'expérience. Si nous étions dans le cadre d'une veille d'opinion, ils
nous auraient fortement intéressé, mais dans le cadre de notre veille nous ne les
avons pas retenus.
C'estla surveillance des acteurs du marché qui s'est révélée êtrela plus ardue.
En effet, celasuppose enthéorie d'avoirrecours à dessites spécialisés dans l'actualité
économique. Toutefois, ceux-ci drainent une grande quantité d'information
entraînant inévitablement un bruit conséquent. La maîtrise de ce bruit exige donc
une connaissanceaussiexhaustive quepossible des différents acteurs du marché.
De plus, nous recueillons déjà des informations sur les évolutions du marché
au travers denos sources spécialisées et généralistes. Les agrégateurs comme Google
News font notamment apparaître dans les rubriques «Technologies » toutes les
évolutions du marché touchantàunacteur du marchétechnologique.
En conséquence, nous avons décidé de ne pas sélectionner de sources portant uniquement sur le secteur économique. Nous avons estimé que cela nous permettait
de considérablement atténuer l'ampleur du bruit à gérer sans entraîner de silence
gênant.
e) Modes de diffusion
Une typologie suivant les modes de diffusion a été mise en place. Nous en
avons recensés trois: la pageweb classique, la liste diffusion etle flux RSS. Le but de
cette typologie était de savoir si l'outil mis en place pouvaitne pas savoir exploiter
un mode de diffusion ou bien si tous lui étaient nécessaires. Cette information nous
Il en est ressorti que six sites ne mettent pas de flux RSS à disposition du
public. Il s'agit de LT-World1, Langage naturel (LN du CINES)2, CorporaList3,
Terminometro4, l'OESI5, le ministère de la culture (promotion de la langue)6 et la
SIGGEN7.
Parmi ces sites, tous mettent en ligne sur leur page web les informations qui
nous intéressent. Il faut alors mentionner le fait qu'il peutêtre aujourd'hui possible,
grâce à divers outils dontcertains que nousévoquerons plus loin, de créer soi-même
un flux RSS depuis une page web existante. Ce peutêtre une solutionintéressante si
l'on désire prioritairement avoir recours au RSS. Cependant, le mode de mise en
ligne de CorporaList ne permet pas la création de flux RSS à l'aide des outils
existants.
Précisons que si nous ne pouvons obtenir de flux RSS directement depuis le
site web de Corpora, on peut avoir accès à ses informations par messagerie, étant
donné qu'ils'agitd'une liste de diffusiondont lesite web présente les archivesmises
àjour quotidiennement.
Enfin, précisons que Corporaest l'une de nos sources incontournables et qu'à
cetitre on ne peutl'omettreau coursde notreveille.
Dansl'idéal, l'outilqui sera mis enplace ne doitdonc pas uniquement êtreun
lecteur de flux RSS, ildoitégalementpouvoir surveiller les pageswebou les listes de
diffusion. Une veille passant par unlecteur RSS reste toutefois envisageable, soit en
appoint soit en la complétant d'une consultation en ligne de la liste de diffusion
Corpora.
1
http://www.lt-world.org/ (consulté le 1erseptembre 2009)
2
http: / /liste.cines.fr/info/ln (consulté le1er septembre 2009)
3
http://gandalf.aksis.uib.no/corpora/ (consulté le 1erseptembre 2009)
4
http://www.terminometro.info (consulté le 1erseptembre 2009)
5
http://oesi.cervantes.es/ (consulté le1erseptembre 2009)
6
http:/ /www.dglflf.culture.gouv.fr/ (consulté le 1erseptembre 2009)
7
f) Classification
Une classification des sources, jointeenannexe page 67, a été dressée selon les
axes desurveillance préalablement définis, à savoir les produits, les technologies, le
marché et son évolution et les événements. A cela nous avons également ajouté le
critère de la langue et dutype de source, à savoir s'il s'agit d'une source spécialisée
ou généraliste.
On a ainsi pu voir clairement que les sources sont principalement
francophones et anglophones. On peutmême remarquer une nette prédominance de
la langue française. Il faut toutefois la relativiser en raison du fait que certaines
sources, comme celles de l'Union Européenne - sont multilingues et que par
commodité nous avons choisi la langue française. De plus, les listes de diffusion de
Corpora et Linguist, probablement les deux sources les plus riches en informations
parminos sources spécialisées, sontprincipalementanglophones.
Il est apparu également qu'aucune source n'est classée dans un seul axe de
surveillance. Nous l'avons donc noté comme étant un point à considérer lors de
l'évaluation des outils. En effet, si l'outil n'autorise pas l'attribution d'une même
source à plusieurs dossiers alors il ne nous permet pas de classer nos sources selon
nos axesde surveillancesans créer dedoublon.
2. Corpus de test
«
Corpus» et « Evaluation» vont de pair dans les technologies de l'information. En effet, si l'on évalue à l'aide d'une grille - nous aborderons la
questionde la nôtre plus tard- onle fait égalementparrapportàun corpus.
a) Critèresde sélection
Les règlesconcernantl'établissement d'un corpusconnaissent logiquement de
légères variations en fonction de la nature de l'évaluation à mettre en place. Ainsi,
l'évaluation d'une lemmatisation de logiciels n'a pas les mêmes exigences que
l'évaluation de l'usage d'un logiciel de recherche d'informations dans le cadre d'une
Nous précisons donc que l'évaluation menée dans le cadre du stage consiste
en uncomparatif des différentes technologies des outils évalués. Nousenjustifions le
choix dansla seconde partiedecemémoire.
Nous pouvons maintenant nous intéresser aux règles de constitution d'un
corpus correspondant à ce type d'évaluation. Tout d'abord, si l'on veut garantir la
plus grande équité il faut que le corpus soit le même pour tous les outils évalués.
Cela appelle une première question: si certains outils peuvent, par des
fonctionnalités particulières, exploiter des ressources que d'autres concurrents ne
saventpasexploiter, doit-onlessélectionner ?
Nous pensons qu'une évaluation doit, dans la mesure du possible, porter sur
l'intégralité des capacités d'un outil.
À
ce titre, elle doit faire apparaître les pointsforts et les faiblesses des outils, tant au niveau de leurs performances qu'au niveau
de leurs capacités. Il revient toutefois à l'évaluateur de ne pas non plus se laisser
griser par des arguments commerciaux et de savoir ignorercertaines fonctionnalités
qu'il considérerait, après réflexionetargumentation, comme inutiles.
Ensuite, le corpus se doit d'être représentatif. Si nous évaluons un traducteur
dans seize langues, il convient d'établir un corpus comprenant des documents dans
ces seize langues. Le but de notre évaluation étant de permettre une prise de
décision, il lui est nécessaire d'être à l'image d'une utilisation quotidienne. Elle ne
doit pas pouvoir être taxée de s'être déroulée dans un cadre uniquement théorique,
elle doit rendre compted'une utilisationpratique.
b) Sélection
Dans laconfiguration d'une « évaluation idéale », nous pourrions imaginer la
conception d'une série de sites web nous servantcomme corpus. Nous contrôlerions
alors l'intégralité de l'évaluation. Celanous permettrait, entre autres, d'avoir le choix
des différentes technologies utilisées sur les sites web - entendre ici les protocoles et
les langages de programmationcommel'ajax ou lejavascript-etde pouvoirélaborer
des « scénarios» - une page web devenant inaccessible ou dont le contenu serait
L'INISTa eu comme projet de mettre à disposition du public un«crash site »
dans le cadre du projet « Analyse comparative des outils de veille »1. Il s'agit d'une
démarche sensiblement semblable à celle de la mise à disposition de «kits
d'évaluation», fruits de campagnes d'évaluation et dont l'objectif de leur mise à
disposition est de permettre à d'autres d'effectuer leur propre évaluation2.
Malheureusement, le projetsemble avoir été suspendu si ce n'estarrêté avant que le
crashsite ait été mis enligne.
En raison du manque de temps pour la conception de sites web spécialement
dédiés à notre évaluation et de l'absence de «kit d'évaluation» disponible, nous
avonsdécidé d'élaborernotrecorpus d'évaluation d'après lessitesweb identifiés lors
du sourcing.
Nous avons dirigé notre choix selon le critère de représentativité
préalablement évoqué. Cela nous a conduit à sélectionner CorporaList car il s'agit
d'une liste de diffusion quin'estpas accessible en flux RSS. Il importaitdonc de voir
dans quelle mesure les différents outils pouvaient l'exploiter. Toutefois, cette
sélection dans notre corpus n'exclut pas d'office la sélection de lecteurs RSS pour
notre évaluation. S'il est préférable que l'outil sélectionné au final sache exploiter
Corpora, il n'est pas non plus exigé que l'intégralité de la veille à mettre en place
passe par un outil. Ainsi, la consultation de manière traditionnelle de Corpora
commeappoint àuneveille parRSSestenvisageable.
Le deuxième site sélectionné est LT-World, en raison de son importance dans
le domaine, du fait qu'il ne propose pas de flux RSS et que, de surcroît, il recourt à
une navigationpar «cadres ». Les « cadres » - ou« frames » en anglais- sont connus
pour causeruncertain nombre de problèmes aux crawlersnotamment-ce quiesten
partielaraison de leur désaffection- ettendentà disparaître. Toutefois,certains sites
1 Le site web du
projet est disponible à cette url : http://outils.veille.inist.fr/
(consulté le 6 mai2009)
2
Stéphane Chaudiron, Khalid Choukri. « L'évaluation :fondements, processus
et résultats » in L'évaluation des technologies de traitement de la langue. Hermès, Paris,
web persistent donc à les utiliser, ce qui nous conduit à nous intéresser au
comportementdes différents outils aveceux.
Nous avons ensuite choisi la liste Linguist car elle est accessible à la fois par
un site qui n'a pas recours aux cadres et par des flux RSS. L'intérêt est alors de
pouvoir observer la manière dont les outils peuventexploiter la technologie du RSS
et de pouvoir comparer la surveillance d'une pageweb par rapport à la surveillance
du flux RSS d'unemêmeliste de diffusion.
Enfin, nous avons sélectionné Google News car il s'agit d'un agrégateur de
pressegénéraliste quiestaussiaccessible par flux RSS. Nous pouvons doncavoir une
idée du bruit qu'il peut générer utilisé de manière « brute ». De plus, le flux RSS de
Linguist se cantonne à afficher le titre de la page ainsi que sa date de publication
alors que Google News joint une image, le début de l'article ainsi que le nom de sa
source et quelques liens ayantun rapport avec l'article. Il s'agit donc d'un flux RSS
plus « complet», qui en exploite davantage les capacités. Il nous permet ainsi
d'évaluer plusen profondeur lescapacitésdes outilsavec latechnologie RSS
c) Limites
Notre corpus a été composé en vue de l'évaluation d'outils de surveillance,ce
quiexplique le fait qu'il soit uniquement constituéde sites web. Nousavons éliminé
d'emblée l'évaluation d'outils de fouille detexte.
En effet, pour trois de ses quatre axes de surveillances la veille doit se
concentrer sur les éléments factuels contenus dans les actualités des différentes
sources identifiées. Or, l'objet de ces actualités apparaît le plus souvent dans le titre
même de l'article et soncontenu fait rarementplus de 500 mots. Il ne nous est donc
pasnécessaire d'utiliserun outil de fouille de textes pourenextraire les élémentsqui
nousintéressent.
S'il reste un dernier axe de surveillance, celui des technologies, pour lequel le
recours à un outil de fouille de textes pourrait être utile afin d'en identifier les
signaux faibles, il n'est pas pour autant indispensable. Le veilleur peut très bien
opérer cetravail par lui-même. Il peut, au fil desa veille età la lecture des actualités,
Enfin, une évaluation des outils de fouille de textes enplus de celle des outils
de surveillance aurait nécessité un surcoût en temps très important. Nous avons
donc préféré écarter ce volet dispensable afin de nous assurer de mener notre
III. Recensement et
typologie
A. Questionspréliminaires
1. Outils de veille : définitionet spécificités
Avant de commencer le recensement et l'évaluation, il nous est nécessaire
d'effectuer une réflexion sur l'expression même « outils de veille ». Afin d'éviter
toute méprise, ilconvientd'enôter toute ambiguïté.
A l'image des « outils bureautiques », les « outils de veille » ne se définissent
pas parleurs fonctionnalités maisparleur utilisation. Ainsi, c'estune désignationpar
l'usage qui englobe une série de différents logiciels qui, eux, pourront être désignés
par leurs fonctionnalités. Nous pouvons à nouveau illustrer cela avec l'exemple de
l'expression «outils bureautiques » qui désigne, entre autres, les logiciels de
traitement detexte etlestableurs.
Cela signifie que si les logiciels que nous allons recenser et évaluer auront
comme point commun principal leur usage, ils pourront avoir diverses
fonctionnalités.
Enconséquenceet avantd'aller plus loin,nous devons clairementexpliciter ce
que nous entendons par le terme «veille » que nous avons déjà utilisé à plusieurs
reprises. Nous définissons ici la veille comme une pratique visant à surveiller un
environnement - qui peutêtre aussi bien économique
que technologique ou social
-afin de collecter, sélectionner et d'analyser les informations utiles à un organisme,
notamment par la détection ou l'anticipation des changements de l'environnement
surveillé.
Un outil de veille est donc un logiciel se rapportant à ces tâches de
surveillance, de collecte et d'analyse des informations utiles. Cette clarification nous
permetde considérer les difficultés quel'évaluation decesoutils de risque deposer.
Nous pouvons commencer par remarquer que si nous avons levé les
éventuelles ambiguïtés concernant la signification du terme « veille », cela n'a pas
résolu tous les problèmes inhérents à l'expression « outils de veille ». En effet, le fait
de connaître la finalité de l'usagene définitpas de fait le détail des fonctionnalités. Il faut ajouter à cela la question des détournements d'usage, outil peut-il
réellement considéré comme étant « de veille» si on l'utilise pour effectuer de la
veille d'unemanière quin'étaitpasprévuelors de saconception ?
Nous pensons que si un outil peut se révéler être efficace lorsqu'il est utilisé
pour effectuer une veille, alors nous pouvonsle qualifier « d'outil de veille », quand
bienmêmecelane seraitpas sonbutpremier.L'idée estd'obtenirun panorama aussi
large que possible des différentes possibilités de mise en place d'une solution
logicielle de veille. L'identification d'éventuels détournements d'usage pourra
également être l'occasion de soulever des perspectives d'évolutions pour certains
logiciels.
Pour le volet de l'évaluation, c'est la multitude de fonctionnalités que nous
risquons de rencontrer qui peut poser problème. En effet, bien que notre évaluation
porte sur des logiciels dont le principal point commun est l'usage, nous avons
préféré mettre en place une évaluation technologique plutôt qu'une évaluation
d'usage.
Évaluer technologiquement les outils de veille nous demandera donc
probablement d'évaluer des technologies différentes. La question d'une évaluation
globale des outils de veille aux technologies divergentes ou bien d'une série
d'évaluations de chaque type d'outils de veille aux caractéristiques proches apparaît
déjà ici comme étant une question importante et épineuse. Nous la développerons
parlasuite.
2. Évaluationtechniqueou évaluation d'usage ?
Nousjustifions le fait d'avoir opté pour une évaluation prenantla forme d'un
comparatif technique par l'impossibilité que nous avions de mettre en place une
évaluation d'usage pertinente. En effet, une évaluation d'usage n'aurait pu porter
que sur notre propre usage alors que nous ne sommes pas la personne qui sera
chargée de laveilleau final. Ornous pensons qu'une évaluation d'usage, à défautde
pouvoir directement porter sur l'usager concerné, doit se dérouler avec un corpus
d'usagers représentatif. N'ayant à notre disposition qu'un seul usager, nous ne
pouvons prétendre à la représentativité et avons préféré opter pour une évaluation
technologique dont la validité des résultats ne dépendrait pas du nombre de
Nous pouvons cependant mentionner l'évaluation d'usage des outils de veille
tel que nous l'avions envisagé. Elle aurait nécessité la mise en place de métriques
provenant d'une « veille-type » déjà effectuée sur le corpus. Ces métriques auraient été constituées par une liste des informations pertinentes contenues au sein du
corpus d'évaluation. Nous aurions alors pu mesurer l'efficacité de la veille tant au
niveau de sa rapidité que de la quantité d'informations pertinentes identifiées. Le
premier point pourrait être évalué en chronométrant le temps passé par l'usager à
utiliser l'outil avant qu'il estime avoir fini sa veille, identifié toutes les informations
pertinentes. Le second point peut être évalué en se basant sur la métrique classique
qu'est le ratio bruit/silence. On obtiendrait alors un indicateur de temps et un taux
derappelpermettantde sefaire uneidée précise des performances de chaque outil.
Notonségalementque l'absence de contrôle surlecorpus étaitunautre freinà
lamise en place d'une évaluation d'usage. Eneffet, les informationsprovenantd'une
partie tierce, aucune validation de leur pertinence dans le cadre de notre évaluation
n'auraitété possible.
Enfin, pour les mêmes raisons de moyens limités nous n'avons pas pu
procédernon plusà une évaluation technique poussée avec des mesurestelles que le
ratiobruit/silence. Notre évaluationse présente donc sous la forme d'un comparatif
technique.
3. Boîte noire ouboîte transparente?
Toute évaluation se rapportant à la technologie d'un logiciel soulève la
question de procéder à une évaluation de type « boîte noire » ou « boîte
transparente » est inévitable. En quelques mots, l'évaluation « boîte noire » ne
s'intéresse qu'à ce que Ton peut voir, ce que Ton obtient, tandis que l'évaluation
« boîtetransparente
» tientcompte de lamanière dont le logicielfonctionne, procède.
L'avantage d'une évaluation en «boîte transparente » est qu'elle peut
identifier les raisons des disparités au sein des résultats entre les divers outils
évalués. Elle peut ainsi permettre une évaluation plus fine des différentes
technologieset proposer des pistes d'amélioration pour leslogicielstestés. Toutefois,
propriétaires ayant un code source non disponible pour le public, on ne peut
théoriquement pas savoir précisément comment fonctionne ledit logiciel. Effectuer
une évaluation en «boître transparente » requiert alors l'acceptation de la part des
propriétaires des logiciels de donneraccès àce que d'ordinaire ils gardentsecret.
À l'opposé, une évaluation en « boîte noire » a comme avantage le fait d'être
plus simple à mettre en place. Elle ne nécessite pas de connaissances poussées pour
comprendre dans les détails le fonctionnement de chaque technologie. Elle demande
également moins de temps car, ne s'intéressant qu'aux résultats, elle a moins de
donnéesàtraiter.
Ainsi, on peut considérer qu'une évaluation en «boîte transparente » est
préférable dans l'idéal car elle permet de recueillir davantage d'informations. C'est
par contre sa complexité à être mise en place qui n'en fait pas systématiquement le
choixleplus pertinent.
Dans notre cas, il est assez simple de déterminer quel type d'évaluation il
convient de mener. En effet, a présence de logiciels propriétaires à évaluerainsi que
les moyens dont nous disposons nous conduisent logiquement à opter pour une
évaluationen« boîtenoire ».
4. Retoursurinvestissement ?
a) Rôle du ROI dans la veille
Nous devons encore aborder un dernier point: celui du retour sur
investissement, ouROIpour Return On Investment.
Le retour sur investissement est un ratio financier qui consiste à calculer le
rendement d'un investissement. Il s'agit donc de savoir combien on a pu
financièrement gagner ouperdre par rapport à uninvestissement donné, lequelpeut
être aussibien l'achat d'un logiciel que la mise en place d'un projet de recherche et
développement1. Le ROI se calcule donc dans une perspective temporelle. Onva par
1
Digimind.
Évaluer
le retoursurinvestissementd'un logiciel de veille. Livreblanc,juin 2005. Disponible en ligne : http:/ /