• Aucun résultat trouvé

Trouver des informations parmi des centaines de millions de documents

Internet est en passe de devenir le premier réflexe dans un processus de recherche d'information 1.2.1.1.11 Les annuaires et moteurs de recherche

On estime en 2001 le nombre de documents publiées par les entreprises, les chercheurs, les institutions ou les particuliers à 1.300 milliards (ceci comprend en particulier toutes les bases de données) dont 2,5 Milliards accessibles par une recherche sur le Web et s'accroissent de 7 millions par jour dont 85% par des Américains!:

S'il est aisé de trouver un document dont vous connaissez l'adresse et, en suivant les "liens", de naviguer d'un document à l'autre à la recherche d'information, ce type de "navigation" au hasard sur le Web trouve rapidement ses limites:

Une des innovations majeures qui ont concouru au développement du Web sont les "Moteur de Recherche" et les annuaires

Ces outils informatiques puissants et conviviaux, permettent de trier parmi cette masse d'information considérable et il n'est pas exclu de trouver une aiguille dans une botte de foin parmi le millard de documents qu'ils analysent et indexent (par exemple des informations juridiques, technologiques, commerciales,…)

Les recherches se font

 soit à partir de mots présents dans les pages (ou de mots clefs signalés lors du référencement): ce sont les moteurs de recherche travaillant avec de gigantesques bases d'index (certains développent une forme d'intelligence artificielle, les moteurs sémantiques par exemple, et font des recherches sur des "concepts" en les recherchant dans de nombreuses langues)

 soit à partir de classements thématiques (ce sont des annuaires qui font appel à un classement manuel et donc à un jugement qualitatif) Annu@ire-bis www.annuaire-bis.com essaie d'en tenir une liste à jour

Des "métamoteurs" font travailler en parallèle plusieurs moteurs et font une synthèse des résultats

Des "portails" (comme Yahoo!) associent annuaire, moteur de recherche (ils sous-traitent souvent le moteur à des entreprises comme Inktomi ou Google) et offrent de nombreux services

Par ailleurs les logiciels de traduction automatique, quoique encore perfectibles (on devrait plutôt parler d'outils de compréhension voir page 35 ), permettent de ne pas limiter sa recherche aux sites dont on comprend la langue

Ces moteurs sont utilisés plusieurs centaines de millions de fois par jour (RelevantKnowledge, oct 98)

Les plus visités sont de la catégorie "portail" ont pour nom Yahoo! www.yahoo.com, Excite www.excite.com, Infoseek www.infoseek.com, Lycos www.lycos.com, HotBot www.hotbot.com ou Alta Vista www.altavista.com, Dans la catégorie "métamoteurs Parmi les plus connus : MetaCrawler www.metacrawler.com Mega Francité http://mega.francite.com, SavvySearch www.savvysearch.com, Fast Search www.alltheweb.com et surtout Google http://google.com 100 millions de requêtes par jour, qui référence plus d'un milliard de pages et est considéré par beaucoup comme le plus efficace4

Notons également Kartoo, www.kartoo.com, qui présente les résultats de ses recherche sous forme graphique à partir d'une analyse sémantique des sites trouvés, permettant une recherche intuitive, par approximations successives extrêmement intéressante

Pour les moteurs francophones citons, outre les déclinaisons spécialisées des moteurs américains, Voilà www.voilà.fr ou Lokace www.lokace.fr,),

d'autres moteurs plus spécialisés, prenant acte du fait que les moteurs généralistes ont du mal à suivre l'explosion du nombre de sites et n'en référencent plus qu'une partie, permettent de meilleurs résultats dans certains domaines

La recherche d'adresses avec Voilà www.adressemail.voilà.fr Yahoo! Annuaires http://fr.people.yahoo.com Lycos WhoWhere http://french.whowhere.lycos.com,

La recherche d'emploi Keljob.com www.keljob.com La recherche de logiciels avec Filez.com www.filez.com, La recherche d'hébergeur www.abchebergement.com

La gastronomie avec Gourmetsecker www.gourmetsecker.com , EatinParis www.eatinparis.com Le monde agricole Web-agri http://www.Web-agri.com

4 Google est en fait dérivé de « googol », un terme mathématique pour l'équivalent du chiffre 1 suivi de 100 zéros, censé symboliser la formidable exhaustivité du moteur

Ou une région Click'in! Auvergne http://clickin.gdebussac.fr , Nantes www.cybernantes.com ,la façade atlantique www.alouest.net , Breizhoo www.breizhoo.com pour la Bretagne

Certains moteurs permettent également de rechercher de la musique comme http://mp3search.lycos.com ,

Notify http://cs.uni-bonn.de/info5/index-ge.html de Michael Clausen reconnait les morceaux de musique en une fraction de seconde : lorsqu'on lui donne une breve serie de note, le programme parcourt une enorme banque de donnees de plus de 12 000 morceaux et retrouve la melodie recherchee. A l'avenir, le programme devrait meme pouvoir reconnaitre une melodie qui serait chantonnee ou sifflee dans un micro. Frank Kurth, un collaborateur du professeur Clausen, travaille sur une variante de ce appelee "audentify" qui devrait par exemple non seulement reconnaitre un morceau de musique classique comme etant "Les quatre saisons de Vivaldi" mais en plus savoir qu'il s'agit de la version du 15 mars jouee dans la salle Beethoven a Bonn et non pas a la philharmoni de Berlin Source : Herve Loquais, Handelsblatt 7.05.2001

voire même des image ou vidéo avec LTU Technologies (ex-lookthatup) www.ltutech.com (recherche d'objet sur ebay, d'images illicites, Media Finder http://image.altavista.com ou www.compaq.com/speechbot

L'Inria a développé Surfimage qui permet de retrouver les images qui « ressemblent » le plus au modèle proposé www-rocq.inria.fr/cgi-bin/imedia/surfimage.cgi qui sera développé par la start-up Elucid Technologie

Ya-Hooka www.yahooka.com est spécialisé dans le cannabis (le Monde 16/5/00)

pour un panorama complet et à jour sur les moteurs, avec banc d'essai, classement par catégorie,… voir www.lapasserelle.com/sm/formation_veille.html www.abondance.com, www.searchengines.net, www.beaucoup.com, www.search.com, http://searchenginewatch.com http://solutions.journaldunet.com/dossiers/moteurs/sommaire.shtml

de logiciels spécialisés dans l' intelligence économique compétitive permettent, comme nous le verrons plus loin, des recherches beaucoup plus élaborées voir page 152

1.2.1.1.12 La recherche à travers les newsgroup

Par ailleurs il ne faut pas oublier que les newsgroup sont une source de compétences immense pour vous aider dans votre quête :

Deja News www.dejanews.com vous permet de repérer les newsgroup traitant du sujet qui vous intéresse et les internautes qui se sont exprimé dessus

Reference www.reference.com cherche également dans les listes de diffusion

Citons également Voilà News www.news.voilà.fr et AltaVista www.altavista.com (section usenet)

Une fois un internaute identifié vous pouvez connaître la totalité des ses contributions dans les forums (fonction

"author posting history" de Deja News et fonctions équivalentes pour les autres): cette puissance des outils de recherche conduit en général les participants à utiliser des pseudonymes

1.2.1.1.13 La recherche dans les banques de données

L'exploitation des banques de données est maintenant également techniquement possible: des passerelles logicielles permettent d'utiliser l'existant sans surcoûts importants (ce qui ne signifie pas bien entendu que les propriétaires de banques de données permettront pour autant un accès gratuit…)

Lexis-Nexis (filiale de Reed-Elsevier) dispose sur son site de 1,8 Milliards de documents, est le dernier grand site à basculer l'ensemble de ses bases sur le web, depuis trois ans tous ont suivi cette voie afin d'être en mesure de délivrer automatiquement l'information pertinente en fonction des profils d'intérêt des clients (rapport annuel de l'Aftel)

Avec le nouveau standard XML les messages intégreront une description de la structure de la base, permettant ainsi un accès direct aux informations

Ces banques, très nombreuses nécessitant des abonnements et posant des problèmes de propriété intellectuelle, des intermédiairessont apparus (Qwam www.qwam.com qui recence 25.000 bases accessibles seulement sur abonnement, Screaming media http://www.screamingmedia.com,…), qui vous permettent un accès simple par un abonnement unique à toutes ces ressources (le "web invisible")

1.2.1.1.14 Le stockage des informations

"notre civilisation a produit plus d'informations en 30 ans que pendant les 5000 années précédentes. Et le phénomène va se reproduire dans les 3 années à venir" Jacques Péping, les Echos Janvier 2001

Selon une étude de l'université de Berkeley les documents imprimés ne représenteraient plus que 0,003% du total des informations produites dans le monde

Les disques durs des ordinateurs voient leur capacité doubler tous les 9 mois, des entreprises comme EMC ou Network Appliance offrent un hébergement dans des "fermes de données" (data farms) pour les entreprises et la mise en réseau de milliers d'ordinateurs (data grids) permet d'offrir à bon compte des capacités de stockage considérables

Le simple stockage représente aujourd'hui près de 40% des budgets informatiques

Après le Kilooctet (Ko=mille octets), le Mégaoctet (Mo=million d'octets) et le Gigaoctet (Go=milliard d'octets) qui sont quasiment rentrés dans le vocabulaire courrant, il va falloir apprendre à utiliser le Téraoctet (To=mille milliard d'octets), le Pétaoctet (Po=million de milliard) d'octets, l'Exaoctet (Eo=milliard de milliard d'octets), le Zettaoctet (Zo=mille milliard de milliard d'octets) et le Yottaoctet (Yo=million de milliard de milliard d'octets). Ensuite il faudra inventer de nouveaux préfixes…. D'après l'université de Berkeley, tous les mots prononcés depuis le début de l'humanité représenteraient 5Eo www.sims.berkeley.edu/how-much-info

1.2.1.1.15 La reconnaissance vocale

La reconnaissance vocale qui a fait des progrès considérables permet de dicter directement les e-mails ou des rapports (c'est le cas d'ailleurs du présent rapport)

Elle s'impose pour des raisons d'ergonomie pour les usages nomades et pour des raisons de sécurité pour les utilisations par un conducteur

Un nouveau standard est en cours d'élaboration VoiceXML pour la navigation vocale

Les leaders de la dictée vocale sont Via Voice d'IBM www.software.ibm.com/speech et Lernout&Hauspie www.lhsl.com qui contrôle Dragon Dictate, www.dragonsys.com. L&H projette par ailleurs lancer un moteur de recherche vocal. (l'entreprise connaît aujourd'hui de graves difficulté par suite de malversations de ses dirigeants:

cela ne devrait pas mettre en cause la technologie)

Nuances www.nuance.com , système multilocuteur de reconnaissance qui permet de prendre les ordres de bourse par téléphone www.voxml.com et SpeechWorks www.speechworks.com sont les leaders de leur domaine

Telisma www.telisma.com né en 2000 d'un transfert de technologie du Cnet se focalise sur le secteur des télécom (alternative au clavier du téléphone): objectif, 15 langues en 2003 il a développé un moteur de reconnaissance vocale, PhilSoft, capables de gérer entre 50 et 10 000 mots de vocabulaire. Il peut effectuer une vérification biométrique du locuteur. En utilisant le standard de description de données vocales VoiceXML. il permet un accès Web depuis un téléphone portable (accès vocal aux intranets pour les commerciaux en déplacement par exemple) et la start-up nordiste Interactive Speech www.interactivespeech.com s'est spécialisée dans la navigation vocale, incontournable pour les applications nomades

Pour un panorama général de ces technologies: www.speachcentral.com et www.voicerecognition.com Vous pouvez même envoyer un e-mail à un téléphone mobile par numéro@sms.itineris.tm.fr

"de deux choses l'une, ou bien la banalisation des téléphones cellulaires génère un immense marché pour les cure-dents, ou ce sont les technologies vocales qui vont s'imposer" Jo Lernout

1.2.1.1.16 La synthèse vocale

C'est un marché en plein développement pour les centres d’appel, les systèmes vocaux, les jeux vidéo, les mal-voyants, l'automobile et de façon générale les usages où le regard ne doit pas être distrait

Des analystes prévoient que le marché des logiciels de « texte-à-voix » atteindra un milliard de dollars sur les cinq prochaines années

Elan Informatique, www.elan.fr l'entreprise Toulousaine qui figurait parmi les leaders de la synthèse vocale a été racheté par Lernout&Hauspie

Les laboratoires d’ATT commercialisent depuis mi 2001 un logiciel permettant une synthèse vocale reproduisant avec une grande fidélité votre propre voix (il faut à la machine une trentaine d'heure d'apprentissage pour bien assimiler vos tics verbaux et créer la base de donnée nécessaire). ATT souligne que les phrases synthétisées s’approchant du cas réel posent des problèmes de droits sur les voix, notamment celles des célébrités. Une démonstration est disponible sur www.naturalvoices.att.com

1.2.1.1.17 La traduction automatique

Signalons également le développement de logiciels de traduction automatique : même si l'on ne peut, dans l'état de l'art actuel, attendre d'eux des traductions de qualité (il n'est que de se souvenir des gorges chaudes qu'avait provoquée la traduction du rapport Star), par contre on obtient des traductions acceptables de textes techniques simples et l'on dispose d'assez d'éléments sur les autres pour en avoir une compréhension grossière : cela permet de ne faire traduire que les textes qui en valent véritablement la peine (économie de 70 à 90 % des traductions)

C'est un domaine où la France est bien placée avec un des leaders du secteur Systran www.systransoft.com qui est utilisable gratuitement à travers la fonction babelfish du moteur Alta Vista www.altavista.com .(1 million de traductions par jour) notons également le québécois www.alis.com

NEC lance un nouveau système de traduction en 8 langues dont le Japonais, le coréen et le chinois 1.2.1.1.18 La reconnaissance de l'écriture manuscrite

Déjà le palm permet une première forme de reconnaissance lettre par lettre avec sa tablette mais des logiciels comme REMUS permet à la fois d'identifier celui qui écrit et de reconnaitre les mots. Il peut être utilisé également pour aider les enfants à apprendre à écrire http://www-eph.int-evry.fr

1.2.1.1.19 L'exploitation des flux d'information

Toute action sur l'internet laisse des traces qui peuvent être exploitées : analyse des connections à votre site (fichier des "logs", exploitation des programmes "espions" que vous avez placé sur les ordinateurs de vos visiteurs,

"spyware" dont les plus connus (et les moins criticables) sont les cookies

Des scanners ou sniffers permettent en outre par l'analyse des requêtes émises sur le réseau, de suivre l'activité d'autres acteurs du net: c'est un puissant outil d'intelligence économique dont l'usage est à la limite de la déontologie mais qu'il vaut mieux connaître pour savoir en tenir compte

Des logiciels permettant de traiter des masses considérables de données permettent d'exploiter ces informations Il n'échappera à personne que ceci pose des problèmes éthiques et juridiques voir page 113 et 263

1.2.1.2 Se procurer des produits et services sur le web

1.2.1.2.1 Le téléchargement de programmes informatiques, de données, d'images, de sons, de vidéo... : C'est une des pratiques les plus courantes: d'innombrables logiciels, jeux ou morceaux de musique, gratuits ou payants peuvent être directement téléchargés du web vers votre ordinateur

Le 1er octobre 1997 1 million de personnes ont téléchargé le nouveau navigateur Explorer 4 de Microsoft et en 3 jours les internautes ont téléchargé 2,7 milliards de pages du rapport Starr

En ce qui concerne la musique, grâce au format MP3 offrant une qualité "CD" pour un volume très limité, des entreprises Morpheus, KaZaA et Grokster qui utilisent le réseau FastTrack ont permis l'échange de 1,5 milliards de chansons et de films sur le seul mois d'août 2001. http://news.cnet.com/news/0-1005-200-7389552.html?tag=nbs 1.2.1.2.2 Faire ses courses sur internet, des magasins ouverts 24/7 payer en ligne ou entre particuliers

Voyage, Voiture, locomotive, actions, contrat d'assurance, centrales nucléaires, chaussure d'occasion …:

magasins en ligne, ventes aux enchères, places de marché, troc,.. on peut tout acheter sur internet:

Il est également possible de payer et de gérer ses finances

Un gros avantage: une disponibilité 24h sur 24, et 7 jours sur 7, ce que les anglosaxons dans leur style compact appellent le 24/7 nous verrons cela en détail dans les chapitres suivants

1.2.1.2.3 Accomplir les formalités administratives

De plus en plus d'administrations nationales ou locales offrent la possibilité non seulement d'accéder à l'information mais aussi de payer ses impots et d'accomplir les innombrables démarches administratives qui nous incombent (cela devrait être particulièrement précieux pour notre Pays que l'OCDE a classé début 2000 en tête des 20 pays membres sur le plan de la richesse en formalités administratives)

Pour l'anecdote mentionnons en Angleterre le "Pack Divorce", mis en place fin 99, en liaison avec la Chancellerie par le cabinet d'avocat en ligne Desktop Lawyer www.desktop-lawyer.co.uk et qui permet en cas de consentement mutuel de divorcer pour 59 £. Par contre le tribunal du Caire a jugé irrecevable une notification de répudiation envoyée par Internet (le Monde du 6/6/2000)

Au Koweït Khaled al-Mathkour, président du Haut-Comité koweïtien pour l'Application de la Charia déclarait en juillet 2001 qu'un texto ou un e-mail étaient "suffisants pour reconnaître le divorce" il ne précisait pas toutefois s'il fallait envoyer le mail trois fois de suite comme celà est prévu dans les textes.Internet Actu 16/7/2001

1.2.1.3 Publier de l'information accessible du monde entier

L'Internet permet à des associations, des PME ou même des individus avec des moyens (financiers) limités, d'avoir une présence significative au niveau mondial. Pour le meilleur comme pour le pire

La guerre du Kosovo outre les attaques des sites de l'OTAN par les Serbes , l'inscription de graffitis vengeurs par les Chinois sur le site de la Maison blanche ou les attaques par la CIA sur les comptes bancaires des dirigeants serbes, montre la puissance qu'a acquise ce moyen de communication. Celui-ci a permis en outre à de simples citoyens de diffuser au monde entier des informations qui ne sont pas sans importance géopolitique, il s’est révélé en outre un outil extrêmement précieux pour le regroupement des familles dispersées par le conflit et la collecte de fonds par la Croix Rouge (170.000F).

Rappelons également que l'affaire Lewinsky a été révélée par le journaliste indépendant Matt Drudge et son Webzine d'information Drudge Report www.drudgereport.com (qui diffuse de l'information "vraie à 80%) avec les conséquences que l'on sait, alors que la presse sérieuse avait décidé de ne pas traiter l'affaire

Inversement Salon un magazine exclusivement diffusé sur le web www.salonmagazine.com a fait fortune (6M$ de revenus publicitaires en 1997) en prenant la défense du président…en livrant des révélations croustillantes sur ses adversaires

Dans le domaine du commerce électronique, il offre à l'entreprise la possibilité de publier de l'informations sur l'entreprise et ses produits, de pratiquer la vente en ligne et le paiement en ligne et à l'inverse la recherche de fournisseurs ou de partenaires nouveaux.

L'amélioration considérable de la performance des logiciels de reconnaissance optique (OCR) permet de reprendre les documents d'archives pour les rendre disponibles sur Internet.

Il est également possible de publier les d'appels d'offres, d'expédier les bons de commande, les factures, et les règlements,...d'interconnecter les systèmes informatiques des partenaires commerciaux et de faciliter ainsi les échanges inter-entreprises (Business to Business ou B to B ou B2B par opposition à la vente au grand public : B to C ou B2C (Business to consumer) ou le « commerce » avec les administrations : B to A. ou B2A).

Notons également la possibilité "d'affichage publicitaire" sur des sites web 1.2.1.4 Travailler ensemble malgré les distances

1.2.1.4.1 Partager des documents

Cela est particulièrement important quand les équipes sont géographiquement dispersées: (plans, résultats de mesures, base de données, fichiers CAO, agendas, carnets d'adresse,…), mais aussi tout simplement quand il est nécessaire aux membres de l'équipe de travailler sur les mêmes documents.

C'est notamment le cas de la conduite de projet inter ou intra-entreprises (groupware): n'oublions pas qu'en économie les distances se mesurent en secondes et en euros plus qu'en Km.

C'est également particulièrement précieux dans le domaine médical: il est ainsi possible de faire appel aux meilleurs spécialistes quelle que soit la localisation du malade (consultation sur une radio, soin de malades en mer,

…)

Jusqu'a présent, l'hôpital de l'île de Martha's Vineyard, dans la région de Boston ne pouvait pas traiter efficacement les victimes d'attaques cérébrales. Aujourd'hui, les médecins de cet hôpital, après avoir soumis le patient a un scanner peuvent consulter un des spécialistes du Massachusetts General Hospital via la télétransmission des images d'une camera vidéo. 15 personnes ont déjà bénéficie de cette téléconsultation. Ce systeme devrait être étendu a tous les hopitaux de proximite du Massachusetts. BG 10/07

Jusqu'a présent, l'hôpital de l'île de Martha's Vineyard, dans la région de Boston ne pouvait pas traiter efficacement les victimes d'attaques cérébrales. Aujourd'hui, les médecins de cet hôpital, après avoir soumis le patient a un scanner peuvent consulter un des spécialistes du Massachusetts General Hospital via la télétransmission des images d'une camera vidéo. 15 personnes ont déjà bénéficie de cette téléconsultation. Ce systeme devrait être étendu a tous les hopitaux de proximite du Massachusetts. BG 10/07