Statut Logiciel gratuit, sous license GPL Communauté d’utilisateurs Importante (université de Laval, …)
Quelques sites de référence utilisant le même moteur avec robot d'indexation :
- Université de Laval Canada - Conseil du Trésor du Canada
- La bibliothèque de l'Université de Berkeley - Direction de la Documentation Française...
Nature Moteur de recherche
Caractéristiques
fonctionnelles Le « Moteur Automatisé de Recherche et de Classement Électronique des Liens » permet d’indexer, de référencer et de rechercher les ressources sur des sites internet présélectionnés.
Il est totalement paramétrable car le code est Open Source.
Caractéristiques
techniques Basé sur Swish-e (Simple Web Indexing System for Humans – Enhanced) Système Windows ou Linux
Travail en ligne de commande et par interface Perl.
Url de téléchargement http://swish-e.org/
Url de documentation http://swish-e.org/
Url du moteur MARCEL www.moteurmarcel.fr
Installation, paramétrage, tests
Niveau installateur Ingénieur expérimenté
Temps d’installation 3 jours (serveur linux, logiciel, site web)
Temps de paramétrage 30 jours pour 57 sites de l’UMVF
Programmation externe 20 jours de programmation pour les utilitaires complémentaires (mise en base de données, exploitation, mise en forme)
Rédaction 1 jour
Installation
Veille Moteur M.A.R.C.E.L.
CISMEF
Canal U Médecine
Campus Anatomie Pathologique Campus Biologie Cellulaire Campus Microbiologie Campus Cancérologie
Campus de Chirurgie Maxillo-faciale et Stomatologie Campus Histologie
Campus Gériatrie
Campus Hepato-Gastro-Entérologie
Campus Médecine et Chirurugie vasculaire Campus Dermatologie
Campus Gynécologie Campus Hematologie
Campus Médecine du Travail Campus Neurochirurgie Campus Neurologie Campus Nutrition
Campus Ophtalmologie Campus ORL
Collège Français des Enseignants ORL et CCF Campus Parasitologie-Mycologie
Campus Pédiatrie et Chirurgie Pédiatrique Campus Réanimation
Campus Rhumatologie Campus Urologie
Campus Numérique Francophone de Tunis Urgences online
Staticmed
Université Claude Bernard - Lyon Université Virtuelle Paris 5
Université Virtuelle de Médecine du travail Université Paris VI
Faculté de Médecine de Besançon Besancon-Cardio
Université de Grenoble Université Rennes 1 Université de Angers Université de Brest Université de Limoges
Faculté de Médecine Amiens Oncoranet
Faculté de Médecine de Caen
Faculté de Médecine de Clermont-Ferrand Faculté de Médecine de Dijon
Faculté Libre de Médecine de Lille Faculté de Médecine de Lille2 Faculté de Médecine de Marseille Faculté de Médecine de Montpellier Faculté de Médecine de Nancy
Faculté de Médecine Paris XI Kremlin Bicetre Faculté de Médecine Paris XIII
Faculté de Médecine Paris Ouest Faculté de Médecine de Reims Faculté de Médecine de Rennes 1 Faculté de Médecine de Strasbourg Conférence Hippocrate
Liste des sites paramétrés dans le moteur MARCEL
Mode opératoire
Nous avons réalisé le moteur MARCEL sous système Linux Debian.
1. Installation de base
Installation d’une configuration Linux Debian Installation d’Apache 2
Installation php5
Installation swish-e : suivre la procédure fournie par « l’installateur de paquetage » de linux Installation kcron : suivre la procédure fournie par « l’installateur de paquetage » de linux
Installation des modules de conversion qui permettent en théorie d’indexer tout ce qui peut l’être : htlm, php, asp, doc, txt, pdf, ppt… : suivre la procédure fournie (exemple : xpdf pour pdf)
Cette installation ne se fait qu’une fois
Installation
Veille Moteur M.A.R.C.E.L.
2. Paramétrage
Pour chacun des sites à indexer, sont créés trois fichiers de configuration : - site.conf
- site.config
- Fichier autoexecutable à utiliser avec kcron pour automatiser le lancement de l’indexation selon le rythme choisi pour chaque site.
Ces fichiers sont regroupés dans des répertoires distincts.
Exemple des répertoires contenants les fichiers site.conf et site.config
1. FICHIER SITE.CONF : pour chaque site à indexer
IndexDir spider.pl
IndexName “Nom du site"
IndexDescription “Description du site"
IndexFile /var/www/site/index/nomdelindex.idx
FilterDir /usr/local/share/doc/swish-e/examples/prog-bin/
SwishProgParameters site.config Metanames swishtitle swishdocpath FileFilter .doc /usr/bin/catdoc
FileFilterMatch .ppt "/usr/bin/ppthtml" "'%p'"
IndexReport 4
StoreDescription TXT* 10000
StoreDescription HTML* <body> 10000
Installation
Veille Moteur M.A.R.C.E.L.
2. FICHIER SITE.CONFIG : pour chaque site à indexer
my ($filter_sub, $response_sub) = swish_filter();
@servers = ( {
base_url => 'http://www.adressedusite.com/', email => 'robot@marcel.com',
use_default_config => 1, max_depth => 5,
test_response => $response_sub,
use_head_requests => 1, # Due to the response sub filter_content => $filter_sub,
});
Installation
Veille Moteur M.A.R.C.E.L.
3. Création d’un fichier AUTOEXECUTABLE pour lancer l’indexation automatiquement avec kcron : Cet auto-executable permettra le lancement automatique de site.config, x fois par jour ou par mois, en
fonction du taux de renouvellement des ressources et de contrôle des liens cassés.
4. Utilisation des données par l’UMVF
Plusieurs milliers de ressources ont été obtenues sur les sites facultaires de médecine par le technicien de l’UMVF en se servant du moteur.
Ces données ont été transférées à Rouen.
Cela a supposé des programmes complémentaires concernant : - l’extraction des données d’une recherche avec le moteur
- l’importation de ces données dans une base de données MySQL - la réalisation d’une console d’administration de la base de donnée
A partir de cette console, il est possible de trier, rajouter des informations, supprimer des données, …
Ce logiciel propriétaire Php a été développé pour l’umvf (20 jours). Il est couplé à une banque de données MySql. Cet ensemble a été installé sur le serveur Marcel.
Items de la base de données :
Titre Url(s) Auteur(s) Site éditeur Contenu Langue(s) Pays/Ville
Professionnnels Etudiants : - Cycle(s)2; 3;
- Annee(s)Externat, Résidanat et Internat de Médecine;
- Diplome(s);
- Module(s)Toutes spécialités médicales;
Discipline(s) Mot(s) clé(s)
Type(s) de ressource Tarif
Accès Format(s)
Date de création (ou révision majeure) Date de mise à jour
Logiciels complémentaires
On recueille donc autant de fichiers index - que de robots
- que de sites explorés
Ces fichiers index sont hébergés sur le serveur.
Environ 150 Mo sont nécessaires pour une trentaine de sites.
Veille Moteur M.A.R.C.E.L. Exploitation
Le robot, après avoir indexé le serveur de documents de
Rennes1,
a référencé 394291
mots en 1mn31 !
www.moteurmarcel.fr
Veille Moteur M.A.R.C.E.L. Exploitation
Page type de résultats
terme « médecine » : - 1887 réponses
- 0.009 secondes de recherche sur le serveur
- 0.635 secondes pour ramener le résultat au demandeur
* test réalisé sur un ordinateur portable connecté par wifi à une connexion ADSL 10Mo
Un résultat parmi d’autres
Commentaires – intérêt pour l’umvf
Intérêt majeur : Maîtrise complète d’une solution d’indexation et de recherche, dont l’UMVF est entièrement propriétaire.
1) Technologie de moteur de recherche maîtrisée de A à Z par l’UMVF.
2) Possibilité de programmer les robots finement (on peut demander au robot de n’indexer qu’une partie d’un site, alors que nous ne maîtrisons pas les robots d’indexation dans des solutions type Google Custom Search Engine.
3) Sensibilité et Spécificité très importante des réponses (réglable).
4) Moteur puissant, fiable, évolutif en fonction des besoins et de la programmation des robots.
5) Interface entièrement paramétrable.
6)Critères de classement des résultats paramétrable : création d’un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».
7) Indexation individualisée pour chaque site. Possibilité de créer des groupes de recherche (par faculté, par campus, par thème par exemple).
Veille Moteur M.A.R.C.E.L.
Annexes techniques
Fichier de
configuration d’un robot d’indexation.
A noter ici la possibilité de
demander au robot d’explorer certaines adresses à des
niveaux plus ou moins profonds.
Veille Moteur M.A.R.C.E.L. Annexes
Fichier de configuration d’un robot.
A noter la possibilité
d’ignorer ou de référencer
certains types de documents.
Un robot en train d’indexer le campus de Rhumatologie à Lilles
Veille Moteur M.A.R.C.E.L. Annexes
Le robot après avoir indexé le serveur de documents de Rennes1.
A noter qu’il a référencé
394291 mots en 1mn31 !
Fréquence des mises à jour
• Une mise à jour complète prend moins de deux heures
• Possibilité d’élaborer un script - pour une mise à jour automatique
- pour une mise à jour en fonction de l’arrivée de nouvelles informations
• Possibilité d’indexer tout en permettant les recherches simultanément
• Le système « butine » l’ensemble de l’UMVF, ce qu’aucun humain ne peut faire aussi rapidement et régulièrement.
Veille Moteur M.A.R.C.E.L. Annexes
Tri de l’information (1)
• Algorythme modifiable
• Actuellement :
- fréquence d’apparition du mot dans le texte - RANK_TITLE 7
- RANK_HEADER 5 - RANK_META 3
- RANK_COMMENTS 1
• META : SCORM +++
<html>
<head>
<title>UMVF : Université Médicale Virtuelle Francophone</title>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="keywords" content="UMVF, université, universite, médicale, medicale, virtuelle, francophone, université médicale, universite medicale, université médicale virtuelle, universite medicale virtuelle, université médicale virtuelle francophone, universite medicale virtuelle
francophone, examen classant national, ECN, formation médicale, formation medicale, formation médicale continue, formation medicale continue, campus numérique, campus numerique,
ressources numériques, ressources numeriques, campus virtuel, campus médical, campus medical, enseignement médical, enseignement medical">
<meta name="description" lang="fr" content="UMVF, Université Médicale Virtuelle Francophone, utilise les outils numériques pour la formation initiale, tournée vers l’Examen Classant National, ou continue des professionnels de santé.">
<meta name="robots" content="all">
………
• Possibilité simple de retrouver facilement l’information : RENSEIGNER LE TITRE +++
<title>Faculté , Titre du document, Module… </title>
• Possibilité plus complexe : Utiliser des metas
<meta name="auteur" content=“Spector" />
<meta name=“SCORM" content=“123-234" />
• Adhésion des webmestres +++
Veille Moteur M.A.R.C.E.L.
Tri de l’information (2)
Tri de l’information (3)
Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».
Le moteur de recherche de l’UMVF serait assez similaire à Google !!!
Tri de l’information (4)
Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».
Le moteur de recherche de l’UMVF serait assez similaire à Google !!!
On peut également créer un script qui classe les documents en fonction de l’intérêt signalé par les utilisateurs de l’adaptation d’une ressource à leurs besoins (de 1 à 4 étoiles).