• Aucun résultat trouvé

Système Windows ou LinuxTravail en ligne de commande et par interface Perl.Url de téléchargementhttp://swish-e.org/Url de documentationhttp://swish-e.org/Url du moteur MARCELwww.moteurmarcel.fr

N/A
N/A
Protected

Academic year: 2022

Partager "Système Windows ou LinuxTravail en ligne de commande et par interface Perl.Url de téléchargementhttp://swish-e.org/Url de documentationhttp://swish-e.org/Url du moteur MARCELwww.moteurmarcel.fr"

Copied!
22
0
0

Texte intégral

(1)

Statut Logiciel gratuit, sous license GPL Communauté d’utilisateurs Importante (université de Laval, …)

Quelques sites de référence utilisant le même moteur avec robot d'indexation :

- Université de Laval Canada - Conseil du Trésor du Canada

- La bibliothèque de l'Université de Berkeley - Direction de la Documentation Française...

Nature Moteur de recherche

Caractéristiques

fonctionnelles Le « Moteur Automatisé de Recherche et de Classement Électronique des Liens » permet d’indexer, de référencer et de rechercher les ressources sur des sites internet présélectionnés.

Il est totalement paramétrable car le code est Open Source.

Caractéristiques

techniques Basé sur Swish-e (Simple Web Indexing System for Humans – Enhanced) Système Windows ou Linux

Travail en ligne de commande et par interface Perl.

Url de téléchargement http://swish-e.org/

Url de documentation http://swish-e.org/

Url du moteur MARCEL www.moteurmarcel.fr

(2)

Installation, paramétrage, tests

Niveau installateur Ingénieur expérimenté

Temps d’installation 3 jours (serveur linux, logiciel, site web)

Temps de paramétrage 30 jours pour 57 sites de l’UMVF

Programmation externe 20 jours de programmation pour les utilitaires complémentaires (mise en base de données, exploitation, mise en forme)

Rédaction 1 jour

Installation

Veille Moteur M.A.R.C.E.L.

(3)

CISMEF

Canal U Médecine

Campus Anatomie Pathologique Campus Biologie Cellulaire Campus Microbiologie Campus Cancérologie

Campus de Chirurgie Maxillo-faciale et Stomatologie Campus Histologie

Campus Gériatrie

Campus Hepato-Gastro-Entérologie

Campus Médecine et Chirurugie vasculaire Campus Dermatologie

Campus Gynécologie Campus Hematologie

Campus Médecine du Travail Campus Neurochirurgie Campus Neurologie Campus Nutrition

Campus Ophtalmologie Campus ORL

Collège Français des Enseignants ORL et CCF Campus Parasitologie-Mycologie

Campus Pédiatrie et Chirurgie Pédiatrique Campus Réanimation

Campus Rhumatologie Campus Urologie

Campus Numérique Francophone de Tunis Urgences online

Staticmed

Université Claude Bernard - Lyon Université Virtuelle Paris 5

Université Virtuelle de Médecine du travail Université Paris VI

Faculté de Médecine de Besançon Besancon-Cardio

Université de Grenoble Université Rennes 1 Université de Angers Université de Brest Université de Limoges

Faculté de Médecine Amiens Oncoranet

Faculté de Médecine de Caen

Faculté de Médecine de Clermont-Ferrand Faculté de Médecine de Dijon

Faculté Libre de Médecine de Lille Faculté de Médecine de Lille2 Faculté de Médecine de Marseille Faculté de Médecine de Montpellier Faculté de Médecine de Nancy

Faculté de Médecine Paris XI Kremlin Bicetre Faculté de Médecine Paris XIII

Faculté de Médecine Paris Ouest Faculté de Médecine de Reims Faculté de Médecine de Rennes 1 Faculté de Médecine de Strasbourg Conférence Hippocrate

Liste des sites paramétrés dans le moteur MARCEL

(4)

Mode opératoire

Nous avons réalisé le moteur MARCEL sous système Linux Debian.

1. Installation de base

Installation d’une configuration Linux Debian Installation d’Apache 2

Installation php5

Installation swish-e : suivre la procédure fournie par « l’installateur de paquetage » de linux Installation kcron : suivre la procédure fournie par « l’installateur de paquetage » de linux  

Installation des modules de conversion qui permettent en théorie d’indexer tout ce qui peut l’être : htlm, php, asp, doc, txt, pdf, ppt… : suivre la procédure fournie (exemple : xpdf pour pdf)

Cette installation ne se fait qu’une fois

Installation

Veille Moteur M.A.R.C.E.L.

(5)

2. Paramétrage

Pour chacun des sites à indexer, sont créés trois fichiers de configuration : - site.conf

- site.config

- Fichier autoexecutable à utiliser avec kcron pour automatiser le lancement de l’indexation selon le rythme choisi pour chaque site.

Ces fichiers sont regroupés dans des répertoires distincts.

Exemple des répertoires contenants les fichiers site.conf et site.config

(6)

1. FICHIER SITE.CONF : pour chaque site à indexer

IndexDir spider.pl

IndexName “Nom du site"

IndexDescription “Description du site"

IndexFile /var/www/site/index/nomdelindex.idx

FilterDir /usr/local/share/doc/swish-e/examples/prog-bin/

SwishProgParameters site.config Metanames swishtitle swishdocpath FileFilter .doc /usr/bin/catdoc

FileFilterMatch .ppt "/usr/bin/ppthtml" "'%p'"

IndexReport 4

StoreDescription TXT* 10000

StoreDescription HTML* <body> 10000

Installation

Veille Moteur M.A.R.C.E.L.

(7)

2. FICHIER SITE.CONFIG : pour chaque site à indexer

my ($filter_sub, $response_sub) = swish_filter();

@servers = ( {

base_url => 'http://www.adressedusite.com/', email => 'robot@marcel.com',

use_default_config => 1, max_depth => 5,

test_response => $response_sub,

use_head_requests => 1, # Due to the response sub filter_content => $filter_sub,

});

(8)

Installation

Veille Moteur M.A.R.C.E.L.

3. Création d’un fichier AUTOEXECUTABLE pour lancer l’indexation automatiquement avec kcron : Cet auto-executable permettra le lancement automatique de site.config, x fois par jour ou par mois, en

fonction du taux de renouvellement des ressources et de contrôle des liens cassés.

(9)

4. Utilisation des données par l’UMVF

Plusieurs milliers de ressources ont été obtenues sur les sites facultaires de médecine par le technicien de l’UMVF en se servant du moteur.

Ces données ont été transférées à Rouen.

Cela a supposé des programmes complémentaires concernant : - l’extraction des données d’une recherche avec le moteur

- l’importation de ces données dans une base de données MySQL - la réalisation d’une console d’administration de la base de donnée

A partir de cette console, il est possible de trier, rajouter des informations, supprimer des données, …

Ce logiciel propriétaire Php a été développé pour l’umvf (20 jours). Il est couplé à une banque de données MySql. Cet ensemble a été installé sur le serveur Marcel.

Items de la base de données :

Titre Url(s) Auteur(s) Site éditeur Contenu Langue(s) Pays/Ville

Professionnnels Etudiants : - Cycle(s)2; 3;

- Annee(s)Externat, Résidanat et Internat de Médecine;

- Diplome(s);

- Module(s)Toutes spécialités médicales;

Discipline(s) Mot(s) clé(s)

Type(s) de ressource Tarif

Accès Format(s)

Date de création (ou révision majeure) Date de mise à jour

Logiciels complémentaires

(10)

On recueille donc autant de fichiers index - que de robots

- que de sites explorés

Ces fichiers index sont hébergés sur le serveur.

Environ 150 Mo sont nécessaires pour une trentaine de sites.

Veille Moteur M.A.R.C.E.L. Exploitation

Le robot, après avoir indexé le serveur de documents de

Rennes1,

a référencé 394291

mots en 1mn31 !

(11)

www.moteurmarcel.fr

(12)

Veille Moteur M.A.R.C.E.L. Exploitation

Page type de résultats

(13)

terme « médecine » : - 1887 réponses

- 0.009 secondes de recherche sur le serveur

- 0.635 secondes pour ramener le résultat au demandeur

* test réalisé sur un ordinateur portable connecté par wifi à une connexion ADSL 10Mo

Un résultat parmi d’autres

(14)

Commentaires – intérêt pour l’umvf

Intérêt majeur : Maîtrise complète d’une solution d’indexation et de recherche, dont l’UMVF est entièrement propriétaire.

1) Technologie de moteur de recherche maîtrisée de A à Z par l’UMVF.

2) Possibilité de programmer les robots finement (on peut demander au robot de n’indexer qu’une partie d’un site, alors que nous ne maîtrisons pas les robots d’indexation dans des solutions type Google Custom Search Engine.

3) Sensibilité et Spécificité très importante des réponses (réglable).

4) Moteur puissant, fiable, évolutif en fonction des besoins et de la programmation des robots.

5) Interface entièrement paramétrable.

6)Critères de classement des résultats paramétrable : création d’un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

7) Indexation individualisée pour chaque site. Possibilité de créer des groupes de recherche (par faculté, par campus, par thème par exemple).

Veille Moteur M.A.R.C.E.L.

(15)

Annexes techniques

(16)

Fichier de

configuration d’un robot d’indexation.

A noter ici la possibilité de

demander au robot d’explorer certaines adresses à des

niveaux plus ou moins profonds.

Veille Moteur M.A.R.C.E.L. Annexes

(17)

Fichier de configuration d’un robot.

A noter la possibilité

d’ignorer ou de référencer

certains types de documents.

(18)

Un robot en train d’indexer le campus de Rhumatologie à Lilles

Veille Moteur M.A.R.C.E.L. Annexes

(19)

Le robot après avoir indexé le serveur de documents de Rennes1.

A noter qu’il a référencé

394291 mots en 1mn31 !

(20)

Fréquence des mises à jour

• Une mise à jour complète prend moins de deux heures

• Possibilité d’élaborer un script - pour une mise à jour automatique

- pour une mise à jour en fonction de l’arrivée de nouvelles informations

• Possibilité d’indexer tout en permettant les recherches simultanément

• Le système « butine » l’ensemble de l’UMVF, ce qu’aucun humain ne peut faire aussi rapidement et régulièrement.

Veille Moteur M.A.R.C.E.L. Annexes

(21)

Tri de l’information (1)

• Algorythme modifiable

• Actuellement :

- fréquence d’apparition du mot dans le texte - RANK_TITLE 7

- RANK_HEADER 5 - RANK_META 3

- RANK_COMMENTS 1

• META : SCORM +++

<html>

<head>

<title>UMVF : Universit&eacute; M&eacute;dicale Virtuelle Francophone</title>

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

<meta name="keywords" content="UMVF, université, universite, médicale, medicale, virtuelle, francophone, université médicale, universite medicale, université médicale virtuelle, universite medicale virtuelle, université médicale virtuelle francophone, universite medicale virtuelle

francophone, examen classant national, ECN, formation médicale, formation medicale, formation médicale continue, formation medicale continue, campus numérique, campus numerique,

ressources numériques, ressources numeriques, campus virtuel, campus médical, campus medical, enseignement médical, enseignement medical">

<meta name="description" lang="fr" content="UMVF, Université Médicale Virtuelle Francophone, utilise les outils numériques pour la formation initiale, tournée vers l’Examen Classant National, ou continue des professionnels de santé.">

<meta name="robots" content="all">

………

(22)

• Possibilité simple de retrouver facilement l’information : RENSEIGNER LE TITRE +++

<title>Faculté , Titre du document, Module… </title>

• Possibilité plus complexe : Utiliser des metas

<meta name="auteur" content=“Spector" />

<meta name=“SCORM" content=“123-234" />

• Adhésion des webmestres +++

Veille Moteur M.A.R.C.E.L.

Tri de l’information (2)

Tri de l’information (3)

Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

Le moteur de recherche de l’UMVF serait assez similaire à Google !!!

Tri de l’information (4)

Le must : créer un script qui recueille les requêtes les plus fréquentes sur les différents sites de l’UMVF afin de l’intégrer au script qui établie le « ranking ».

Le moteur de recherche de l’UMVF serait assez similaire à Google !!!

On peut également créer un script qui classe les documents en fonction de l’intérêt signalé par les utilisateurs de l’adaptation d’une ressource à leurs besoins (de 1 à 4 étoiles).

Annexes

Références

Documents relatifs

ont bénéficié du tiers payant, pourtant devenu obligatoire dans le cadre d’une prise en charge à 100 % (44). Dans notre échantillon, avec 25±3%, ce sont les spécialistes qui

«Bonjour, nous vous remercions tout d’abord de participer à ce focus group et de vous être rendu disponible. En effet nous n’aurions pas pu effectuer notre travail de

Dans sa lettre aux éditeurs, Bajaj rapporte son expérience de pose de TIPS (Shunt Transjugulaire Porto Systémique Intra Hépatique) dans le traitement de la

De plus, dans leur population de prématurés de moins de 1250g [20], 21% des enfants avaient un retard de croissance à la sortie, pour un taux initial de 20 % de retards de

Et puis, je pense que à un moment je me suis vraiment rendue compte que pour le patient, bah qu'on lui dise qu'il est diabétique alors que en plus il y a une

Évolution des TAUX standardisés de prévalence et d’incidence de patients hospitalisés, des TAUX de cancers dépistés (pour 100 000 personnes dépistées) et des TAUX de

Tous les patients opérés du membre inférieur et ayant eu un BNPC entre janvier et octobre 2011 remplissaient un questionnaire de satisfaction après retrait du

De plus 209 patients, soit 96.76% des patients ont été informés (la fiche d’information patient est exposée en annexe n° 10). Le dépistage systématique a permis le