• Aucun résultat trouvé

La production de documents électroniques structurés à grande échelle

N/A
N/A
Protected

Academic year: 2022

Partager "La production de documents électroniques structurés à grande échelle"

Copied!
13
0
0

Texte intégral

(1)

Cahiers

enberg

GUT GUT GUT

m LA PRODUCTION DE DOCUMENTS ÉLECTRONIQUES STRUCTURÉS À GRANDE ÉCHELLE

P Viviane Boulétreau , Jean-Paul Ducasse Cahiers GUTenberg, n  35-36 (2000), p. 25-35.

<http://cahiers.gutenberg.eu.org/fitem?id=CG_2000___35-36_25_0>

© Association GUTenberg, 2000, tous droits réservés.

L’accès aux articles des Cahiers GUTenberg (http://cahiers.gutenberg.eu.org/),

implique l’accord avec les conditions générales

d’utilisation (http://cahiers.gutenberg.eu.org/legal.html).

Toute utilisation commerciale ou impression systématique

est constitutive d’une infraction pénale. Toute copie ou impression

de ce fichier doit contenir la présente mention de copyright.

(2)
(3)

La production de documents

électroniques structurés à grande

échelle : la diusion électronique des

thèses universitaires.

VivianeBoulétreau[1] et JeanPaul Ducasse[2]

[1]Chefde projet EditionElectronique.

SeNTIERS,UniversitéLumièreLyon2.

Viviane.Bouletreau@univ-lyon2.fr

[2]Maîtrede Conférences del'Institut d'EtudesPolitiques de Lyon.

ResponsablescientiqueduprogrammeLapublicationélectroniquedesthèses:

pourunediusionde l'éditionsavantefrancophonesurlesinforoutes duFFI.

ducasse@univ-lyon2.fr

1. Introduction

Depuisun an, l'Université Lumière Lyon2 amis enplace unprogramme de

diusion électroniquede sesthèses.Les enjeuxd'un telprogrammesontmul-

tiples, on citerale rayonnement des jeunes chercheurs, une valorisation de la

rechercheeectuéeauseindel'Université,etunepossibilitéd'archivagelarge-

mentdistribué,garantied'uneplusgrandesécurité.

Leschoixtechnologiques aérents àladiusion électroniqueà grandeéchelle

sont primordiaux.Il est en eet indispensable de garantir trois propriétés à

l'informationélectronique:sapérennité, l'ecacitéde sadiusionetsa

facilité de consultation. La première de ces contraintes nous a conduit à

privilégierl'utilisation de normeset de standardsinternationaux, delogiciels

libres et àlimiter autantque possible notredépendance vis-à-visde produits

commerciaux. Laseconde nousaamenésàétudier lesdiérents modes desi-

gnalement existant et à développer un schéma de métadonnées propre à la

représentationdesthèses.Ennladernièredecescontraintesimpliquelapos-

sibilité degénérerde façonrapidedes documentsauxformatsde diusionles

pluslargementutilisés(HTMLaujourd'hui,mais aussiXML).

LeprogrammemisenplaceàLyon2reposesurunechaînedeproductiondedo-

(4)

de l'Université en collaboration avec lesPresses de l'Université de Montréal.

CettechaînenouspermetdeproduireuneversionSGMLdechaquethèse(DTD

TEI Lite 1

[4]).Le formatSGML, norme ISO 8879,constitue une garantiede

pérennitéet,grâceàlanotiondedocumentstructuré,unapportqualitatifnon

négligeableauxthèses[1].Apartirdeceformatpeuventenoutreêtredérivés,

de façontotalementautomatique,d'autresformatsplusadaptésàladiusion

tels queHTMLouXML.

Les choix politiques déjà esquissés par la mention de notre orientation vers

leslogiciels libres vontau-delàd'unesimpleutilisation.Notrevolontéest de

développerdes outils aussigénériques quepossibleayantvocationàêtre mis

à la disposition de l'ensemble de lacommunauté scientique, à être adaptés,

développésetamélioréspartous.Notreambitionestdepromouvoiruneédition

électroniquestructurées'appuyantsurdesnormes,dedévelopperdenouveaux

modèlesdediusiondel'informationscientiquevisantàmutualiserlesrésul-

tats de la recherche, de mettre en pratiquele concept d'intelligence répartie,

ennd'ébaucherlecadred'unefuture bibliothèqueuniversitairevirtuelle.

Dans cet article nous présentons dans un premier temps l'ensemble de nos

réalisations:chaînedeproductiondedocumentsstructurés, schémademéta-

données, organisation des serveurs... Nous dresseronsensuite unrapide bilan

desdéveloppementsquenousenvisageonsàcourtterme.Ennnousévoquerons

lesperspectivesd'évolutiondenostravaux,àpartird'unecoopérationrépartie

àl'intérieurd'unréseau.

2. Réalisations

Dans lecadredelamiseenligned'unfondsdocumentaireimportant,l'homo-

généitédesdocumentsdiusésestprimordiale.D'unpointdevueproduction,

ellepermetuneéconomieentermesdedéveloppementetdegestion,d'unpoint

devuediusion,elleestlesigneextérieurvisibledelapolitiqueéditorialede

l'institution etdesacohérence.Lechoixdesformatsd'archivagepuisdediu-

sion est doncprimordial.Onconstate cependant quelesdocumentsque nous

recevons aujourd'hui sont loin d'être homogènes de par la diversité des édi-

teursdetexteutiliséslorsdelarédaction:MicrosoftWord(versions2à2000),

StarOce,WordPerfect,ClarisWorks,QuarkXPress,LotusWorks,etmême,de

tempsentemps...Latex...,maisaussideparlavariabilitédelamaîtrisequ'ont

lesétudiantseux-mêmedeleurtraitementdetexte.

1. La version française de la TEI-Lite est consultable à l'URL http ://www.cavi.univ-

(5)

Troiscritèresessentielsontdéjà étémentionnés: homogénéité,pérennité, ex-

portabilité...Troistermesquel'onassociepresqueimmédiatementàl'usagede

normes, et dans le monde de l'édition, à la normeSGML/XML [6]. Nous ne

pensonspasqu'ilsoit iciutile delejustierpluslonguementet nousattache-

ronsdoncàprésenterlamiseenoeuvredeceschoix,c'est-à-direl'ensembledes

traitementsquenousappliquonsaudocumentoriginalfourniparledoctorant

pourlaproductiondudocumentSGML.

2.1. Un format intermédiaire: RTF

Nousl'avonsdit, lesformatsd'entréede notre processus sontmultiples. Bien

entendu, nous n'avonspasdéveloppéune chaînedetraitementcomplète pour

chacun mais avons voulu réduire autant que possible le nombre de formats

surlesquelsreposenotretravail.LeformatRich TextFormat (RTF)constitue

danscetteoptiqueunesolutionsatisfaisante.Ilestsansdouteleformatd'ex-

port proposé par le plus grand nombre d'applications et conserve toutes les

informationsdemiseenpageassociéesàchaqueélémentdudocument.Enn,

etsurtout,sasyntaxeétantconnue,ilestpossiblededévelopperdesautomates

deconversionversd'autresformats.

Bienentendu,RTFestunformatpropriétaireetsonutilisation,mêmecomme

simpleformatintermédiaire,nouséloignedenotreobjectif:développeruneso-

lutionlogiciellequireposesurlelogiciellibre.Ilreprésentepournousuncom-

promis temporairementacceptable entre volontéet faisabilité.Il noussemble

cependantsouhaitabledenousorienter versunesolutionqui nousliemoins à

lapolitiquecommercialed'entreprisesprivées.

2.2. Un élément structurant : la feuille de style

Convertir un document en SGML signie, outre une conversion simple d'un

espacedecodageversunautre,unenrichissementdudocumentparlecodage

explicitede l'ensembledesastructure.Cette structuren'estsouventpasclai-

rementapparente dans le document original, et sa reconstruction repose sur

l'analysedesseulsélémentsdontnousdisposions :lesattributstypographique

sou liés de façon plus générale à la mise en page. L'utilisation d'une feuille

destyleprédénie,adaptéeautypededocumentàconvertirsimplieénormé-

mentcette analyse.La connaissancea priori des noms desattributs de style

vanouspermettrede développerdes automatesde conversionsadaptésànos

documents et dont les résultats seront beaucoup plus ables qu'une analyse

typographique,mêmene.

La feuille de style Thèses est constituée d'une cinquantaine de styles cor-

(6)

Fig.1LafeuilledestyleThèses :une barred'outilsconviviale.

page de garde, niveaux de titres listes, citations, illustrations, éléments bi-

bliographiques, etc. Pour une utilisation plus conviviale, ces diérents styles

sontorganisés en menus regroupantles éléments de même nature voirgure

ci-dessous.

Au-delàdenotreproblématiquedeconversiondedocument,l'usagedelafeuille

destyles'avèrerapidementêtreuneaideprécieusepourl'auteur.Elleluipermet

decréerundocumentdeprésentationhomogène,degénérerautomatiquement

sestablesdesmatières,listesdegures,detableauxetc...Enn,noussommes

convaincus qu'à travers une aide à la structuration physique du document,

elle constitue un guide pour sa structuration logique, et permettra donc de

clarier, et d'améliorer de manière sensible, la construction intellectuelle du

raisonnementdel'auteur.

2.3. Des automates...

Nous avons développé deux types d'automates correspondant chacun à une

nature deconversion:laconversiond'undocumentplat(issud'untraitement

de texte classique) vers un document SGML que nous appelons conversion

enrichie, et laconversion appauvrie qui permet laréutilisation d'information

encodéesenSGML(puisqu'ils'agitd'undesprincipesdebasedelaphilosophie

SGML)etleurexportationversd'autresformatspeuoupasstructurés(HTML

par exemple)[2]. Avantd'exposer lescaractéristiquesde cesautomates, nous

présenteronsl'outilquenousavonschoisipourleurdéveloppement:lelangage

Omnimark.

OmnimarkdéveloppéparlasociétéOmnimarkTechnologiesest unlangagede

programmationpropreàtraiterduSGMLetdunon-SGML.Ils'agitd'unlan-

gagedeprogrammationévénementielbasénonpassurdesévénementd'origine

(7)

Fig.2OrganigrammeduprocessusdeproductiondeSGML.

En alliantun système de gestionde ux à unpuissant langage d'expressions

régulières,ilassurelarecherchedemotifsparticuliersetpourchacund'eux,en

fonctionducontexte,l'applicationderèglesdeconversionoudeproduction.

UnprogrammeOmnimarkseprésentedoncsouslaformedeladonnéed'alpha-

bets dedépart et d'arrivée, ce dernier étant l'Universal Character Set(UCS)

normeISO-10646,et d'unesuitederèglesdeproduction. Soitunegrammaire

contextuelledetype1danslaclassicationdeChomsky(1957).

2.3.1. ... pourla production de documentsSGML

Commelemontrele schémaci-dessous,l'ensembledenotre processusde pro-

ductions'appuieenentréesurundocumentauformatRTFstylé.Laconver-

sionenrichie s'eectue endeux étapescorrespondantchacuneàun automate

distinct.

La premièreconversionconsisteà créerun premierdocumentSGML dont la

(8)

lette)développéparRickGeimer 2

n'eectuepasuneconversionenrichie,mais

il permet d'interpréterlescodesRTFet deproduire undocument SGMLva-

lide dontlastructureest plate puisqu'il est constituéd'unesuitelinéairede

simplesparagraphes.Onytrouveenparticulier,sousuneformeSGML,tousles

attributs demiseenpage,depolicesetdejeuxdecaractères,styles,tableaux,

notes, ...Ils'agitdoncd'uneDTD attachéeàlaformephysiquedudocument.

C'estdansunesecondeétapequ'unautreautomateassurel'enrichissementdu

documentenreconstruisantlahiérarchiedesastructure.Cetautomatevanon

seulementconvertirledocumentd'uneDTDaxéesurleformatagedudocument

àuneDTDaxéesursastructure,maisaussiajouter,sansinterventionmanuelle,

desliensentrelesappelsderéférencesdansletextelui-mêmeouentreletexte

et labibliographie.

Lefonctionnementdecetautomatereposesuruneanalysedesattributsdestyle

portésparchaqueparagrapheouélément detexte.A chacunde cesattributs

correspondunensemblederèglesdeproductionsqui,enfonctionducontexte,

vapermettredegérer:

la structure du document (ajout de nouveaux éléments,fermeture des élé-

mentsprécédentss'il yalieu...);

l'identicationdechaqueélémentetseséventuelsliens,;

lesliensaveclesentitésexternes(gures,sons,documentsannexes...);

laconversiondescaractèresenentitésISO10646.

A l'issuedecesdeuxtraitements,onobtientundocumentSGMLnonvalidé:

les règles de production construisent en théorie des documents valides, mais

leur ecacitéest liéeàlaqualité dudocumentenentréeet plus particulière-

mentausoinapportéaustylage.Undernierautomatevériedonclavaliditédu

documentproduit,c'estàdiresaconformitéàlaDTD.Ilnouspermetdecorri-

gerleséventuelleserreursliéesauxstylesattribuésparl'auteuretdecompléter

notrejeuderègleslorsqu'unecongurationnouvelleestrencontrée.L'ensemble

dutraitementconversionetvalidationprendenviron5minutespourundocu-

mentde600pages.L'insertionmanuelledel'entêteSGML(TEI-Header)généré

indépendammentpar unformulairecgi-bin complète le document qui servira

d'archiveetdepivotpourlaréutilisationdesdonnées(exportversdesformats

diérents,extractiond'élémentsd'information...).

2.3.2. ...pour leur conversion vers d'autres formats

UnchierSGMLn'étantqu'unchiertextebalisé,ilesttrèsaisédeleconver-

tirenplusoumoinsn'importequelautreformat.Pourlesbesoinsdediusion

2. RickGeimerestl'auteurdeplusieursapplications Omnimarkdisponiblesgratuitement

(9)

desthèses,nousavonsconstruitdeuxclassesd'automates:lapremièreestun

ensembled'outils permettantlaproductiondedocumentssousdesformatsde

diusion courants, laseconde permetd'extraire lesméta-données(ousignale-

ment)delathèse.OutreladiusiondesdocumentsenSGML(lisibleavectous

lesnavigateurspossédantleplug-inadéquat),nous produisonsdes chiersau

format XML et HTML [5]. Le XML permettant une structuration aussi ne

quecelleduSGML[3],il s'agitd'uneconversionsimple;leHTMLparcontre

résulte d'une conversionappauvrie. Il nous est aussi possible d'exporter nos

document sous un format LateXet de générer du PostScript, cependant, en

raison du contexte disciplinaire (Sciences Humaines et Sociales) dans lequel

noustravaillons,nousnemettonspasenlignecederniertypededocument.

2.4. Des outils de signalement

Lasecondeclassed'automatesquenousavonsdéveloppéenouspermetdedif-

fuserlesignalementdesthèsesmisesenligne.Ils'agitd'unélémentimportant

pour le succès de la diusion des thèses puisque c'est par l'interrogation de

moteurs de recherche, de bases de données que les chercheurs accèdent aux

thèses et lesconsultent.Nous produisons diérents formatsde méta-données

adaptéeschacuneà unmode de recherche : Dublin-Core pour l'interrogation

parleweb,Marcpourl'interrogationpardesoutilsclassiquesderecherchedo-

cumentaire,texte formaté pour l'ajout pilotédans desbases de données...Le

tableausuivantrésumelesschémasdeconversionquenousutilisons.

Alliéesàlamiseenplacedeserveursportaildédiésàladiusionélectroniques

des thèses et de l'ensemble de la production universitaire, ces métadonnées

assurentune bonnediusiondel'informationetunaccèssimpleet rapideaux

documents eux-même (voir gure 3). La création du domaine CyberThèses

répond àcetobjectif particulier.Doté dedeux miroirs desservantl'Amérique

duNordet l'Europe(et prochainementd'untroisième enAmérique duSud),

il centralise les signalements desthèses misesen ligne quelles quesoientleur

discipline,langueouoriginegéographique.

Outrelaplusgrandevisibilitédestravauxderecherchessurleréseau,lacréa-

tiondetelsportailsapporteuneaideintéressanteauxchercheursenpermettant

decomparerdansunemêmerequêtelesmouvementsdepenséeouaxesdere-

cherchesdechaqueétablissementdanslequelestabordésondomaine.A titre

d'exemple, une thèse indexéesur CyberThèses (qui en recenseenviron70 au

début demars2000) estdéjà consultéeen moyenneune vingtainede foispar

(10)

SGMLTEI HTMLDC Marc

<Titletype=main> DC.Title 245$a

<Titletype=sub> DC.Title.Alternative 245$b

<Author><Name> DC.Creator.PersonalName 700$a

700$e

<Author><Date> - -

<RespStm><Resp>

<Name>

DC.Contributor.PersonalName 700$a

700$e

<Publisher> DC.Publisher.CorporateName 260$b

<PublicaionStmt><Date> DC.Date.Accepted 260$c

<PublicationStmt>

<Availlability>

DC.Rights -

<Notetype=typedoc> DC.Type 655$a

<Notetype=url> DC.Identier 856$u

<SourceDesc> DC.Source 786$n

<Language> DC.Language 546$a

<Keywords> DC.Subject 653$a

<TitleParttype=univ> DC.CreatorCorporateName 710$a

<Divtype=abstract> DC.Description 520$a

3. Développements et perspectives

L'ensemble de ces outils, feuille de style et automates, nous permet de trai-

ter l'ensemble desthèses soutenuesàl'UniversitéLyon2puisqu'il s'agit d'un

contexte disciplinaire particulier : les Sciences Humaines et Sociales. Cepen-

dant,noussommesbienconscientsdesesfaiblesses.

Lapremièrerésidesansaucundoutedansl'utilisationduformatRTFcomme

formatd'entréeduprocessusdetraitement.Mêmesi,àcejour,nousn'avonspas

trouvéd'autresolution,larecherched'un équivalentreposantsurdeslogiciels

libresest unedenospriorités.

Lasecondefaiblessedecettechaînedetraitementestbienentendul'absencede

traitement pertinentpour lesdocument Latex. Parmiles dicultés que nous

rencontrons aveccetypedeformat,oncitera:

legrandnombrede distributionsutilisésparlesauteurs: toutesproduisent

dulatex,maischacuneyapportedesvariantespeucompatiblesavecl'objectif

dedéveloppementd'untraitementunique.

l'impossibilitédegérerdefaçonableladiversitédesmacroutiliséesparles

(11)

Fig.3ArchitectureduportailCyberThèses.

Le nombre de documents Latex à traiterà Lyon 2 ne dépassant pas une ou

deux thèses paran (soit environ 1 % des thèses), nous n'envisageonspas de

pallieràcettelacunedenotrechaînedetraitement.

Un de nos axes de travail privilégié est orienté vers la généralisation de nos

outilsde production : nouspensonsque leurutilisation nedoit pas,à terme,

entrainerdecontraintepourlesauteursetleséditeurs,aussiavonsnousengagé

unephasede testet d'adaptationpourassurerleurcompatibilité avecleplus

grandnombred'environnementspossible:

l'ensembledelachaînedetraitementfonctionnesousdiérentesplateformes:

(12)

unpremiertransfertdetechnologienancéparl'UNESCOauprotdel'Uni-

versitéduChiliàSantiagonousapermisdevérierlaportabilitédenosou-

tils,leurrapiditéd'adaptationàunelangueetàdesstructuresdedocuments

diérentesetleurrelativesimplicité depriseenmain.

A partirdeces outilsgénériques,desproduitsdérivéspeuventêtrefacilement

développés,permettantàchaqueutilisateur d'adapter sesoutils àsonpropre

contexte: changementde DTD,de langue oud'alphabet,spécialisationde la

feuilledestyleet/oudesprogrammesdeconversionpardiscipline...

4. Conclusions

Le traitementetla productiondedocumentsstructurés estlapremièreétape

duprogrammedesthèsesélectroniquesenligne.Lesignalementdecesdonnées

estl'autrevoletcomplémentaireetindispensableàladiusiondesrésultatsde

larechercheuniversitaire.

LacréationduserveurCyberthèsesestuneréponseàceproblème.Ilfonctionne

selonunmodedistribuépuisque chaqueétablissementpartenaireassureralui-

même la miseen lignede sesthèses sur sonsite et produirales métadonnées

correspondantes quiseronthébergées surleserveurcentral etlessites miroirs

continentaux. Ces serveursn'hébergent que les métadonnées et lesliens vers

les documents mis en ligne localement. La constitution d'un réseau de pro-

ducteurs et de diuseurs permettra également mutualiserles développements

futurs qui devraientpermettre desolutionnerlesproblèmes liésàladiusion

de documents multimédia. Il faut, en eet, en plus de l'intégration des for-

matsenvigueurdanslessciences"dures"(LateX),envisagerletraitementdes

documents sonores (musicologie par exemple), vidéo, et des textes en carac-

tères spéciaux : alphabets grec,chinois,arabes,polices de caractères propores

autraitementlinguistique.

Notre objectif est deconstituer unespace universitairepublic, ouvert àtous,

quibénéciera,paruneetd'intelligencerépartie,deseortsdechacundeses

membresauprotdelacollectivitétouteentière.

La tenue à Paris, en septembre 1999, sous l'égide de l'unesco, d'un groupe

de travailsurle thèmedeladiusion électroniquedesthèses conrmequece

mouvementdeproductionetdediusiondedocumentsscientiquesstructurés

s'étendàl'ensembledelaplanète.Touteslesénergiesneserontpasdetroppour

(13)

5. Références

[1] BEAUDRY, Guylaine. La Text Encoding Initiative : les

moyens pour ajouter de la valeur à un texte numérisé. In :

Cursus, ol. 1, n Æ

2, printemps 1996. Consultable à l'URL

<http://www.fas.umontreal.ca/EBSI/cursus/vol1no2/beaudry.html>

[2] BENLAGGHA,S.Modélisationetréutilisationdedocumentsstructurés,

thèsededoctorat,EcoleNationaledesSciencesdel'Informatique,Tunis,

1998.

[3] BEN LAGJA, S. SADFI, W. & BEN AHMED, M. Une comparaison

SGML-XML. InCahiers GUTenberg,n Æ

33-34,mai1999, 28pages.

[4] BURNARD, Lou &SPERBERG-McQUEEN, C.M. LaTEI simpliée :

une introduction au codage des textes électroniques en vue de leur

échange. Traduction François ROLE. In : Cahiers GUTenberg, n Æ

24,

juin1996,pp.23-151.

[5] HUDRISIER, Henri. SGML, HTML, XML : l'ère des machines gram-

matologiques.In:Passerelles,NumérospécialRechercheParis8,n Æ

24,

1999,pp.42-44.

[6] VANHERWIJNEN,Eric.SGMLpratique.Editionfrançaise1999:Paris,

InternationalThomsonPublishing. 330pages.1995.

Références

Documents relatifs

[r]

All SGML documents must conform to certain rules which are defined partially by the standard and partially by a prolog to the document which is called the document type

Classement des pigments isolés, de la plus forte affinité à la moins forte affinité avec le solvant : pigments jaunes : carotène, xanthophylle ; pigments verts : chlorophylle

- ciblant le socle commun , et le socle professionnel (les compétences professionnelles du référentiel de certification du diplôme) avec mention explicite pour chaque compétence

Bref, ce document refléterait bien la « réalité » sociale de l’époque et, même si, le professeur prend soin de dire que « c’est une caricature », il n’est pas sûr que

Ce scénario décrit les processus qui surviennent lors des interventions de maintenance précédant généralement un avis de panne pour un objet technique (vous avez également

On décompose le volume du liquide en rotation en couronnes cylindriques de rayon r, d’épaisseur dr et de hauteur z(r). Exprimer le volume dV d’une telle couronne. En supposant que

Le démarrage d’un moteur asynchrone ne peut avoir lieu que si le couple moteur est à chaque instant supérieur au couple résistant de la machine à entrainer.. (Le couple