Cahiers
enberg
GUT GUT GUT
m LA PRODUCTION DE DOCUMENTS ÉLECTRONIQUES STRUCTURÉS À GRANDE ÉCHELLE
P Viviane Boulétreau , Jean-Paul Ducasse Cahiers GUTenberg, n 35-36 (2000), p. 25-35.
<http://cahiers.gutenberg.eu.org/fitem?id=CG_2000___35-36_25_0>
© Association GUTenberg, 2000, tous droits réservés.
L’accès aux articles des Cahiers GUTenberg (http://cahiers.gutenberg.eu.org/),
implique l’accord avec les conditions générales
d’utilisation (http://cahiers.gutenberg.eu.org/legal.html).
Toute utilisation commerciale ou impression systématique
est constitutive d’une infraction pénale. Toute copie ou impression
de ce fichier doit contenir la présente mention de copyright.
La production de documents
électroniques structurés à grande
échelle : la diusion électronique des
thèses universitaires.
VivianeBoulétreau[1] et JeanPaul Ducasse[2]
[1]Chefde projet EditionElectronique.
SeNTIERS,UniversitéLumièreLyon2.
Viviane.Bouletreau@univ-lyon2.fr
[2]Maîtrede Conférences del'Institut d'EtudesPolitiques de Lyon.
ResponsablescientiqueduprogrammeLapublicationélectroniquedesthèses:
pourunediusionde l'éditionsavantefrancophonesurlesinforoutes duFFI.
ducasse@univ-lyon2.fr
1. Introduction
Depuisun an, l'Université Lumière Lyon2 amis enplace unprogramme de
diusion électroniquede sesthèses.Les enjeuxd'un telprogrammesontmul-
tiples, on citerale rayonnement des jeunes chercheurs, une valorisation de la
rechercheeectuéeauseindel'Université,etunepossibilitéd'archivagelarge-
mentdistribué,garantied'uneplusgrandesécurité.
Leschoixtechnologiques aérents àladiusion électroniqueà grandeéchelle
sont primordiaux.Il est en eet indispensable de garantir trois propriétés à
l'informationélectronique:sapérennité, l'ecacitéde sadiusionetsa
facilité de consultation. La première de ces contraintes nous a conduit à
privilégierl'utilisation de normeset de standardsinternationaux, delogiciels
libres et àlimiter autantque possible notredépendance vis-à-visde produits
commerciaux. Laseconde nousaamenésàétudier lesdiérents modes desi-
gnalement existant et à développer un schéma de métadonnées propre à la
représentationdesthèses.Ennladernièredecescontraintesimpliquelapos-
sibilité degénérerde façonrapidedes documentsauxformatsde diusionles
pluslargementutilisés(HTMLaujourd'hui,mais aussiXML).
LeprogrammemisenplaceàLyon2reposesurunechaînedeproductiondedo-
de l'Université en collaboration avec lesPresses de l'Université de Montréal.
CettechaînenouspermetdeproduireuneversionSGMLdechaquethèse(DTD
TEI Lite 1
[4]).Le formatSGML, norme ISO 8879,constitue une garantiede
pérennitéet,grâceàlanotiondedocumentstructuré,unapportqualitatifnon
négligeableauxthèses[1].Apartirdeceformatpeuventenoutreêtredérivés,
de façontotalementautomatique,d'autresformatsplusadaptésàladiusion
tels queHTMLouXML.
Les choix politiques déjà esquissés par la mention de notre orientation vers
leslogiciels libres vontau-delàd'unesimpleutilisation.Notrevolontéest de
développerdes outils aussigénériques quepossibleayantvocationàêtre mis
à la disposition de l'ensemble de lacommunauté scientique, à être adaptés,
développésetamélioréspartous.Notreambitionestdepromouvoiruneédition
électroniquestructurées'appuyantsurdesnormes,dedévelopperdenouveaux
modèlesdediusiondel'informationscientiquevisantàmutualiserlesrésul-
tats de la recherche, de mettre en pratiquele concept d'intelligence répartie,
ennd'ébaucherlecadred'unefuture bibliothèqueuniversitairevirtuelle.
Dans cet article nous présentons dans un premier temps l'ensemble de nos
réalisations:chaînedeproductiondedocumentsstructurés, schémademéta-
données, organisation des serveurs... Nous dresseronsensuite unrapide bilan
desdéveloppementsquenousenvisageonsàcourtterme.Ennnousévoquerons
lesperspectivesd'évolutiondenostravaux,àpartird'unecoopérationrépartie
àl'intérieurd'unréseau.
2. Réalisations
Dans lecadredelamiseenligned'unfondsdocumentaireimportant,l'homo-
généitédesdocumentsdiusésestprimordiale.D'unpointdevueproduction,
ellepermetuneéconomieentermesdedéveloppementetdegestion,d'unpoint
devuediusion,elleestlesigneextérieurvisibledelapolitiqueéditorialede
l'institution etdesacohérence.Lechoixdesformatsd'archivagepuisdediu-
sion est doncprimordial.Onconstate cependant quelesdocumentsque nous
recevons aujourd'hui sont loin d'être homogènes de par la diversité des édi-
teursdetexteutiliséslorsdelarédaction:MicrosoftWord(versions2à2000),
StarOce,WordPerfect,ClarisWorks,QuarkXPress,LotusWorks,etmême,de
tempsentemps...Latex...,maisaussideparlavariabilitédelamaîtrisequ'ont
lesétudiantseux-mêmedeleurtraitementdetexte.
1. La version française de la TEI-Lite est consultable à l'URL http ://www.cavi.univ-
Troiscritèresessentielsontdéjà étémentionnés: homogénéité,pérennité, ex-
portabilité...Troistermesquel'onassociepresqueimmédiatementàl'usagede
normes, et dans le monde de l'édition, à la normeSGML/XML [6]. Nous ne
pensonspasqu'ilsoit iciutile delejustierpluslonguementet nousattache-
ronsdoncàprésenterlamiseenoeuvredeceschoix,c'est-à-direl'ensembledes
traitementsquenousappliquonsaudocumentoriginalfourniparledoctorant
pourlaproductiondudocumentSGML.
2.1. Un format intermédiaire: RTF
Nousl'avonsdit, lesformatsd'entréede notre processus sontmultiples. Bien
entendu, nous n'avonspasdéveloppéune chaînedetraitementcomplète pour
chacun mais avons voulu réduire autant que possible le nombre de formats
surlesquelsreposenotretravail.LeformatRich TextFormat (RTF)constitue
danscetteoptiqueunesolutionsatisfaisante.Ilestsansdouteleformatd'ex-
port proposé par le plus grand nombre d'applications et conserve toutes les
informationsdemiseenpageassociéesàchaqueélémentdudocument.Enn,
etsurtout,sasyntaxeétantconnue,ilestpossiblededévelopperdesautomates
deconversionversd'autresformats.
Bienentendu,RTFestunformatpropriétaireetsonutilisation,mêmecomme
simpleformatintermédiaire,nouséloignedenotreobjectif:développeruneso-
lutionlogiciellequireposesurlelogiciellibre.Ilreprésentepournousuncom-
promis temporairementacceptable entre volontéet faisabilité.Il noussemble
cependantsouhaitabledenousorienter versunesolutionqui nousliemoins à
lapolitiquecommercialed'entreprisesprivées.
2.2. Un élément structurant : la feuille de style
Convertir un document en SGML signie, outre une conversion simple d'un
espacedecodageversunautre,unenrichissementdudocumentparlecodage
explicitede l'ensembledesastructure.Cette structuren'estsouventpasclai-
rementapparente dans le document original, et sa reconstruction repose sur
l'analysedesseulsélémentsdontnousdisposions :lesattributstypographique
sou liés de façon plus générale à la mise en page. L'utilisation d'une feuille
destyleprédénie,adaptéeautypededocumentàconvertirsimplieénormé-
mentcette analyse.La connaissancea priori des noms desattributs de style
vanouspermettrede développerdes automatesde conversionsadaptésànos
documents et dont les résultats seront beaucoup plus ables qu'une analyse
typographique,mêmene.
La feuille de style Thèses est constituée d'une cinquantaine de styles cor-
Fig.1LafeuilledestyleThèses :une barred'outilsconviviale.
page de garde, niveaux de titres listes, citations, illustrations, éléments bi-
bliographiques, etc. Pour une utilisation plus conviviale, ces diérents styles
sontorganisés en menus regroupantles éléments de même nature voirgure
ci-dessous.
Au-delàdenotreproblématiquedeconversiondedocument,l'usagedelafeuille
destyles'avèrerapidementêtreuneaideprécieusepourl'auteur.Elleluipermet
decréerundocumentdeprésentationhomogène,degénérerautomatiquement
sestablesdesmatières,listesdegures,detableauxetc...Enn,noussommes
convaincus qu'à travers une aide à la structuration physique du document,
elle constitue un guide pour sa structuration logique, et permettra donc de
clarier, et d'améliorer de manière sensible, la construction intellectuelle du
raisonnementdel'auteur.
2.3. Des automates...
Nous avons développé deux types d'automates correspondant chacun à une
nature deconversion:laconversiond'undocumentplat(issud'untraitement
de texte classique) vers un document SGML que nous appelons conversion
enrichie, et laconversion appauvrie qui permet laréutilisation d'information
encodéesenSGML(puisqu'ils'agitd'undesprincipesdebasedelaphilosophie
SGML)etleurexportationversd'autresformatspeuoupasstructurés(HTML
par exemple)[2]. Avantd'exposer lescaractéristiquesde cesautomates, nous
présenteronsl'outilquenousavonschoisipourleurdéveloppement:lelangage
Omnimark.
OmnimarkdéveloppéparlasociétéOmnimarkTechnologiesest unlangagede
programmationpropreàtraiterduSGMLetdunon-SGML.Ils'agitd'unlan-
gagedeprogrammationévénementielbasénonpassurdesévénementd'origine
Fig.2OrganigrammeduprocessusdeproductiondeSGML.
En alliantun système de gestionde ux à unpuissant langage d'expressions
régulières,ilassurelarecherchedemotifsparticuliersetpourchacund'eux,en
fonctionducontexte,l'applicationderèglesdeconversionoudeproduction.
UnprogrammeOmnimarkseprésentedoncsouslaformedeladonnéed'alpha-
bets dedépart et d'arrivée, ce dernier étant l'Universal Character Set(UCS)
normeISO-10646,et d'unesuitederèglesdeproduction. Soitunegrammaire
contextuelledetype1danslaclassicationdeChomsky(1957).
2.3.1. ... pourla production de documentsSGML
Commelemontrele schémaci-dessous,l'ensembledenotre processusde pro-
ductions'appuieenentréesurundocumentauformatRTFstylé.Laconver-
sionenrichie s'eectue endeux étapescorrespondantchacuneàun automate
distinct.
La premièreconversionconsisteà créerun premierdocumentSGML dont la
lette)développéparRickGeimer 2
n'eectuepasuneconversionenrichie,mais
il permet d'interpréterlescodesRTFet deproduire undocument SGMLva-
lide dontlastructureest plate puisqu'il est constituéd'unesuitelinéairede
simplesparagraphes.Onytrouveenparticulier,sousuneformeSGML,tousles
attributs demiseenpage,depolicesetdejeuxdecaractères,styles,tableaux,
notes, ...Ils'agitdoncd'uneDTD attachéeàlaformephysiquedudocument.
C'estdansunesecondeétapequ'unautreautomateassurel'enrichissementdu
documentenreconstruisantlahiérarchiedesastructure.Cetautomatevanon
seulementconvertirledocumentd'uneDTDaxéesurleformatagedudocument
àuneDTDaxéesursastructure,maisaussiajouter,sansinterventionmanuelle,
desliensentrelesappelsderéférencesdansletextelui-mêmeouentreletexte
et labibliographie.
Lefonctionnementdecetautomatereposesuruneanalysedesattributsdestyle
portésparchaqueparagrapheouélément detexte.A chacunde cesattributs
correspondunensemblederèglesdeproductionsqui,enfonctionducontexte,
vapermettredegérer:
la structure du document (ajout de nouveaux éléments,fermeture des élé-
mentsprécédentss'il yalieu...);
l'identicationdechaqueélémentetseséventuelsliens,;
lesliensaveclesentitésexternes(gures,sons,documentsannexes...);
laconversiondescaractèresenentitésISO10646.
A l'issuedecesdeuxtraitements,onobtientundocumentSGMLnonvalidé:
les règles de production construisent en théorie des documents valides, mais
leur ecacitéest liéeàlaqualité dudocumentenentréeet plus particulière-
mentausoinapportéaustylage.Undernierautomatevériedonclavaliditédu
documentproduit,c'estàdiresaconformitéàlaDTD.Ilnouspermetdecorri-
gerleséventuelleserreursliéesauxstylesattribuésparl'auteuretdecompléter
notrejeuderègleslorsqu'unecongurationnouvelleestrencontrée.L'ensemble
dutraitementconversionetvalidationprendenviron5minutespourundocu-
mentde600pages.L'insertionmanuelledel'entêteSGML(TEI-Header)généré
indépendammentpar unformulairecgi-bin complète le document qui servira
d'archiveetdepivotpourlaréutilisationdesdonnées(exportversdesformats
diérents,extractiond'élémentsd'information...).
2.3.2. ...pour leur conversion vers d'autres formats
UnchierSGMLn'étantqu'unchiertextebalisé,ilesttrèsaisédeleconver-
tirenplusoumoinsn'importequelautreformat.Pourlesbesoinsdediusion
2. RickGeimerestl'auteurdeplusieursapplications Omnimarkdisponiblesgratuitement
desthèses,nousavonsconstruitdeuxclassesd'automates:lapremièreestun
ensembled'outils permettantlaproductiondedocumentssousdesformatsde
diusion courants, laseconde permetd'extraire lesméta-données(ousignale-
ment)delathèse.OutreladiusiondesdocumentsenSGML(lisibleavectous
lesnavigateurspossédantleplug-inadéquat),nous produisonsdes chiersau
format XML et HTML [5]. Le XML permettant une structuration aussi ne
quecelleduSGML[3],il s'agitd'uneconversionsimple;leHTMLparcontre
résulte d'une conversionappauvrie. Il nous est aussi possible d'exporter nos
document sous un format LateXet de générer du PostScript, cependant, en
raison du contexte disciplinaire (Sciences Humaines et Sociales) dans lequel
noustravaillons,nousnemettonspasenlignecederniertypededocument.
2.4. Des outils de signalement
Lasecondeclassed'automatesquenousavonsdéveloppéenouspermetdedif-
fuserlesignalementdesthèsesmisesenligne.Ils'agitd'unélémentimportant
pour le succès de la diusion des thèses puisque c'est par l'interrogation de
moteurs de recherche, de bases de données que les chercheurs accèdent aux
thèses et lesconsultent.Nous produisons diérents formatsde méta-données
adaptéeschacuneà unmode de recherche : Dublin-Core pour l'interrogation
parleweb,Marcpourl'interrogationpardesoutilsclassiquesderecherchedo-
cumentaire,texte formaté pour l'ajout pilotédans desbases de données...Le
tableausuivantrésumelesschémasdeconversionquenousutilisons.
Alliéesàlamiseenplacedeserveursportaildédiésàladiusionélectroniques
des thèses et de l'ensemble de la production universitaire, ces métadonnées
assurentune bonnediusiondel'informationetunaccèssimpleet rapideaux
documents eux-même (voir gure 3). La création du domaine CyberThèses
répond àcetobjectif particulier.Doté dedeux miroirs desservantl'Amérique
duNordet l'Europe(et prochainementd'untroisième enAmérique duSud),
il centralise les signalements desthèses misesen ligne quelles quesoientleur
discipline,langueouoriginegéographique.
Outrelaplusgrandevisibilitédestravauxderecherchessurleréseau,lacréa-
tiondetelsportailsapporteuneaideintéressanteauxchercheursenpermettant
decomparerdansunemêmerequêtelesmouvementsdepenséeouaxesdere-
cherchesdechaqueétablissementdanslequelestabordésondomaine.A titre
d'exemple, une thèse indexéesur CyberThèses (qui en recenseenviron70 au
début demars2000) estdéjà consultéeen moyenneune vingtainede foispar
SGMLTEI HTMLDC Marc
<Titletype=main> DC.Title 245$a
<Titletype=sub> DC.Title.Alternative 245$b
<Author><Name> DC.Creator.PersonalName 700$a
700$e
<Author><Date> - -
<RespStm><Resp>
<Name>
DC.Contributor.PersonalName 700$a
700$e
<Publisher> DC.Publisher.CorporateName 260$b
<PublicaionStmt><Date> DC.Date.Accepted 260$c
<PublicationStmt>
<Availlability>
DC.Rights -
<Notetype=typedoc> DC.Type 655$a
<Notetype=url> DC.Identier 856$u
<SourceDesc> DC.Source 786$n
<Language> DC.Language 546$a
<Keywords> DC.Subject 653$a
<TitleParttype=univ> DC.CreatorCorporateName 710$a
<Divtype=abstract> DC.Description 520$a
3. Développements et perspectives
L'ensemble de ces outils, feuille de style et automates, nous permet de trai-
ter l'ensemble desthèses soutenuesàl'UniversitéLyon2puisqu'il s'agit d'un
contexte disciplinaire particulier : les Sciences Humaines et Sociales. Cepen-
dant,noussommesbienconscientsdesesfaiblesses.
Lapremièrerésidesansaucundoutedansl'utilisationduformatRTFcomme
formatd'entréeduprocessusdetraitement.Mêmesi,àcejour,nousn'avonspas
trouvéd'autresolution,larecherched'un équivalentreposantsurdeslogiciels
libresest unedenospriorités.
Lasecondefaiblessedecettechaînedetraitementestbienentendul'absencede
traitement pertinentpour lesdocument Latex. Parmiles dicultés que nous
rencontrons aveccetypedeformat,oncitera:
legrandnombrede distributionsutilisésparlesauteurs: toutesproduisent
dulatex,maischacuneyapportedesvariantespeucompatiblesavecl'objectif
dedéveloppementd'untraitementunique.
l'impossibilitédegérerdefaçonableladiversitédesmacroutiliséesparles
Fig.3ArchitectureduportailCyberThèses.
Le nombre de documents Latex à traiterà Lyon 2 ne dépassant pas une ou
deux thèses paran (soit environ 1 % des thèses), nous n'envisageonspas de
pallieràcettelacunedenotrechaînedetraitement.
Un de nos axes de travail privilégié est orienté vers la généralisation de nos
outilsde production : nouspensonsque leurutilisation nedoit pas,à terme,
entrainerdecontraintepourlesauteursetleséditeurs,aussiavonsnousengagé
unephasede testet d'adaptationpourassurerleurcompatibilité avecleplus
grandnombred'environnementspossible:
l'ensembledelachaînedetraitementfonctionnesousdiérentesplateformes:
unpremiertransfertdetechnologienancéparl'UNESCOauprotdel'Uni-
versitéduChiliàSantiagonousapermisdevérierlaportabilitédenosou-
tils,leurrapiditéd'adaptationàunelangueetàdesstructuresdedocuments
diérentesetleurrelativesimplicité depriseenmain.
A partirdeces outilsgénériques,desproduitsdérivéspeuventêtrefacilement
développés,permettantàchaqueutilisateur d'adapter sesoutils àsonpropre
contexte: changementde DTD,de langue oud'alphabet,spécialisationde la
feuilledestyleet/oudesprogrammesdeconversionpardiscipline...
4. Conclusions
Le traitementetla productiondedocumentsstructurés estlapremièreétape
duprogrammedesthèsesélectroniquesenligne.Lesignalementdecesdonnées
estl'autrevoletcomplémentaireetindispensableàladiusiondesrésultatsde
larechercheuniversitaire.
LacréationduserveurCyberthèsesestuneréponseàceproblème.Ilfonctionne
selonunmodedistribuépuisque chaqueétablissementpartenaireassureralui-
même la miseen lignede sesthèses sur sonsite et produirales métadonnées
correspondantes quiseronthébergées surleserveurcentral etlessites miroirs
continentaux. Ces serveursn'hébergent que les métadonnées et lesliens vers
les documents mis en ligne localement. La constitution d'un réseau de pro-
ducteurs et de diuseurs permettra également mutualiserles développements
futurs qui devraientpermettre desolutionnerlesproblèmes liésàladiusion
de documents multimédia. Il faut, en eet, en plus de l'intégration des for-
matsenvigueurdanslessciences"dures"(LateX),envisagerletraitementdes
documents sonores (musicologie par exemple), vidéo, et des textes en carac-
tères spéciaux : alphabets grec,chinois,arabes,polices de caractères propores
autraitementlinguistique.
Notre objectif est deconstituer unespace universitairepublic, ouvert àtous,
quibénéciera,paruneetd'intelligencerépartie,deseortsdechacundeses
membresauprotdelacollectivitétouteentière.
La tenue à Paris, en septembre 1999, sous l'égide de l'unesco, d'un groupe
de travailsurle thèmedeladiusion électroniquedesthèses conrmequece
mouvementdeproductionetdediusiondedocumentsscientiquesstructurés
s'étendàl'ensembledelaplanète.Touteslesénergiesneserontpasdetroppour
5. Références
[1] BEAUDRY, Guylaine. La Text Encoding Initiative : les
moyens pour ajouter de la valeur à un texte numérisé. In :
Cursus, ol. 1, n Æ
2, printemps 1996. Consultable à l'URL
<http://www.fas.umontreal.ca/EBSI/cursus/vol1no2/beaudry.html>
[2] BENLAGGHA,S.Modélisationetréutilisationdedocumentsstructurés,
thèsededoctorat,EcoleNationaledesSciencesdel'Informatique,Tunis,
1998.
[3] BEN LAGJA, S. SADFI, W. & BEN AHMED, M. Une comparaison
SGML-XML. InCahiers GUTenberg,n Æ
33-34,mai1999, 28pages.
[4] BURNARD, Lou &SPERBERG-McQUEEN, C.M. LaTEI simpliée :
une introduction au codage des textes électroniques en vue de leur
échange. Traduction François ROLE. In : Cahiers GUTenberg, n Æ
24,
juin1996,pp.23-151.
[5] HUDRISIER, Henri. SGML, HTML, XML : l'ère des machines gram-
matologiques.In:Passerelles,NumérospécialRechercheParis8,n Æ
24,
1999,pp.42-44.
[6] VANHERWIJNEN,Eric.SGMLpratique.Editionfrançaise1999:Paris,
InternationalThomsonPublishing. 330pages.1995.