HAL Id: hal-02805737
https://hal.inrae.fr/hal-02805737
Submitted on 6 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
To cite this version:
Diane Le Henaff. Comment rendre un portail multilingue ? : Le cas d’Organic.Edunet. Workshop
”Comment rendre un portail multilingue ?”, Nov 2013, Paris, France. �hal-02805737�
Workshop Organic.Lingua Workshop Organic.Lingua
Comment rendre un portail multilingue ?
Diane Le Hénaff Information Management Project Officer
Coordination of the WP6 Organic.Lingua EU project Team leader & Responsible for the Inra Open Archive
INRA, 25 novembre 2013
U é i ti j t
Une équipe, un consortium, un projet
C t d t il ltili ? Comment rendre un portail multilingue ?
Pas de théorie sur le multilinguisme dans cette présentation
Un portail : une rencontre entre un créateur de contenu et des utilisateurs Présentation du projet Organic.Lingua : http://www.organic-lingua.eu Présentation des composants multilingues par des exemples
Découverte du résultat du projet : http://organic edunet eu Découverte du résultat du projet : http://organic-edunet.eu
U t il t Un portail = une rencontre
Créateurs de contenu
Utilisateurs
Utilisateurs
U t il t Un portail = une rencontre
Ressources
Utilisateurs Rechercher
Découvrir
Nécessite de parler la même langue
L blé ti d l l
La problématique de la langue
Ressources Resources Pесурсы πόροι
Somos españoles
Q ll l ti l ti 1 Quelles solutions -> solution 1
Ressources Resources Pесурсы πόροι
Titre, description ou mots clés dans plusieurs langues (FR, EN, ES)
Les résultats ramènent : Les résultats ramènent :
• Les ressources dans la même langue
• D’autres ressources pour
lesquelles des métadonnées ont été traduites
Q ll l ti l ti 2 Quelles solutions -> solution 2
Ressources Resources Pесурсы πόροι
Titre, description ou mots clés dans plusieurs langues (FR, EN, ES)
Le moteur de recherche traduit les termes dans plusieurs langues
Les résultats ramènent : Les résultats ramènent :
• Les ressources dans la même langue
• Les ressources dans la langue des termes de recherche traduits
• D’autres ressources pour lesquelles des métadonnées ont été traduites
Q ll l ti ? Quelles solutions ?
Solution 2 : agir sur le contenu
Enrichissement manuel avec Solution 1 : agir sur le
moteur de recherche
Identification de la langue Enrichissement manuel avec propositions
Enrichissement automatique Identification de la langue
Lemmatisation
Traduction à la volée Dictionnaire
C’est ce qui a été fait dans le cadre du projet Organic.Lingua q p j g g
L j t O i Li
Le projet Organic.Lingua
Un consortium mixte de partenaires public-privé 10 partenaires de 8 pays différents
(Espagne Italie France UK Turquie Autriche Grèce Estonie) (Espagne, Italie, France, UK, Turquie, Autriche, Grèce, Estonie)
Budget sur 3 ans : 3,5 millions € (50% financement UE) 8 WorkPackagesg
http://www.organic-lingua.eu
L'objectif d'Organic.Lingua est de rendre le portail Organic. Edunet plus performant en intégrant un service multilingue automatique. Cela permet de mettre en œuvre des fonctionnalités multilinguismes mais également
d'accroitre les ressources pédagogiques disponibles en agroecologie.
Le portail Organic.Edunet depuis Janvier 2010
En nombre de visites uniques par pays
Les pays demandeurs
Top 10 des pays demandeurs : -> besoin de ressources en grec, hongrois, roumain, estonien,
espagnol…
S l ti 1 i l t d h h Solution 1 : agir sur le moteur de recherche
Mise en place d’un CLIR : Cross-Lingual Information Retrieval Détection de la langue Requête multilingue
Lemmatisation Index
Dictionnaires
Exemple : « miel »
Niveau de confiance par
langue
2
- pomodoro
NOUN
- e CONJ
i lt NOUN
d i
2 Query
Analysis
IT 1
Language Identification
- agricoltura NOUN -biologico ADJ
pomodori e agricoltura biologica
3
NamedEntities Recognition
Identification
- pomodoro NOUN - agricoltura NOUN -biologico ADJ
Traduit les termes dans les langues supportées Peut également enrichir avec des synonymes et
Recognition
biologico ADJDictionary 4
CLIR system:
Peut également enrichir avec des synonymes et des concepts issus d’une ontologie
Translation
Query Translation Task
Translation Disambiguation
5
Reconstitue la structure grammaticale de la requête en prenant en compte le n°2Disambiguation
Une ontologie macro du domaine de l’agroecologie -> OL Ontology (264
Un thesaurus de l’agriculture maintenu par la FAO -> Agrovoc Linked Open Data
g g gy (
concepts)
g p
(2544 concepts)
/organiclingua/concept/AgriculturalMethod prefLabel="agricultural method"
broader
AGROVOC
/agrovoc/c_2807 prefLabel = "farming systems"
/organiclingua/concept/AlternativeFarming prefLabel="alternative farming"
AGROVOC
/agrovoc/c 28792
p g y
altLabels = "agricultural systems, farming, types of farming"
broader exactMatch
/agrovoc/c_28792
prefLabel = "alternative agriculture"
altLabels = "ecological agriculture, alternative farming"
broader broader
-> Permet d’étendre la recherche aux termes environnants dans les
d h
/agrovoc/c_15911 prefLabel = "organic agriculture"
altLabels = "organic farming"
/agrovoc/c_15912
prefLabel = "biodynamic agriculture"
altLabels = "biodynamic cultivation"
deux thesaurus
-> Des experts peuvent
lier des concepts par
leurs similitudes sans
que les termes soient
identiques.
la recherche
Le composant CLIR est connecté à une ontologie (OWL) ou un thesaurus (SKOS) La requête traduite peut embarquer les concepts d’une ontologie qui seraient
détectés. Intéressant lorsque le concept comprend plusieurs termesq p p p Ex: agriculture biologique
Création de contenu : permettre et faciliter l’enrichissement Création de contenu : permettre et faciliter l enrichissement
Lisibilité et compréhension du contenu : traduction à la demande (on-the-fly)
MT Ressources
Enrichissement :
• suggestion de traduction des termes au créateur
Utilisateurs
Traduction à
•Création de contenu
•Signalement de ressources
• indexation sur l’ontologie multilingue
Traduction à la demande
Création de contenu : permettre et faciliter l’enrichissement Création de contenu : permettre et faciliter l enrichissement
Lisibilité et compréhension du contenu : traduction à la demande (on-the-fly)
MT Ressources
Enrichissement :
• suggestion de traduction des termes au créateur
Utilisateurs
Traduction à
•Création de contenu
•Signalement de ressources
• indexation sur l’ontologie multilingue
Traduction à la demande
-> fonctionnalité 2.0 multilingue
Permettre à l’utilisateur de proposer du contenu
Permettre à l’utilisateur d’enrichir ou corriger les traductions
Nécessite un workflow
Utilisateurs
Nécessite un workflow de validation
-> fonctionnalité 2.0 multilingue
Organic.Edunet
Query translator, basé sur : Language Identifier, Morphological Analyzer, Tree Tagger Wrapper, Dictionary Translation, Domain Entity Recognizer (reconnait des entités provenant d’Agrovoc, d’Organic.Edunet et d’une partie de DBPedia :
entités provenant d Agrovoc, d Organic.Edunet et d une partie de DBPedia :
PersonFunction, AnatomicalStructure, Person, Nature, MeanOfTransportation, Sport, Education, Organisation, Food, Business, Physics, Material, Device, Science, Species, Disease, Drug, Place, ChemicalCompound, Agrovoc.
Machine Translation, basé sur : XEROX MT service (en,fr,it,es,de – domainei lt ) M C ( h * d * * f * d
agriculture), Moses Core (zh-en, ar-en, cs-en*, de-en*, en-es*, en-fr* - pas de
domaine spécifique), Bing MT service (autres langues - pas de domaine spécifique), Domain Adaptation Terminology Checking
Domain Adaptation Terminology Checking
Ontologie(s) basée sur Moki (open source)Organic.Edunet
Coté pilep
Organic.Edunet
Coté face Coté face
L f ti lité 2 0 ltili
Les fonctionnalités 2.0 multilingues
Permettre à un utilisateur d’intéragir avec le portail via :
noter les ressources
suggérer des nouvelles ressources
améliorer la traductionP é t ti d kfl é é l d t il t d Présentation du workflow général du portail et de
l'outil AgLR
Le créateur de contenu : de l’individu à une communauté Présentation d orkflo d’Organic Ed net
Présentation du workflow d’Organic.Edunet Démo de l’outil AgLR
L é t d t
Le créateur de contenu
Le webmasteur et son CMS Le webmasteur et son CMS
Des experts internationnaux créant des fiches complètes dans leurs langues Une fédération d’outils homogènes
Une fédération d’outils hétérogènes