• Aucun résultat trouvé

Comment rendre un portail multilingue ?

N/A
N/A
Protected

Academic year: 2021

Partager "Comment rendre un portail multilingue ?"

Copied!
36
0
0

Texte intégral

(1)

HAL Id: hal-02805737

https://hal.inrae.fr/hal-02805737

Submitted on 6 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

To cite this version:

Diane Le Henaff. Comment rendre un portail multilingue ? : Le cas d’Organic.Edunet. Workshop

”Comment rendre un portail multilingue ?”, Nov 2013, Paris, France. �hal-02805737�

(2)

Workshop Organic.Lingua Workshop Organic.Lingua

Comment rendre un portail multilingue ?

Diane Le Hénaff Information Management Project Officer

Coordination of the WP6 Organic.Lingua EU project Team leader & Responsible for the Inra Open Archive

INRA, 25 novembre 2013

(3)

U é i ti j t

Une équipe, un consortium, un projet

(4)

C t d t il ltili ? Comment rendre un portail multilingue ?

Pas de théorie sur le multilinguisme dans cette présentation

Un portail : une rencontre entre un créateur de contenu et des utilisateurs Présentation du projet Organic.Lingua : http://www.organic-lingua.eu Présentation des composants multilingues par des exemples

Découverte du résultat du projet : http://organic edunet eu Découverte du résultat du projet : http://organic-edunet.eu

(5)

U t il t Un portail = une rencontre

Créateurs de contenu

Utilisateurs

Utilisateurs

(6)

U t il t Un portail = une rencontre

Ressources

Utilisateurs Rechercher

Découvrir

Nécessite de parler la même langue

(7)

L blé ti d l l

La problématique de la langue

Ressources Resources Pесурсы πόροι

Somos españoles

(8)

Q ll l ti l ti 1 Quelles solutions -> solution 1

Ressources Resources Pесурсы πόροι

Titre, description ou mots clés dans plusieurs langues (FR, EN, ES)

Les résultats ramènent : Les résultats ramènent :

• Les ressources dans la même langue

• D’autres ressources pour

lesquelles des métadonnées ont été traduites

(9)

Q ll l ti l ti 2 Quelles solutions -> solution 2

Ressources Resources Pесурсы πόροι

Titre, description ou mots clés dans plusieurs langues (FR, EN, ES)

Le moteur de recherche traduit les termes dans plusieurs langues

Les résultats ramènent : Les résultats ramènent :

• Les ressources dans la même langue

• Les ressources dans la langue des termes de recherche traduits

• D’autres ressources pour lesquelles des métadonnées ont été traduites

(10)

Q ll l ti ? Quelles solutions ?

Solution 2 : agir sur le contenu

Enrichissement manuel avec Solution 1 : agir sur le

moteur de recherche

Identification de la langue Enrichissement manuel avec propositions

Enrichissement automatique Identification de la langue

Lemmatisation

Traduction à la volée Dictionnaire

C’est ce qui a été fait dans le cadre du projet Organic.Lingua q p j g g

(11)

L j t O i Li

Le projet Organic.Lingua

Un consortium mixte de partenaires public-privé 10 partenaires de 8 pays différents

(Espagne Italie France UK Turquie Autriche Grèce Estonie) (Espagne, Italie, France, UK, Turquie, Autriche, Grèce, Estonie)

Budget sur 3 ans : 3,5 millions € (50% financement UE) 8 WorkPackagesg

http://www.organic-lingua.eu

L'objectif d'Organic.Lingua est de rendre le portail Organic. Edunet plus performant en intégrant un service multilingue automatique. Cela permet de mettre en œuvre des fonctionnalités multilinguismes mais également

d'accroitre les ressources pédagogiques disponibles en agroecologie.

(12)

Le portail Organic.Edunet depuis Janvier 2010

En nombre de visites uniques par pays

(13)

Les pays demandeurs

Top 10 des pays demandeurs : -> besoin de ressources en grec, hongrois, roumain, estonien,

espagnol…

(14)

S l ti 1 i l t d h h Solution 1 : agir sur le moteur de recherche

Mise en place d’un CLIR : Cross-Lingual Information Retrieval Détection de la langue Requête multilingue

Lemmatisation Index

Dictionnaires

(15)

Exemple : « miel »

Niveau de confiance par

langue

(16)
(17)

2

- pomodoro

NOUN

- e CONJ

i lt NOUN

d i

2 Query

Analysis

IT 1

Language Identification

- agricoltura NOUN -biologico ADJ

pomodori e agricoltura biologica

3

NamedEntities Recognition

Identification

- pomodoro NOUN - agricoltura NOUN -biologico ADJ

Traduit les termes dans les langues supportées Peut également enrichir avec des synonymes et

Recognition

biologico ADJ

Dictionary 4

CLIR system:

Peut également enrichir avec des synonymes et des concepts issus d’une ontologie

Translation

Query Translation Task

Translation Disambiguation

5

Reconstitue la structure grammaticale de la requête en prenant en compte le n°2

Disambiguation

(18)

Une ontologie macro du domaine de l’agroecologie -> OL Ontology (264

Un thesaurus de l’agriculture maintenu par la FAO -> Agrovoc Linked Open Data

g g gy (

concepts)

g p

(2544 concepts)

(19)

/organiclingua/concept/AgriculturalMethod prefLabel="agricultural method"

broader

AGROVOC

/agrovoc/c_2807 prefLabel = "farming systems"

/organiclingua/concept/AlternativeFarming prefLabel="alternative farming"

AGROVOC

/agrovoc/c 28792

p g y

altLabels = "agricultural systems, farming, types of farming"

broader exactMatch

/agrovoc/c_28792

prefLabel = "alternative agriculture"

altLabels = "ecological agriculture, alternative farming"

broader broader

-> Permet d’étendre la recherche aux termes environnants dans les

d h

/agrovoc/c_15911 prefLabel = "organic agriculture"

altLabels = "organic farming"

/agrovoc/c_15912

prefLabel = "biodynamic agriculture"

altLabels = "biodynamic cultivation"

deux thesaurus

-> Des experts peuvent

lier des concepts par

leurs similitudes sans

que les termes soient

identiques.

(20)

la recherche

Le composant CLIR est connecté à une ontologie (OWL) ou un thesaurus (SKOS) La requête traduite peut embarquer les concepts d’une ontologie qui seraient

détectés. Intéressant lorsque le concept comprend plusieurs termesq p p p Ex: agriculture biologique

(21)

Création de contenu : permettre et faciliter l’enrichissement Création de contenu : permettre et faciliter l enrichissement

Lisibilité et compréhension du contenu : traduction à la demande (on-the-fly)

MT Ressources

Enrichissement :

• suggestion de traduction des termes au créateur

Utilisateurs

Traduction à

•Création de contenu

•Signalement de ressources

• indexation sur l’ontologie multilingue

Traduction à la demande

(22)

Création de contenu : permettre et faciliter l’enrichissement Création de contenu : permettre et faciliter l enrichissement

Lisibilité et compréhension du contenu : traduction à la demande (on-the-fly)

MT Ressources

Enrichissement :

• suggestion de traduction des termes au créateur

Utilisateurs

Traduction à

•Création de contenu

•Signalement de ressources

• indexation sur l’ontologie multilingue

Traduction à la demande

(23)
(24)

-> fonctionnalité 2.0 multilingue

Permettre à l’utilisateur de proposer du contenu

Permettre à l’utilisateur d’enrichir ou corriger les traductions

Nécessite un workflow

Utilisateurs

Nécessite un workflow de validation

(25)

-> fonctionnalité 2.0 multilingue

(26)

Organic.Edunet

‰ Query translator, basé sur : Language Identifier, Morphological Analyzer, Tree Tagger Wrapper, Dictionary Translation, Domain Entity Recognizer (reconnait des entités provenant d’Agrovoc, d’Organic.Edunet et d’une partie de DBPedia :

entités provenant d Agrovoc, d Organic.Edunet et d une partie de DBPedia :

PersonFunction, AnatomicalStructure, Person, Nature, MeanOfTransportation, Sport, Education, Organisation, Food, Business, Physics, Material, Device, Science, Species, Disease, Drug, Place, ChemicalCompound, Agrovoc.

‰

Machine Translation, basé sur : XEROX MT service (en,fr,it,es,de – domaine

i lt ) M C ( h * d * * f * d

agriculture), Moses Core (zh-en, ar-en, cs-en*, de-en*, en-es*, en-fr* - pas de

domaine spécifique), Bing MT service (autres langues - pas de domaine spécifique), Domain Adaptation Terminology Checking

Domain Adaptation Terminology Checking

‰

Ontologie(s) basée sur Moki (open source)

(27)

Organic.Edunet

Coté pilep

(28)

Organic.Edunet

Coté face Coté face

(29)

L f ti lité 2 0 ltili

Les fonctionnalités 2.0 multilingues

Permettre à un utilisateur d’intéragir avec le portail via :

‰

noter les ressources

‰

suggérer des nouvelles ressources

‰

améliorer la traduction

(30)
(31)

P é t ti d kfl é é l d t il t d Présentation du workflow général du portail et de

l'outil AgLR

Le créateur de contenu : de l’individu à une communauté Présentation d orkflo d’Organic Ed net

Présentation du workflow d’Organic.Edunet Démo de l’outil AgLR

(32)

L é t d t

Le créateur de contenu

Le webmasteur et son CMS Le webmasteur et son CMS

Des experts internationnaux créant des fiches complètes dans leurs langues Une fédération d’outils homogènes

Une fédération d’outils hétérogènes

(33)

Faire correspondre les

Faire correspondre les

mots clés avec les

concepts de l’ontologie

(34)

Portail

Créateurs de

contenu

(35)
(36)

sur Omeka

Références

Documents relatifs

« polarisation », nous conduit à étudier les adjectifs employés dans les termes de plusieurs façons, qui sont ; 1- le fait d’être calqués sur d’autres

« polarisation », nous conduit à étudier les adjectifs employés dans les termes de plusieurs façons, qui sont ; 1- le fait d’être calqués sur d’autres

Nombre de mots-clés où le site est positionné dans les 100 premiers résultats du moteur de recherche. Position physique

Psychanalyste, psychiatre, scénariste et cinéaste, Maurice Attia est l’auteur de plusieurs romans noirsr Alger la Noire lActes Sud, 2tt'm, traduit dans plusieurs langues, a reçu le

Or tout changement dans l’interface de recherche d’une source implique des ajustements dans le paramétrage des bases dans le moteur. Bilan après quelques mois de mise

Comme dans les précédentes éditions, les caractères italiques ont été utilisés : • pour les citations de termes déjà présentés ou qui le sont plus loin ; ◦ chacune est suivie du

instances de processus workflow sont indexées par le moteur de recherche, ainsi que dans le plan de classement (prochaine version de Silverpeas™)..  M OTEUR D ’ AUTHENTIFICATION :

Le 22 juin, des acteurs ont présenté les expériences conduites et les résultats obtenus dans le cadre du programme Pour et Sur le Développement Régional (36 projets de