• Aucun résultat trouvé

Modèles fondés sur les modes de création d’annotation

2. État de l’art sur l’annotation

2.2. Création et stockage d’annotation

2.2.4. Les modèles d’annotation existants

2.2.4.2. Modèles fondés sur les modes de création d’annotation

L'OWL a trois sous-langages de plus en plus expressifs : OWL Lite, OWL DL, et OWL complètement. Ces sous-langages peuvent être employés pour créer les

ontologies qui sont légèrement limitées dans leur expressivité mais aussi pour avoir des propriétés informatiques.

2.2.4.2. Modèles fondés sur les modes de création d’annotation 2.2.4.2.1.Les annotations automatiques

Nous notons que l'annotation automatique est une annotation de type action et ce n'est pas de l'annotation de type objet.

Quand nous parlons de l'annotation automatique, nous entendons que c'est une action de création des annotations par la machine qui fonctionne dans un mode autonome, essentiellement sans l'interférence de l'homme.

La plupart des outils considérés comme des systèmes d'annotation automatiques ne sont que des systèmes d'information qui aident à classification des documents (cf, définition du document section 1.3). L'identification est faite avec un lien à une base de données des objets similaires ou avec des couleurs spécifiques. Un

exemple est le DOGMA (Wyman et al, 2004) et l'annotation automatique de

musique (Tumbull, 2005). DOGMA est un système de Web qui permet

l'utilisation des recherches comparatives pour identifier et annoter des gènes dans un génome.

Dans le cas de l'annotation de musique, l'annotation inclut des étiquettes de classe trouvées en classifiant la musique et les mesures musicales à valeurs réelles en utilisant la régression. Les tâches de classification classifient la musique fondée

sur des concepts objectifs tels que l'identification de l'artiste ou l'instrument aussi bien que les concepts subjectifs tels que le genre ou le contenu émotif.

Des exemples de méthodes utilisées dans l'annotation automatique sont le « Support Vector Machines (SVM) », et le « Artificial Neural Network (NN) ». Ceux-ci ont été appliqués pour l'annotation automatique de la musique. La logique derrière le « Support Vector Machines» est de créer un modèle généralisé pour les données dispersées (Schôlkopf et al, 1998). Nous notons que la disposition des données dispersées dérivés est fondée sur l'apprentissage de machine. L'automatisation est alors créée et fondée sur cette méthode.

Un exemple de système d'annotation automatique: GENETATOR

Le « Genotator » est un outil permettant l'annotation automatique et la navigation dans les annotations (automated sequence annotation and annotation browsing). Dans l'application sur des documents ADN, le système effectue des analyses et présente le résultat en utilisant des codes couleurs pour les classes de document. Genotator fournit une manière d'identifier les régions significatives (par exemple, exons) dans une séquence. Les utilisateurs peuvent interactivement ajouter des annotations personnelles aux sortes d'étiquettes qui les intéressent.

Magenta NNPP promoter predictions

Red GenPept hits (using BLASTX): GenPept consists of all the

GenBank coding regions translated to amino acids

Orange EST hits (using BLASTN)

Yellow Human repeat sequence hits (using BLASTN)

Chartreuse xpound exon predictions

Green GeneFinder exon predictions

Turquoise GRAIL exon predictions

Dark Blue Genie exon predictions

Purple GenBank CDS (exons)

Magenta/Red/Orange Open reading frames (>=150 bases), colored by frame

Tableau 2.4 : Les couleurs des annotations en GENOTATOR

source http://www.fruitfly.org/~nomi/genotator/genotator-paper.html

2.2.4.2.2. Annotation semi-automatique

Il est difficile d'imaginer des systèmes d'annotation entièrement automatiques. Si les activités d'annotation sont censées interpréter ou évaluer un document, ces actes devraient impliquer la participation humaine. L'interprétation de document dépend de plusieurs facteurs qui sont au delà de la représentation symbolique. Nous n'essayerons pas de présenter ces facteurs dans la représentation informatisée. Ces facteurs d'annotation sont psychologiques, sociaux, religieux, culturels et économiques. En fait, c'est pourquoi nous croyons qu'un acte d'annotation est un facteur non seulement du document mais du créateur d'annotation et du temps. L'interprétation de document dépend du temps, des publics visés et de l'objectif de l'interprétation.

Il est plus facile de faire confiance aux processus d'annotations semi-automatiques où la machine est utilisée pour effectuer des actions répétitives et où les calculs mathématiques sont nécessaires dans la création d'annotation.

Les parties automatisées de système concernent généralement des concepts comme des concepts sémantiques, ontologiques ou linguistiques. La partie non automatisée est laissée au choix de l'utilisateur par rapport à son contexte d'utilisation du résultat et son expérience.

Plusieurs approches ont été utilisées pour associer les significations aux mots. Une des ces méthodes employées est la création d'une base de mots (dictionnaire) de type sémantique ou ontologique. Une autre méthode est d'utiliser et d'appliquer l'algorithme de matrice des mots dans les documents. Un exemple des méthodes utilisées pour analyser le contenu de l'information dans l'annotation semi automatique est le modèle « Latent Space Model ».

Latent Space Models et Probabilistic Latent Space Models

Le «Latent space model» (LSA) est un algorithme fondé sur l'algèbre linéaire. L'hypothèse du LSA est qu'il existe des caractéristiques communes entre deux acteurs, par exemple entre l'acteur A et B, ou C et D. L'hypothèse avance le fait qu'il n'y a pas d'interaction entre A et C, A et D, B et C et B et D, illustré pas le schéma suivant (Shortreed et al, 2005).

Figure 2.16 : Interactions entre les acteurs dans LSA

L'objectif est d'établir le lien entre la ligne de relation qui existe entre les différents groupes. Dans son application à l'analyse des documents, LSA décompose le

terme par-document en trois matrices par une «Singular Value Decomposition» (SVD) tronquée. Dans ce cas, les mots sont récupérés en groupes différents, alors LSA est employé pour établir les liens entre les groupes. PLSA (Probabilistic LSA) est une amélioration de LSA qui permet l'annotation fondée sur le processus de calcul de probabilités et spécifiquement, sur la distribution a posterieori des termes de vocabulaire.

2.2.4.2.3. Annotation manuelle

L'annotation manuelle est l'utilisation des motivations et des expériences humaines pour faire l'annotation. Il est difficile de classifier ce genre d'annotation parce que l'annotation humaine peut prendre différentes formes applicables à toute sorts de documents (cf. section 1.3.5 sur notre définition d'un document). L'annotation humaine peut être écrite, graphique ou vocale. Il est même possible de faire des annotations sous une forme codée compréhensible pour les invités. Ceci rend l'annotation manuelle unique par rapport à d'autres formes d'annotations. La signification attribuée à une annotation humaine peut changer selon le contexte.

L'annotation manuelle est la méthode la plus répandue pour la création des annotations en raison de la participation de l'homme dans le processus. Elle est également la plus subjective à cause des changements de l'action et du raisonnement humain dans le temps. Il est psychologiquement et socialement instable. Le centre d'application de cette étude est lié aux changements de l'annotation en raison du changement de l'état de l'annotateur avec le temps. Nous croyons que l'analyse des changements dans les annotations peut être vue comme l'indication de la personnalité impliquée dans l'annotation.