Haut PDF Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

1.3.4.3 Causes et conséquences d’un processus de maintenance Dans un contexte de RI sémantique, nous souhaitons souligner les influences réci- proques exercée entre une évolution ontologique et sur le devenir des annotations concep- tuelles reposant sur la même ontologie 12 . En effet, si l’implication semble évidente dans un sens (e.g. une opération de maintenance consistant en l’ajout de nouveaux concepts amènera souvent à une annotation plus riche et/ou plus précise), sa réciproque s’avère également vraie : il est possible d’évaluer l’adéquation d’une ontologie à un corpus (et donc le degré d’urgence à la réviser) par la nature et la qualité des annotations sémantiques obtenues dans le temps [Hernandez, 2005]. L’article de [Maynard et al., 2007] se place dans ce paradigme et souligne la nécessité de disposer de méthodes automatiques visant simultanément à gérer la phase de réannotation consécutive à une évolution ontologique et à mesurer la nécessité de maintenance en fonction de l’évolution d’annotations du domaine modélisé. Pour évi- ter de réannoter inutilement une grande partie du corpus, les auteurs proposent d’utiliser un ensemble de règles génériques (manuelles ou automatiques) permettant de reclasser - si possible - les instances concernées sous les concepts adéquats. L’approche retenue pour la phase inverse repose sur l’utilisation de "folksonomies" (i.e. un ensemble évolutif d’annota- tions collaboratives librement créées par les rédacteurs et/ou lecteurs d’un texte sur le Web) de domaine : les auteurs commencent par partitionner l’ensemble des tags d’un domaine selon leurs degrés mutuels de co-occurrence et à les aligner aux concepts de l’ontologie sus- ceptible d’être maintenue 13 ; ils comparent ensuite la répartition obtenue à la précédente, sachant qu’une trop grande différence entre les deux témoignera de la nécessité d’envisa- ger une phase de maintenance de l’ontologie. Même si nous partageons l’idée selon laquelle les résultats d’un processus d’annotation sémantique permettent de juger des besoins d’une ontologie à être maintenue, nos recherches manipulent des ontologies de nature fort diffé- rente. En effet, les folksonomies constituent par nature une vision ad hoc d’un domaine : cet artefact n’est issu ni d’un consensus, ni d’un besoin applicatif unique et précis. Il nous paraît donc préjudiciable de vouloir en faire l’alignement avec une ontologie telle que nous la concevons, i.e. nécessairement orientée selon un point de vue et un besoin précis (cf 3.1).
En savoir plus

212 En savoir plus

Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

TOVE [Gruninger et al., 1995] (qui a pour objectif de modéliser les connaissances génériques de l’entreprise) et PIF [Lee et al., 1996] sont des ontologies lourdes. 1.3.6 Bilan Dans cette section, nous avons présenté les différentes structures qui peuvent supporter les connaissances. Les connaissances prennent une forme brute lorsqu’elles sont présentées dans un document et une forme plus structurée lorsqu’elles sont regroupées dans des structures plus élaborées telles que des thésaurus et des ontologies. Nous nous intéressons particulièrement aux connaissances contenues dans des documents textuels et dans des ontologies de domaine ainsi que dans WordNet et WordNet Domains. Les textes appartenant à nos corpus sont des résumés d’articles scientifiques. Ces textes appartiennent à des domaines de recherche différents. Notre objectif est d’utiliser les connaissances contenues dans des ontologies de domaine pour annoter le contenu textuel de ces documents. Il s’agit de déterminer les descripteurs qui décrivent le mieux leur contenu. Plusieurs approches se sont intéressées à la définition et à l’extraction des descripteurs de documents. Dans la section suivante, nous allons présenter des approches traitant cette problématique. Nous commençons d’abord par définir les différentes formes que peut prendre un descripteur de document.
En savoir plus

163 En savoir plus

Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes

Gestion de l’incertitude et de l’imprécision dans un processus d’extraction de connaissances à partir des textes

88 Chapitre 4. Inférence et évaluation de la connaissance Elle a été implantée dans la méthode Watson Jeopardy ! (F ERRUCCI et al., 2010 ) afin de rechercher les types d’entités les plus probables pour constituer une réponse à une question donnée. Par exemple au regard de la redondance de données textuelles, l’approche induit que les choses qui sont généralement annexées sont typiquement des régions. Par conséquent, à partir de la phrase suivante : In 1859, it were annexed by Napoleon, l’approche peut conforter une réponse telle que Piémont puisque c’est une région. Pour réaliser un tel processus, l’approche se décompose en deux principales phases, l’une portant sur l’extraction de relations textuelles et l’autre sur l’évalua- tion et la généralisation de ces dernières. La première phase exploite une batterie de méthodes du TAL : dépendances syntaxiques, module de reconnaissance des entités nommées (NER) et détection des co-réferences ainsi qu’un ensemble de motifs syn- taxiques d’intérêt pour filtrer les relations. La seconde phase, quant à elle, permet d’estimer la valeur de pertinence de ces relations et induit des règles plus générales. Pour cela, les auteurs emploient différentes stratégies reposant sur les fréquences d’apparition. Par exemple, elle évalue la pertinence d’une relation au travers de son pmi normalisé (Pointwise Mutual Information) permettant de mesurer l’association entre deux éléments. Par exemple, les auteurs peuvent mesurer le degré d’associa- tion entre l’objet et le sujet/prédicat d’une relation. Le fait que le pmi soit normalisé encadre les valeurs possibles dans [−1, 1] avec -1 signifiant aucune association et 1 une association complète. Par exemple, si l’objet correspond à award, le sujet/pré- dicat à Einstein win et que npmi = 0, 7 alors il existe une forte co-occurrence entre ces deux parties. Cette méthode d’évaluation de la pertinence d’une relation en ex- ploitant la redondance des données est intéressante dans le cadre d’un ensemble restreint de types d’entités. Toutefois, il serait intéressant d’observer l’impact d’une plus grande diversité de types dans les performances de Watson Jeopardy ! e.g. Re- gion serait alors segmentée en City et Country. Les conséquences attendues seraient d’améliorer la précision en diminuant l’espace de recherche de la méthode. Cepen- dant, le rappel pourrait être négativement affecté par cette plus grande diversité. Dans ce cas pour parer cette diminution de rappel, le procédé d’inférence pourrait exploiter un ordre partiel spécifique sur les types d’entités. Par exemple, si le NER distingue un type d’entité bien précis tel que City mais que la réponse ne coïncide pas, l’ordre partiel permettrait de remonter vers une entité plus générale associant d’autres extractions e.g. en utilisant la taxonomie de WordNet : city → municipality → region. Le degré de pertinence d’une réponse pourrait diminuer lorsque l’on remonte une branche.
En savoir plus

174 En savoir plus

Extraction lexicale bilingue à partir de textes médicaux comparables : application à la recherche d'information translangue

Extraction lexicale bilingue à partir de textes médicaux comparables : application à la recherche d'information translangue

donc souvent une unité de sens homogène, ce qui laisse présager des liaisons fortes entre les mots. La phrase est un bon contexte de cooccurrence. Elle est le lieu idéal où l’auteur met en rapport, notamment syntagmatique, les unités lexicales. La cooccurrence de deux mots dans la phrase peut être l’expression d’une relation syntagmatique stable comme d’une relation paradigmatique. Le contexte peut y être syntaxique, c’est-à-dire contraint par les relations syntaxiques (Nom prép. Nom...). Toutefois, l’utilisation de contextes syntaxiques pose des problèmes lorsque la relation sémantique recherchée n’est pas limitée à un cadre monolingue. C’est le cas notamment de la traduction pour laquelle un mot d’une catégorie grammaticale peut être traduit par un mot d’une autre catégorie grammaticale (e.g., l’adjectif cardiaque dans crise cardiaque et traduit par le nom heart dans heart attack). Notons également que la segmentation automatique en phrases pose problème. Les algorithmes de segmentation ajoutent en général du bruit à cause de l’ambiguïté des marqueurs typographiques de séparation : ponctuation, majuscule. En particulier, la suite point-espace-majuscule apparaît aussi bien en fin de phrase que dans des abréviations.
En savoir plus

196 En savoir plus

Extraction d'Information et modélisation de connaissances à partir de Notes de Communication Orale

Extraction d'Information et modélisation de connaissances à partir de Notes de Communication Orale

Dans la troisième étape, il s’agit d’intégrer les représentations logiques de chacune des phrases dans un réseau sémantique unique et hiérarchique, dit « modèle du discours », qui rend compte du discours contenu dans le texte. Ce modèle du discours est construit en associant les informations présentes dans les prédicats issus des phases précédentes avec une base de connaissances appelée « modèle du monde » (world model). Cette base est constituée d’une ontologie à laquelle est associé un ensemble de structures attribut-valeur. L’ontologie est une hiérarchie des concepts liés à la nature des formulaires d’extraction à remplir par le système. Elle est construite en utilisant XI, un langage de représentation de connaissances fondé sur des graphes conceptuels à héritage multiple [Gaizauskas 1995]. Les concepts décrits dans les formulaires doivent être présents dans l’ontologie afin que le modèle du monde couvre l’ensemble des entités à rechercher dans le processus d’Extraction d’Information. Le modèle du monde peut être vu comme un squelette sur lequel vient se greffer la représentation sémantique du texte étudié afin de produire un modèle particulier au texte. Le modèle du discours est ensuite étendu par inférences. L’extension consiste à dériver de nouvelles classes sémantiques à partir des classes existantes, à résoudre des coréférences entre instances de l’ontologie et à déduire des informations en utilisant les principes de présupposition et de conséquence [Lecomte & Naït-Abdallah 2003].
En savoir plus

253 En savoir plus

Segmentation et structuration de textes procéduraux pour l'aide à la modélisation de connaissances : le rôle de la structure visuelle

Segmentation et structuration de textes procéduraux pour l'aide à la modélisation de connaissances : le rôle de la structure visuelle

Nous partageons assez largement l’arrière-plan commun à l’ensemble de ces études. Nous pensons que le texte est un objet social, qu’il vise à faire passer un certain nombre d’information au lecteur. L’organisation visuelle et les marqueurs rhétoriques contribuent à l’identification de cette structure [8]. Toutefois, la DTD GEM ne propose pas une structure globale figée (ce que l’on pourrait appeler une « grammaire de texte ») mais elle propose des éléments de modélisation qui, mis ensemble, donnent une vision globale du texte. Il est donc primordial d’identifier les séquences (méso- sémantique) à mettre en relation. Leur organisation et leur inter-dépendance est largement libre et s’organise autour des marqueurs linguistiques et autres indices visuels (cf. [19]).
En savoir plus

11 En savoir plus

Ordonnancement des réponses pour une recherche d'information sémantique à partir d'une ontologie discursive

Ordonnancement des réponses pour une recherche d'information sémantique à partir d'une ontologie discursive

pli/inaccompli) ou discursive (par exemple annonce thématique, rencontre, définition). Les catégories sont instanciées par des classes de marqueurs linguistiques, appelés indicateurs, qui sont des expressions (continues ou discontinues) porteuses de la sémantique de chaque caté- gorie. Ces expressions sont identifiables à la surface des textes. Étant donné que les formes linguistiques sont souvent polysémiques, l’occurrence d’un indicateur dans un segment n’est pas suffisante pour attribuer la catégorie d’annotation. La désambiguïsation se fait par l’exa- men du contexte en vérifiant la présence ou absence d’un certain nombre d’indices contextuels. L’annotation s’inscrit ainsi dans la méthode d’Exploration Contextuelle (EC) Desclés et al. (1997) qui est une technique opératoire permettant de tenir compte du contexte pour lever l’indétermination sémantique des formes linguistiques.
En savoir plus

16 En savoir plus

Approche connexionniste au problème de l'extraction de connaissances terminologiques à partir de textes

Approche connexionniste au problème de l'extraction de connaissances terminologiques à partir de textes

Les approches émergentistes. La recherche récente permet de penser qu'on peut améliorer ces techniques de classification de l'information . En effet, de nouveaux modèles classifieurs dits émergentistes commencent à être explorés pour ce type de tâche. Ils ont pour fondement théorique que le traitement “intelligent” de l'information est avant tout associatif et surtout adaptatif.Parmi ces modèles dits "de computation émergente" ont trouvent ceux appelés "génétiques", (Holland 1973) markoviens (R. Kindermann and L. Snell, 1980; Bouchaffra et Meunier, 1993) et surtout connexionnistes. Parmi ces derniers, on trouve une grande variété de modèles: entre autres, les modèles matriciels linéaires et non linéaires (Anderson, Silverstein, Ritz et Jones, 1977; Kohonen, 1989; Murdock, 1982), les modèles thermodynamiques (Hinton et Sejnowski, 1986), de même que les modèles basés tantôt sur la compétition, tantôt sur la rétropropagation mais surtout sur des règles complexes d'activation et d'apprentissage ( Kohonen, 1989 ; Rumelhart et McClelland, 1986). Les principaux avantages de ces modèles tiennent au fait que leur structure parallèle leur permet de satisfaire un ensemble de contraintes qui peuvent être faibles et même, dans certains cas, contradictoires et de généraliser leur comportement à des situations nouvelles (le filtrage), de détecter des régularités et ce, même en présence de bruit (Reggia et Sutton, 1990). Outre les propriétés de généralisation et de robustesse, la possibilité pour ces modèles de répondre par un état stable à un ensemble d'inputs variables repose une capacité interne de classification de l'information.
En savoir plus

12 En savoir plus

Gestion de l'incertitude dans le processus d'extraction de connaissances à partir de textes

Gestion de l'incertitude dans le processus d'extraction de connaissances à partir de textes

de données, nous devenons très vite dépassés par la quantité de documents disponibles sur le Web. Même si de nombreux outils, tels que les moteurs de recherche ou encore les agrégateurs de contenu, nous permettent d’accéder à l’information, ceci reste insuffisant, surtout dans l’ère du déluge de données. Il est alors nécessaire de développer des tech- niques permettant de faire interagir ces données. Ces interactions doivent nous permettre d’enrichir le Web actuel de fonctionnalités innovantes et à fort potentiel. C’est à cette tâche que s’est attelé le W3C en créant le web sémantique [ BLHL+01 ]. Il s’agit de propo- ser des technologies supportant le passage d’un Web à contenu statique à un Web avec des données interprétables aussi bien par des humains que par des machines. Le but de cette extension du Web est d’apporter une structure pour permettre aux machines de commu- niquer, d’échanger et d’interpréter des données. Il est nécessaire de noter que cette version du Web n’est qu’une évolution du Web actuel, les standards tels que HTML, CSS, HTTP seront toujours utilisés, mais devrait néanmoins aboutir à une révolution de celui-ci. Pour atteindre ce but, un ensemble de langages est proposé afin d’automatiser le processus de représentation et de manipulation des données sur le Web. Dans cette section, nous allons nous intéresser à ces différents langages. Nous commencerons par le modèle de données RDF et les langages d’ontologie qu’il est possible de lui associer. Nous passerons ensuite au langage d’interrogation SPARQL, puis présenterons l’initiative du Linked Open Data et ses dernières évolutions. Nous nous intéresserons également aux moteurs d’inférence et leur apport dans la gestion des données sémantiques. Nous présenterons quelques outils de gestion proposés par le Web sémantique, à savoir Protégé pour l’aide à la gestion et création des ontologies, ainsi que Virtuoso pour la gestion des données RDF.
En savoir plus

161 En savoir plus

A la recherche des connaissances du Web...

A la recherche des connaissances du Web...

même si cette donnée n’est initialement listée nulle part. Les résultats de telles infé- rences viennent enrichir le Web de données, participent à l’intégration des sources, à la sémantique des requêtes, et ce à l’échelle du Web. Mais les raisonnements que permettent ces données et leurs schémas ne se li- mitent pas à de la dérivation logique. La structure de lien permet aussi de nouveaux types de raisonnement par exemple plus métriques que logiques. La centralité, la lon- gueur des chemins, et d’autres métriques de l’analyse de réseaux et de graphes, per- mettent d’autres exploitations de ces données. Dans l’application DiscoveryHub [ 8 ] par exemple, le graphe typé des données liées est utilisé par une version adaptée des algorithmes de propagation d’activation dans les réseaux sémantiques afin de four- nir à l’utilisateur des suggestions de nouveaux sujets d’intérêt à partir de ses centres d’intérêts connus, de sujets qu’il veut découvrir ou d’information sur son contexte (ex. sa position, un événement auquel il assiste, etc.). Ici le graphe des données liées est utilisé comme un espace métrique typé à explorer pour suggérer et recommander des sujets de par leur proximité.
En savoir plus

21 En savoir plus

Une approche paresseuse de l'analyse sémantique ou comment construire une interface syntaxe-sémantique à partir d'exemples

Une approche paresseuse de l'analyse sémantique ou comment construire une interface syntaxe-sémantique à partir d'exemples

Notre représentation sémantique est un graphe de relations prédicat-argument entre les signifiés des unités lexicales et grammaticales d’une phrase (où chaque unité lexicale a été désambiguïsée par rapport à un lexique de référence). Elle est directement inspirée des représentations sémantique et syntaxique profonde de la Théorie Sens-Texte (Mel’čuk 1988a ; Candito & Kahane 1998 ; Kahane 2002). Il s’agit d’une représentation sémantique du contenu linguistique et pas d’une sémantique dénotationnelle comme les représentations sémantiques basées sur la logique. Il n’y a donc pas à proprement parler de calcul de valeurs de vérité associées ; par contre, ce type de représentation permet des calculs de paraphrases (Mel’čuk 1988b ; Milićević 2007) et a été implémenté avec succès pour la génération de textes (Iordanskaja et al. 1988 ; Bohnet & Wanner 2001) ou la traduction automatique (Apresjan et al. 2003). Des représentations similaires ont été proposées par d’autres auteurs sans référence explicite à la Théorie Sens-Texte. Voir par exemple (Copestake 2009) ou (Bédaride & Gardent 2009).
En savoir plus

7 En savoir plus

Approche générique pour l'extraction de relations à partir de textes

Approche générique pour l'extraction de relations à partir de textes

La particularité des extracteurs de connaissances destinés à une utilisation dans un environnement Web est qu’ils doivent tenir compte de la nature hétérogène des documents mais également, comme la plupart des applications relatives au Web, être en mesure de supporter le passage à l’échelle. L’étude des différentes méthodologies d’extraction actuelles conduit à constater la quasi-absence de démarches indépendantes du domaine d’utilisation présentant de bonnes performances, ou même, à tout le moins, de démarches ne nécessitant pas un gros effort pour leur adaptation à d’autres cas d’utilisation. Ceci est dû à la nécessité d’une grande fiabilité dans le processus d’extraction. Les systèmes développés – souvent des systèmes propriétaires – le sont pour une utilisation donnée ; ils se fondent sur des particularités du type de textes analysés, en élaborant par exemple des règles linguistiques très spécifiques (Aussenac-Gilles & Jacques, 2008). De telles règles sont très liées à la manière dont les informations sont exprimées dans le domaine d’utilisation (Fundel et al., 2007).
En savoir plus

13 En savoir plus

Modélisation sémantique, syntaxique et lexicale de la paraphrase

Modélisation sémantique, syntaxique et lexicale de la paraphrase

Plus les paramètres communicatifs et rhétoriques de la SSém sont spécifiés moins grand est le nombre de phrases (synonymes) qu’on peut produire à partir de cette dernière. Ainsi, en rédu[r]

350 En savoir plus

Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de mots

Lexique et analyse sémantique de textes - structures, acquisitions, calculs, et jeux de mots

Ants algorithms or variants of them have been classically used for classical opti- mization problems; traveling salesman problem (TSP) [ Dorigo and Gambardella 1997 ], routing problems [ Bruten et al. 1996 , Di Caro and Dorigo 1998 ], dynamic load bal- ancing [ Bertelle et al. 2004 ], graph coloring [ Costa and Hertz 1997 ], and for compu- tational molecular biology problems; protein identification [ Gras et al. 2002 ] or DNA- -Sequencing using Sequencing-by-Hybridization [ Bertelle et al. 2002 ], but they were never used in Natural Language Processing (NLP). Most probably because NLP was neither modeled as an optimization problem, nor explicitly modeled as a complex sys- tem. However, [ Hofstadter 1995 ] with the COPYCAT project, presented an approach where the environment by itself contributed to solution computation and is modified by an agent population where roles and motivations varies. In [ Gale 1992 ], Gales, Church and Yarowsky have used Naive-Bayes algorithm for WSD. Some properties of these models seem to be adequate for the task of semantic analysis and WSD, where word senses can be seen as competing for resources. We retain here some aspects that we consider as being crucial: (1) mutual information or semantic proximity is one key factor for lexical activation, (2) the syntactic structure of the text can be used to guide information propagation, (3) conceptual bridges can be dynamically constructed (or deleted) and could lead to catastrophic events (in the spirit of [ Thom 1972 ]). These bridges are the instrumental part allowing mutual-information exchange beyond local- ity horizons. Finally, as pointed by [ Hofstadter 1995 ], biased randomization (which doesn’t mean chaos) plays a major role in the model.
En savoir plus

298 En savoir plus

Modéliser ce qui résiste à la modélisation : De la sémantique à la sémiotique

Modéliser ce qui résiste à la modélisation : De la sémantique à la sémiotique

De manière un peu provocatrice vis-à-vis de leurs collègues, Patrick Desfarges et Bruno Helly écrivaient : « Contrairement à une opinion bien ancrée dans l’esprit des archéologues, le temps, la chronologie n’est pas une donnée mais un résultat » [12]. Loin de nous l’idée de juger les méthodes et le discours des archéologues. Cependant, en tant qu’informaticiens, nous avons le devoir de nous interroger sur la manière dont sont modélisés ces méthodes et ce discours. Il n’est pas anodin que la quasi-totalité des projets de modélisation en archéologie depuis les années 1970 soient plus sémantiques que sémiotiques. Cela signifie, pour reprendre la différence introduite par Desfarges et Helly, que ce qui est modélisé et diffusé dans les « banques de données » sont des résultats scientifiques plutôt que des données de recherche ; ou, en des termes de sociologie des sciences [22], une « boîte noire » plutôt que la « boîte blanche » d’une « science en train de se faire ».
En savoir plus

20 En savoir plus

Web sémantique et recherche d'informations personnelles

Web sémantique et recherche d'informations personnelles

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

62 En savoir plus

Modélisation topologique et sémantique de l’environnement

Modélisation topologique et sémantique de l’environnement

terme. Les intentions sont les plans comportementaux de l’agent lui permettant d’assouvir ses désirs. A.S. Rao et M.P. Georgeff [RG95] furent les premiers à proposer une architecture basée sur les BDI. Le principe général de ce modèle est de fournir à l’individu un ensemble de plans lui permettant d’accomplir différents désirs, faisant de lui une sorte de système expert. L’exécution de ces plans est conditionnée par un ensemble de faits relatifs à l’environnement et à l’individu. Dans le cas où plusieurs plans sont sélectionnés, un système d’arbitrage est alors mis en œuvre pour les départager. Une fois qu’un plan est choisi, il devient une intention, et ses actions sont exécutées l’une après l’autre jusqu’à ce qu’une nouvelle sélection soit nécessaire, soit à cause d’une modification des connaissances, soit du fait de la réussite ou de l’échec du plan. Chaque action composant le plan peut alors devenir un sous-but, et provoquer ainsi l’exécution d’un nouveau plan.
En savoir plus

158 En savoir plus

Application du Web sémantique : vers l'avènement du balisage sémantique et des modélisations des connaissances évolutives ?

Application du Web sémantique : vers l'avènement du balisage sémantique et des modélisations des connaissances évolutives ?

Une autre méthode de construction des modélisations des connaissances, certes bien moins fréquente, consiste à extraire la liste du vocabulaire directement depuis les corpus à baliser. C’est donc le baliseur qui, après analyse et balisage des ressources documentaires, dresse la liste du vocabulaire conceptuel à partir duquel va être établie la représentation des connaissances du domaine. Cette méthode présente le principal avantage de diminuer les allers-retours entre vocabulaire, modélisation et balisage, et subséquemment de réduire le nombre d’interventions humaines. En effet, procéder au balisage permet d’obtenir un balisage précis des ressources mais aussi de répertorier tous les concepts relatifs au corpus. De fait, si nouveau concept il y a, ce concept sera automatiquement comptabilisé dans la liste du vocabulaire à employer pour concevoir la modélisation des connaissances. L’utilisation de cette méthode nécessite toutefois un travail plus rigoureux de la part du baliseur qui doit à la fois repérer les concepts mais également veiller à l’homogénéisation du vocabulaire en respectant à la lettre les règles de qualification des balises telles qu’énoncées par Hensens (Hensens, 2002). Par ailleurs, la liste du vocabulaire ainsi obtenue devra certainement être complétée pour la formulation de la modélisation. Tous les concepts ne sont pas toujours employés dans les ressources balisées et certains manqueront à l’appel, il reviendra donc aux experts chargés de la constitution de la représentation des connaissances de les ajouter pour assurer sa cohérence. Cependant cette tâche ne bouleversera en rien le travail de balisage, et viendra compléter la liste du vocabulaire à utiliser pour les prochains balisages à effectuer. Cette démarche est donc de notre point de vue beaucoup plus constructive que celle généralement utilisée.
En savoir plus

12 En savoir plus

Modélisation de contextes pour l'annotation sémantique de vidéos

Modélisation de contextes pour l'annotation sémantique de vidéos

in Figure 1-3 , three action sub-categories can be draw depending on the actor in- teraction with the environment (Actor, Actor-Object, Actor-Actor). Actions have a semantically meaningful interpretation, but span only on short temporal windows. By contrast events, defined as a sequence of actions, have large temporal duration (Soc- cer Game, Marathon). Events occur in a specific scene concept which captures the global environmental settings in which videos have been recorded (soccer field, street). Figure 1-3 shows that actions have a central place in the concept hierarchy. Action concepts are semantically meaningful as they provide useful information which can be used to retrieve the underlying video data. In addition, there is a need for efficient action detectors as they provide basic building blocks that could be used to design event detectors. Events occur at a higher-semantic level in the concept hierarchy. Consequently, this thesis gives a particular attention on generic action recognition.
En savoir plus

234 En savoir plus

Transformer les collections en information grâce aux technologies du web sémantique

Transformer les collections en information grâce aux technologies du web sémantique

Etienne Cavalié, Géraldine Geoffroy, « Transformer les collections en information grâce aux technologies du web sémantique », Arabesques (1269-0589), n° 80, oct.-nov.-déc. 2015, p. 18-19 4 Une fois que les données sont produites, le choix de l’endroit où les déposer est déjà une forme de recontextualisation, et une incitation à certaines réutilisations : serveur local ou plate-forme régionale, portail d’open data du Ministère de l’Enseignement supérieur ou data.gouv.fr.

4 En savoir plus

Show all 10000 documents...