Analyse et indexation de document

Top PDF Analyse et indexation de document:

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée

R ÉSUMÉ Dans cet article, nous nous intéressons à l’indexation de documents de domaines de spécialité par l’intermédiaire de leurs termes-clés. Plus particulièrement, nous nous intéressons à l’indexation telle qu’elle est réalisée par les documentalistes de bibliothèques numériques. Après analyse de la méthodologie de ces indexeurs professionnels, nous proposons une méthode à base de graphe combinant les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation (hybride) libre et contrôlée. Notre méthode permet de proposer des termes-clés ne se trouvant pas nécessairement dans le document. Nos expériences montrent aussi que notre méthode surpasse significativement l’approche à base de graphe état de l’art.
En savoir plus

14 En savoir plus

Indexation semi-automatique de textes : thésaurus et transducteurs

Indexation semi-automatique de textes : thésaurus et transducteurs

8. Conclusion Nous avons présenté une méthode semi-automatique permettant d’améliorer la ra- pidité et la cohérence de l’indexation manuelle de textes. Cette méthode est basée, comme pour le processus manuel, sur un thésaurus qui décrit le domaine d’indexa- tion. Ce thésaurus a été converti automatiquement sous la forme de transducteurs qui, appliqués aux textes, repèrent les expressions pertinentes et y adjoignent la catégorie du thésaurus correspondante. Après pondération des expressions, on obtient finale- ment pour chaque document, un score total pour chaque catégorie représentée dans la liste. Un système de sélection par seuil permet ensuite de réduire le nombre de caté- gories proposées en ne gardant que les plus probables. L’indexeur humain peut alors faire son choix parmi cette liste réduite. L’évaluation a été effectuée sur des données en français : un ensemble de textes indexés manuellement par des indexeurs humains à l’aide d’un thésaurus ad-hoc. Les résultats encourageants obtenus (une f-measure située entre 0,51 et 0,64 selon les tests), les possibilités de développements futurs, l’absence d’apprentissage et la possibilité de démarrer une analyse sur un ensemble restreint de documents permettent d’envisager ce système en tant que méthode princi- pale d’indexation, mais aussi en tant que méthode préliminaire ou parallèle à d’autres méthodes.
En savoir plus

18 En savoir plus

Indexation de l'art abstrait : enjeux et question.

Indexation de l'art abstrait : enjeux et question.

Ouvertures des accès par l’image Il semble, également, qu’un autre moyen soit en mesure de contourner certains obstacles. Est-ce que la contradiction relevée au départ qui suppose que l’œuvre abstraite soit assimilée à une image traduisible en mots et indexée comme un document iconographique ou une œuvre figurative, ne tomberait pas d’elle-même avec les systèmes de recherche par l’image ? On est confronté, en ce domaine, à la particularité d'une situation où se précisent, d'un côté, les espoirs technologiques du traitement et de l’analyse informatiques des images, et où, de l'autre, s’accumulent interrogations et préventions quant aux systèmes d'indexation purement automatiques. Il faut dire, à la décharge des seconds, que les quelques expérimentations qu'on peut actuellement observer n'inclinent pas à penser qu’une réponse définitive est trouvée. Mais il faut tout de suite ajouter, à l'avantage des premiers, qu'une partie de la solution existe certainement dans le système de "query by content" qu’on préfère nommer de manière moins ambiguë « recherche de l’image par l’image ».
En savoir plus

15 En savoir plus

Indexation de documents Web à l'aide d'ontologies

Indexation de documents Web à l'aide d'ontologies

2.1 Conception de l’approche classique des espaces vectoriels (calcul TF-IDF) Une fois l’ensemble de documents D déterminé, un logiciel a été conçu pour utiliser la méthode des mots-clés avec la mesure TF-IDF pour indexer les documents de l’ensemble. Pour utiliser cette méthode, il faut construire un tableau de vecteurs représentant chacun des documents. Il faut donc extraire chacun des mots présents dans tous les documents du corpus d’expérimentation. Il est important de lemmatiser ou segmenter (stemming en anglais) chacun des termes des documents pour que les différentes façons d’écrire un seul et même concept soient réduites au même terme. Par exemple, « bonbons » représente le même concept que « bonbon ». Pour cette étude, un lemmatiseur a été utilisé, celui du paquetage « tm » de R [23] qui est basé sur l’algorithme de Porter. Par exemple, si on analyse un ensemble de dix millions de documents et que mille d’entre eux contient le mot « céréales », la valeur IDF du terme sera le logarithme de 10000000/1000, soit 4. Si un document de cent mots contient le terme « céréales » trois fois, la valeur TF-IDF sera donc de 12. Cette mesure sera utilisée pour comparer les résultats à ceux de l’indexation par ontologies au chapitre quatre.
En savoir plus

98 En savoir plus

Comprendre la différence entre cotation et indexation

Comprendre la différence entre cotation et indexation

Comprendre la différence entre cotation et indexation 1. Définitions L’indexation correspond à l’analyse, à l’identification et au renseignement du contenu d’un document dans sa notice bibliographique. Il s’agit d’en identifier les thèmes et postulats principaux afin de rendre le document visible au sein du catalogue de la bibliothèque et d’en faciliter ainsi l’accès au public. L’indexation associe une approche sémantique et sémiologique puisqu’il s’agit de refléter le sens des documents et de les signaler ; ce n’est qu’une fois ce travail effectué qu'un document pourra être repérable d'après son contenu dans le catalogue de la bibliothèque.
En savoir plus

3 En savoir plus

Indexation des images bases automates cellulaires et agents

Indexation des images bases automates cellulaires et agents

Basis Functions) sont constitués par une seule couche cachée [Oyang et al., 2005]. L’avantage de ce type de neurones est l’utilisation d’une seule couche cachée qui présente une structure moins complexe par rapport aux autres réseaux. De plus la complexité de calcule utilisé dans l’apprentissage et inférieur à celle des autres grâce aux algorithmes hybrides utilisés. Ainsi, la performance est bien liée aux nombres d’unités de la couche cachée et de l’estimation des paramètres du réseau crée. Généralement, les réseaux de neurones sont robustes aux erreurs et donc bien adapté aux problèmes d’apprentissage d’images bruitées. Une autre méthode de type discriminante, l’analyse discriminante linéaire qui se base sur la séparation entre les images qui appartiennent aux différentes classes en utilisant une analyse
En savoir plus

237 En savoir plus

le document

le document

Les anciens salariés du secteur privé perçoivent ainsi le plus souvent une pension d’un régime complémen- taire en plus de leur pension de base et les per- sonnes étant passées en cours [r]

69 En savoir plus

Document trace et document source. La technologie numérique change-t-elle la notion de document ?

Document trace et document source. La technologie numérique change-t-elle la notion de document ?

Dans l’environnement numérique, avec la nécessaire transposition de la composante « support » du document, les exigences de production, de gestion et d’exploitation du document sont différentes. La première exigence pour créer la trace ou pour identifier l’information est d’avoir affaire à un objet stable auquel on puisse se fier (ce que je vois ou ce que je lis est bien ce que je suis censé voir ou lire), qui garantisse l’existence du document dans le temps et conserve l’information pour les utilisateurs potentiels. Il faut donc fixer le document d’une manière ou d’une autre pour contrer la volatilité naturelle de l’écrit numérique. La seconde exigence, si on veut que le document perdure, étant de maintenir cet objet stabilisé au cours du temps. Seule cette démarche de « fixation » dans une forme donnée à une date donnée permet de respecter la notion de document à la fois comme trace (voilà ce que l’auteur a exprimé) et comme source (voilà l’origine de cette information).
En savoir plus

19 En savoir plus

Segmentation et indexation des signaux sonores musicaux

Segmentation et indexation des signaux sonores musicaux

Les sons enregistr´es `a la radio que nous utilisons pour la segmentation en sources (voir la partie V, chapitre 24) sont commun´ement polyphoniques en ce qui concerne la musique (voix c[r]

280 En savoir plus

Indexation de bases d'images : évaluation de l'impact émotionnel

Indexation de bases d'images : évaluation de l'impact émotionnel

Dans le Tableau D.3, nous avons résumé les résultats de l’étude de corrélation entre les réponses SSVEP et la teinte des images. Cette dernière information bas-niveau peut être important[r]

195 En savoir plus

Indexation sémantique d’une base textuelle

Indexation sémantique d’une base textuelle

Krovetz et Croft [22] ont conduit une vaste étude sur certaines hypothèses ayant trait à la pertinence de la relation de correspondance du sens des mots dans la requête et les documents. En utilisant les collections de test CACM et Time, ils ont examiné les dix (10) premiers documents restitués pour chaque requête (pour les deux collections considérées). Ils ont analysé la correspondance de sens entre chaque terme de la requête et ses occurrences dans chaque document restitué. Krovetz et Croft ont examiné l'amélioration de l'efficacité de la recherche en supprimant les documents sélectionnés avec des sens erronés. Sur la collection Time, une amélioration de 4% est constatée au niveau de la précision moyenne, mais sur la collection CACM, l'augmentation est de 33%. Ils concluent en suggérant des situations où la désambiguïsation peut s'avérer intéressante pour améliorer les performances des SRI.
En savoir plus

111 En savoir plus

Indexation dans les espaces métriques Index arborescent et parallélisation

Indexation dans les espaces métriques Index arborescent et parallélisation

Dans cette partie, nous comparons les performances des deux versions, séquen- tielle et parallèle bornée, de l’approche « arbre-IM » avec quelques techniques d’indexation métrique récent[r]

215 En savoir plus

Indexation et recherche d’images par arbres des coupes

Indexation et recherche d’images par arbres des coupes

Even though the application of Binary Partition Tree to any specific retrieval applications was not covered herein, the user ability to define the initial partition and region similarity[r]

165 En savoir plus

Thématique des œuvres plastiques contemporaines et indexation documentaire

Thématique des œuvres plastiques contemporaines et indexation documentaire

pas de fondements réels. On constate en revanche la validité du deuxième terme de la comparaison. Il exprime dans sa simplicité ce qu'une analyse strictement formaliste refuserait de voir64 : que dans les entrelacs abstraits de Pollock (reprod. en annexes, p. 492) on peut aussi reconnaître, à côté de l'automatisme, de la tache, de la ligne et de la construction semi-aléatoire d'une surface, l'écho annoncé par le titre. Son exemple signale qu'une œuvre actualisant un parti pris plastique ou technique peut en effet "exprimer" un thème, même si celui-ci n'existe pas "ex ante" dans l'esprit de l'artiste et s'impose après coup, quand l'œuvre est achevée. Il implique qu'un index sur l'art contemporain pourra légitimement compter "Echo" parmi ses thèmes65, même si, comme c'est le cas, la reconnaissance du thème ne s'appuie que sur une suggestion du titre ; lui-même inspiré, peut- être, par la schématisation conventionnelle des ondes sonores ou la représentation "expressionniste" d'ondes aquatiques. On aborde, en partie, ce que nous discuterons plus loin (p. 281 et suiv.) à propos de l'art abstrait. En résumé, cet essai, (et sans doute, la forme "dictionnaire" peut-elle être mise au compte des formes particulières de l'essai), malgré ses défauts et ses limites, nous propose quelques pistes à explorer pour un "dossier thématique" des arts plastiques au 20e siècle. S'il ne répond pas toujours aux exigences de méthode d'une Histoire et d'une documentation scientifiques, il apporte des points de vue, parfois originaux, dont l'Histoire culturelle pourrait néanmoins tirer profit.
En savoir plus

464 En savoir plus

Indexation automatique de documents scientifiques dans une bibliothèque électronique

Indexation automatique de documents scientifiques dans une bibliothèque électronique

L'indexation de citation est une méthode pour organiser le contenu d'une collection de documents, permettant d'évaluer l'influence et la signification intellectuelle des recherches publiées dans le temps. Elle fournit une capacité unique d'indiquer exactement quand et où un document ou un auteur particulier a été cité ainsi que l’évolution de ces citations dans le temps [Kurt 99]. L'indexation de citation peut renvoyer aux individus, aux établissements, et aux pays en termes de citations de publications enregistrées soit individuelles ou collectives. A notre connaissance, aucune autre méthodologie ne permet une telle identification qui précise le poids d'influence des individus et des collectivités sur le développement scientifique et technologique.
En savoir plus

115 En savoir plus

L'allocation pour l'aide d'une tierce personne et son indexation

L'allocation pour l'aide d'une tierce personne et son indexation

L’allocation pour l’aide d’une tierce personne et son indexation. 1. L’article 24, alinéa 4 de la loi du 10 avril 1971 sur les accidents du travail 1 - modifié par la loi programme du 22 décembre 1989 - dispose que «si l’état de la victime exige absolument et normalement l’assistance d’une autre personne, elle peut prétendre à une allocation

1 En savoir plus

Organisation et indexation des données multimédias de grande dimension

Organisation et indexation des données multimédias de grande dimension

Dans cette thèse de Doctorat nous proposons un framework unifié pour l’organisation des données multimédias de grande dimension en utilisant cette nouvelle approche5. Ce framework se com[r]

116 En savoir plus

Indexation multi-vues et recherche d'objets 3D

Indexation multi-vues et recherche d'objets 3D

Analyse en Composantes Principales (ACP) : L’analyse en composantes prin- cipales, aussi appelée “ACP” est couramment utilisée en analyse de données pour trouver les axes principaux d’un nuage de points. Dans le cas des objets 3D, on l’uti- lise pour calculer les trois axes du repère 3D dans lequel sera représenté le modèle. L’ACP étant la méthode la plus couramment utilisée dans la littérature, plusieurs variantes ont fait leur apparition pour traiter le problème d’alignement des objets 3D. En effet, même si elle est rapide à calculer et robuste dans la plupart des cas, elle peut être instable dans le cas discret d’un maillage. Des améliorations ont donc été proposées pour palier ces problèmes. D’une part, Paquet et al. [ 95 ] propose de pondérer les centres de gravité des facettes par leur surface, comme c’est le cas dans le calcul du centre de gravité surfacique (voir section 3.2.1 ). D’autre part, Vranic et Saupe [ 135 ][ 136 ][ 134 ] étendent les travaux de Paquet et calculent l’ACP dans le cas continu, noté “ACPC” ou “ACP Continue” (ACPC), et permet ainsi une meilleure robustesse dans le cas d’un maillage 3D.
En savoir plus

255 En savoir plus

Indexation audio-visuelle des personnes dans un contexte de télévision

Indexation audio-visuelle des personnes dans un contexte de télévision

Dans [ Everingham et al., 2006 ], une premi`ere indexation des apparences des per- sonnes dans deux ´episodes de la s´erie ”Buffy contre les vampires” est effectu´ee. L’in- dex est obtenu en utilisant la combinaison des sous-titres, scripts et la d´etection d’activit´e labiale. Premi`erement, les sous-titres sont align´es au script contenant le di- alogue avec l’identit´e de chaque personne. L’hypoth`ese pos´ee par les auteurs est que l’identit´e associ´ee `a chaque segment obtenu par alignement a une grande probabilit´e de contenir le visage associ´e `a cette identit´e. Pour chaque segment align´e, les visages sont d´etect´es et suivi puis un d´etecteur d’activit´e labiale permet d’associer le bon visage `a l’identit´e. Cette m´ethode permet d’associer les s´equences de visages `a une identit´e avec une grande pr´ecision, car elle d´etecte les segments qui pr´esentent tr`es peu d’ambigu¨ıt´es. Malheureusement, cette m´ethode obtient un faible rappel caus´e en grande partie par les segments dans lesquels les personnes apparaissent, mais ne par- lent pas. Pour retrouver ces segments, les auteurs proposent d’apprendre un mod`ele de visage et de costume pour chaque personne d´etect´ee automatiquement. Chaque personne d´etect´ee, et `a laquelle aucune identit´e n’a ´et´e associ´ee, est compar´ee `a tous les mod`eles afin de d´eterminer l’identit´e la plus probable. Cette m´ethode obtient des r´esultats tr`es prometteurs. L’inconv´enient est qu’elle suppose que l’on poss`ede un script du document audio-visuel ce qui n’est g´en´eralement pas le cas. Un autre inconv´enient est qu’elle ne prend pas en compte les personnes qui ne parlent pas durant tout le document.
En savoir plus

196 En savoir plus

Indexation collaborative : traces de lecture et constitution de communautés

Indexation collaborative : traces de lecture et constitution de communautés

confirme que, sans interactions entre usagers, sans inscription réellement sociale dans la vie quotidienne - fût-elle scientifique, l’initiative reste { l’état exploratoire et ne s’ancre pas dans les pratiques. Dans le cadre d’un programme d’enquête sur les apports de l’intégration des « métadonnées sociales » aux dispositifs de communication des bibliothèques, archives, musées, OCLC a publié fin 2011 les résultats d’une analyse des usages de métadonnées générées par les usagers au sein de 76 sites, réalisée par 21 membres des pays partenaires du projet (Etats-Unis, Pays-Bas, Australie, Nouvelle-Zélande et Royaume- Uni) 8 .
En savoir plus

9 En savoir plus

Show all 9312 documents...