Fouille de motifs

Top PDF Fouille de motifs:

en
                                                                    fr

en fr Pattern mining and CRF for symptoms recognition in biomedical texts Fouille de motifs et CRF pour la reconnaissance de symptômes dans les textes biomédicaux

est un segment de mots correspondant à une annotation B potentiellement suivie par des annotations consécutives I, comme montré en figure 2. Nous utilisons les CRF (Conditional Random Field ou champs conditionnels aléatoires) qui sont des modèles statistiques très utilisés en apprentissage automatique et en traitement du langage. Les CRF ont été introduit par (Lafferty, 2001) : les lecteurs curieux pourront également se tourner vers cette introduction (Sutton & McCallum, 2011). L’avantage principal des CRF est leur nature conditionnelle qui permet des représentations riches des mots d’une séquence. Il est possible d’incorporer de multiples sources d’informations sous la forme de fonctions caractéristiques (feature functions) sans avoir à explicitement modéliser leurs interactions. En effet, il serait excessivement couteux de faire de la fouille de motifs sur de telles représentations.
En savoir plus

14 En savoir plus

Fouille de motifs séquentiels pour la découverte de relations entre gènes et maladies rares

Fouille de motifs séquentiels pour la découverte de relations entre gènes et maladies rares

ternationale, accessible sur le Web, visant à rassembler une collection d’ar- ticles synthétiques rédigés par des experts sur les MRs. Cependant, la veille nécessaire sur la parution de nouveaux articles dans la littérature, et la re- lecture de ceux-ci sont des tâches actuellement réalisées manuellement. Celles-ci reposent sur des annotateurs humains, filtrant les articles trai- tant de maladies rares avec une cause génétique. Ainsi, produire une nou- velle documentation relative à une maladie rare est un processus fastidieux. L’acquisition automatique de connaissances liées aux maladies rares à par- tir d’une large collection de données textuelles est donc un enjeu particu- lièrement important. Dans ce contexte, nous nous sommes intéressés plus particulièrement au problème de l’extraction de relations de type gène–MR à partir de collections textuelles comme celle de PubMed (qui contient plus de 21 millions de publications biomédicales). Dans cet article, nous pro- posons d’aborder la question de l’extraction de relations entre gènes et maladies rares en utilisant des approches de fouille de données, plus parti- culièrement la fouille de motifs séquentiels sous contraintes.
En savoir plus

17 En savoir plus

Fouille de motifs évolutifs dans un contexte big data pour l’exploration de données cliniques

Fouille de motifs évolutifs dans un contexte big data pour l’exploration de données cliniques

En 2008, Li [34] a proposé un algorithme d’extraction des motifs fréquents intitulé PFP (Parallel Frequent Pattern). Cet algorithme est une implémentation parallèle de l’algorithme FP-Growth (Frequent Pattern-Growth) basé sur le paradigme MapReduce. Il élimine les exigences de répartition des données et de charge en utilisant le paradigme MapReduce. Cette version scalable était tout à fait adaptée à l’exploration de données Web. PFP recherche des top-k paternes au lieu de se baser sur le support minimum spécifié par l’utilisateur, ce qui le rend efficace pour l’exploration de données Web. L’auteur l’appliquait principalement sur le journal de requête pour proposer des recommandations de recherche. La technique d’équilibrage de charge (load balancing [35]) PFP n’était pas aussi efficace, c’est pourquoi Zhou [36] a proposé un nouvel algorithme appelé BPFP (Balance Parallel FP-Growth). L’algorithme BPFP dispose d’une meilleure technique d’équilibrage de charge pour rendre le PFP plus rapide et efficace.
En savoir plus

119 En savoir plus

Intégration des connaissances ontologiques dans la fouille de motifs séquentiels avec application à la personnalisation Web

Intégration des connaissances ontologiques dans la fouille de motifs séquentiels avec application à la personnalisation Web

Le filtrage orienté utilisateur (filtrage collaboratif ou FC), quant à lui, s'intéresse à mesurer la similarité existante entre les différents utilisateurs et ainsi r[r]

229 En savoir plus

Fouille de données pour la stylistique : cas des motifs séquentiels émergents

Fouille de données pour la stylistique : cas des motifs séquentiels émergents

Résumé Dans cet article, nous présentons une étude sur l'utilisation de méthodes de fouille de données pour l'analyse stylistique - d'un point de vue linguistique - en considérant des motifs séquentiels émergents. Nous montrons tout d'abord que la fouille de motifs séquentiels de mots en utilisant la contrainte gap permet d'obtenir de nouveaux patrons linguistiques pertinents par rapport aux patrons construits à partir de n-grammes. Nous étudions ensuite l'utilisation de motifs séquentiels d'itemsets pour produire des patrons linguistiques plus généraux. Nous validons notre approche d'un point de vue quantitatif et d'un point de vue linguistique, en réalisant des expérimentations sur trois corpus français correspondant à différents genres de texte (la poésie, les correspondances et les romans, respectivement). En considérant plus particulièrement les textes poétiques, nous montrons que les techniques de fouille de données employées permettent d'identifier des patrons linguistiques caractéristiques.
En savoir plus

13 En savoir plus

Get_Move : fouille de données d’objets mobiles

Get_Move : fouille de données d’objets mobiles

(3) Par exemple, sur la figure 1b, avec " = 2 et min t = 2, nous obtenons deux convois ( {o 1 , o 2 }, {t 1 , t 2 , t 3 , t 4 }) et ({o 1 , o 2 , o 3 }, {t 3 , t 4 }). Jusqu’à présent, nous avons considéré un groupe d’objets qui se déplacent à proxi- mité les uns aux autres pour un long intervalle. Par exemple, comme le montrent (Han et al., 2010), ces motifs ont pratiquement la même définition. Fondamentalement, la principale différence repose sur les techniques de clustering utilisées. Pour extraire les flocks, il faut considérer une définition rigide du rayon alors que les groupes mobiles et les convois peuvent adopter un algorithme de clustering basé sur la densité (par exemple DBScan (Ester et al., 1996)). Les clusters mobiles peuvent être considérés comme des cas particuliers de convois avec la condition supplémentaire de partage des objets entre deux estampilles temporelles consécutives (Han et al., 2010). Par conséquent, dans la suite de cet article, dans un souci de concision et de clarté, nous nous concentrons sur les concepts de convoi et les algorithmes de regroupement fondé sur la densité.
En savoir plus

26 En savoir plus

La fouille mécanisée : enjeux méthodologiques et scientifiques

La fouille mécanisée : enjeux méthodologiques et scientifiques

La prise de conscience par l’opinion publique du caractère irréversible de la destruction des sites archéologiques et les changements politiques intervenus en 1981 furent, au niveau national, l’occasion d’un important renversement de tendance. En Lorraine, l’événement déclencheur fut, en 1983, le scandale des Hauts de Sainte-Croix à Metz qui, succédant à une série de destructions spectaculaires, permit la mise en place d’une véritable archéologie professionnalisée. En 1984 et 1985, plusieurs opérations d’archéologie préventive purent ainsi être engagées en milieu urbain (Pontifroy et Arsenal à Metz) comme en zones rurales (La Milliaire à Thionville, et Maizières-lès- Metz). Le changement d’échelle de ces interventions, en termes de surfaces traitées, et l’obligation de respecter des délais imposèrent d’emblée le recours aux moyens mécaniques. Ces derniers, d’abord limités aux travaux de terrassement préalables à la fouille (décapage des niveaux archéologiques et vidange des caves modernes), furent peu à peu étendus à des activités plus imbriquées dans les opérations archéologiques, et se substituèrent, avec l’apparition des premiers engins de faible tonnage, à certains travaux réalisés auparavant à la pelle et à la pioche : reprise et évacuation des déblais de fouille, vidange des tranchées de fondation, creusement d’avant-trous devant les structures profondes afin d’en faciliter et d’en sécuriser la fouille manuelle. En 1987, la publication de la circulaire d’application du décret 86-182 relative à la prise en compte du patrimoine archéologique à l’occasion des opérations d’urbanisme entraîna une évolution majeure de la politique de la direction des Antiquités de Lorraine (DAL). En l’absence de carte archéologique fiable, et partant du constat que la majeure partie des sites ne pouvait être détectée par des méthodes traditionnelles, le service d’une part demanda au préfet la transmission pour avis de tous les projets d’aménagement Historique et objectifs scientifiques
En savoir plus

83 En savoir plus

Fouille du Mont Beuvray, campagne 1985

Fouille du Mont Beuvray, campagne 1985

en place. nous n'avons retrouvé aucune couche stratigraphique Ces deux campagnes de fouilles ont donc montré que l'on pouvait se fier aux plans de Bulliot pour c[r]

129 En savoir plus

Fouille d'erreurs sur des sorties d'analyseurs syntaxiques

Fouille d'erreurs sur des sorties d'analyseurs syntaxiques

En analysant quatorze fois le corpus (environ 80 000 phrases, selon le niveau de filtrage sur les phrases) et en exploitant le retour fourni à chaque passage par la fouille d’erreurs, la couverture de l’analyseur est passée de 36 % à 67 %. La raison première expliquant cette importante progression est la relative homogénéité de ce corpus tech- nique, reposant sur un style assez strict et un vocabulaire certes technique mais ré- duit et à haute fréquence d’occurrences. Toute erreur systématique a alors tendance à se manifester fréquemment et se détecte donc aisément. Bien que les performances soient déjà bonnes, il est probablement encore possible de les améliorer au travers de quelques tours supplémentaires, mais, bien sûr, les rendements sont décroissants. Ces résultats montrent toutefois à quel point la technique de fouille d’erreurs décrite dans ce chapitre peut être utile pour adapter une (méta-)grammaire et un lexique généraux à un corpus spécialisé, avec ses termes et ses constructions spécifiques.
En savoir plus

21 En savoir plus

Quels sont, en médecine générale, les motifs de consultations des étudiants ? Secondairement, évaluation de la part psychologique des motifs

Quels sont, en médecine générale, les motifs de consultations des étudiants ? Secondairement, évaluation de la part psychologique des motifs

18 angoisses et les perturbations du sommeil des étudiants aurait alors pu être décrit. Il n’a pas été inclus les consultations d’étudiants au sein des Médecines Préventives Universitaires. Les MPU sont présentes dans chaque université et d’accès gratuit au cours des trois premières années d’études. Il serait intéressant de savoir si les étudiants expriment des plaintes plus personnelles ou tout à fait similaires dans ces consultations. Leur localisation directement sur les campus, au milieu des autres étudiants, peut être un frein pour livrer des plaintes d’ordres psychologiques et personnelles. Au contraire, l’accès rapide et gratuit peut faciliter les consultations pour des motifs ordinaires. Pourtant, l’étude de l’USEM 2011 montre que face à la maladie, seulement 1,9% des étudiants consultent à la MPU 2 .
En savoir plus

45 En savoir plus

Fusion et fouille de donnees guidees par les connaissances

Fusion et fouille de donnees guidees par les connaissances

L’utilisation d’images de synthèse permet de comparer quantitativement la segmentation obtenue par rapport à une segmentation de référence (vérité terrain). La robustesse des systèmes [r]

151 En savoir plus

Fouille de graphes: algorithme combinatoire et application

Fouille de graphes: algorithme combinatoire et application

En particulier, nous avons illustré la relation d’ordre entre les motifs, et nous avons aussi illustré que beaucoup de problèmes de la fouille de données comme la construction d’un arbre[r]

165 En savoir plus

Calculs avec Motifs Dynamiques

Calculs avec Motifs Dynamiques

Cette approche à plusieurs niveaux des mécanismes de filtrage peut encore être poussée plus loin. Un niveau supplémentaire notamment pourrait être ajouté avec l’étape ultime de l’implémen- tation : la définition et la création d’un compilateur pour un langage de programmation fonctionnel avec motifs dynamiques. Et aussi en poussant plus loin les questions posées ici : il faudra notam- ment clarifier les statuts des variables de filtrage avant de pouvoir, côté théorique trouver une réponse satisfaisante au mécanisme des vues, et côté pratique concrétiser de puissants outils de filtrages permettant de traiter des données abstraites.
En savoir plus

53 En savoir plus

ATP-binding motifs

ATP-binding motifs

that are not easily recognizable at the sequence level alone. Two patterns of these main-chain hydrogen-bonding net- works have been identified, involving either three residues (i and i22) or one residue. In either case, it is the N1 and N6 atoms of adenine that are involved in forming the hydrogen bonds. The conserved nature of these two structural motifs for adenine recognition, despite their presence in a variety of different protein folds, suggests a common biological solution to the problem of binding this base. The majority of adenine rings in nucleotides are in the anticonformation but in some instances, the adenine ring bound to kinases adopts the syn conformation (Tari et al., 1996).
En savoir plus

12 En savoir plus

Confluence de calcul à motifs

Confluence de calcul à motifs

a motifs pour le λ-calcul ` a motifs et le calcul ` a motifs purs avec un filtrage unitaire. Nous donnons ´egalement l’instance du calcul de r´e´ecriture avec un filtrage modulo la commutativit´e. Tous ces calculs ont ´et´e prouv´es confluents sous certaines conditions ; nous donnons la preuve de confluence g´enerale pour le λ-calcul dynamique ` a motifs. Notre approche permet d’avoir une m´ethode de preuve uniforme pour tous les calculs ` a motifs. Intuitivement, l’hypoth`ese induite dans la section 1.2.1 sous laquelle nous avons prouv´e la confluence d’un calcul qui garantit une coh´erence entre Sol et les autres r`egles du calcul (la coh´erence est d´efinie dans la d´efinition 11). Le r´esultat obtenu peut ˆetre g´en´eralis´e pour certains calculs qui utilisent la β-r´eduction avec une extension de l’ensemble des r`egles ξ qui satisfont des conditions de coh´erence.
En savoir plus

35 En savoir plus

Autour et alentours des motifs séquentiels

Autour et alentours des motifs séquentiels

Mˆeme si les motifs offrent une connaissance nouvelle, il faut reconnaˆıtre que pour certains domaines d’application ces derniers sont difficilement utilisables dans un con- texte d’aide ` a la d´ecision. Consid´erons par exemple le motif suivant extrait d’un grand magasin : ”47% des clients ach`etent du champagne en janvier puis des chˆ ataignes en octobre”. Il est clair que cette connaissance n’est pas utile dans la mesure o` u il n’existe pas de corr´elation entre ces deux ´ev´enements espac´es d’une ann´ee. De mani`ere `a affiner les connaissances acquises, R. Srikant et R. Agrawal [SA96b] ont propos´e, via l’algo- rithme GSP, de prendre en compte diff´erentes contraintes temporelles. Ces derni`eres permettent entre autre de s’int´eresser ` a des comportements ` a court ou `a long terme. Lors de nos travaux nous avons montr´e que l’approche GSP souffrait de nombreuses op´erations de ”backtracking” effectu´ees lors de l’application des contraintes de temps. Pour pallier ce probl`eme, nous avons tout d’abord propos´e l’algorithme GTC [MPT04] dont l’originalit´e ´etait de pr´etraiter les contraintes de temps. L’un des avantages de GTC est d’ˆetre suffisamment g´en´erique pour pouvoir ˆetre utilis´e par les principaux al- gorithmes de recherche de motifs de type Apriori. Cependant mˆeme si cette approche est efficace, elle impose au d´ecideur de sp´ecifier des contraintes strictes (e.g. il faut qu’il y ait un intervalle de temps de cinq jours entre deux achats). Pour faciliter ces sp´ecifications, nous avons propos´e l’algorithme GETC qui tire profit des avantages de GTC mais int`egre en plus une composante floue qui permet de relˆacher les contraintes et d’offrir ainsi ”plus de flexibilit´e” dans le processus d’extraction.
En savoir plus

115 En savoir plus

Substitutions par des motifs en dimension 1

Substitutions par des motifs en dimension 1

Mots cl´ es : substitutions, mots, motifs, pavages de la droite, combina- toire des mots. 1. Introduction Les substitutions sont des objets combinatoires naturels qui engendrent des suites infinies par it´eration, en rempla¸cant une lettre par un mot ; une substitution n’est en fait rien d’autre qu’une “macro”. Une des caract´eristi- ques les plus int´eressantes des suites substitutives est qu’elles pr´esentent une structure auto-similaire tr`es ordonn´ee, tout en ´etant engendr´ees par un proc´ed´e algorithmique ´el´ementaire, et ce sans ˆetre p´eriodiques en g´en´eral. Les suites substitutives et les syst`emes dynamiques engendr´es par substitu- tions entretiennent de nombreuses interactions avec, entre autres domaines, la combinatoire des mots et l’informatique th´eorique [14, 15], la physique [2], la th´eorie ergodique et spectrale [19, 18], la g´eom´etrie des pavages [8, 13, 25], les syst`emes de num´eration [7, 26], l’approximation diophantienne [21, 22], ou les probl`emes de transcendance [2, 1].
En savoir plus

17 En savoir plus

Approches bio-inspirées pour la fouille de données en bioinformatique

Approches bio-inspirées pour la fouille de données en bioinformatique

Tableau 5.2. Paramètres de l‘algorithme CPSO sous KEEL. Lors de l‘utilisation de l‘outil KEEL, il nous est permis, en premier, de sélectionner le type de validation croisée ; validation croisée en choisissant un nombre, ou validation croisée 5 × 2 ou aucune validation. Ensuite, nous sélectionnons le type d‘expérimentation parmi quatre possibilité, classification, régression, apprentissage non-supervisé et découverte de sous- groupe. Dans notre étude, c‘est une expérimentation de classification que nous avons sélectionnée et qui propose cinq étapes à suivre, la première étant le choix de données où nous pouvons sélectionner des données déjà existantes comme la base de données Iris ou bien importer nos propres données sous le format .csv ou .arff. La deuxième étape est le prétraitement de ces données, KEEL offre une large gamme de méthodes d‘extraction des caractéristiques, de discrétisation, de filtrage de données bruyantes, etc. Ayant réalisé nos propres prétraitements en utilisant la méthode de la composition en pseudo acides aminés (PseAAC), nous avons ignoré cette étape dans l‘outil KEEL. La troisième étape permet de sélectionner l‘algorithme de notre choix parmi un large panel d‘algorithmes de fouille de données et nous permette de modifier les paramètres par défaut de CPSO (voir Tableau 5.2). La quatrième étape comporte les tests statistiques que nous souhaitons appliquer et qui contrastent les résultats obtenus dans l'expérimentation, une étape que nous avons ignorée également car nous ne souhaitons obtenir que la précision prédictive et n‘altérer, en aucun cas, les résultats finaux. La cinquième et dernière étape est le choix de la visualisation des résultats où une seule méthode est proposée pour les expérimentations de classification (Vis- Clas-Check) qui fournit les probabilités de classification (erreur, test et apprentissage) dans un fichier .stat une fois l‘expérimentation terminée.
En savoir plus

193 En savoir plus

Extraction de motifs graduels emergents

Extraction de motifs graduels emergents

Sp´ecificit´es. La d´efinition des motifs ´emergents fait intervenir deux bases de donn´ees, ce qui augmente la complexit´e calculatoire par rapport aux motifs classiques. De plus, le crit`ere de taux de croissance pr´ec´edent ne v´erifie pas de pro- pri´et´e d’anti-monotonie : les sous-motifs d’un motif dont le taux de croissance est sup´erieur au seuil peuvent ne pas v´erifier cette propri´et´e. Aussi, l’utilisation de m´ethodes reposant sur des extensions des algorithmes classiques d’ex- traction, de type APRIORI , est exclue. Il faut souligner que cette absence de monotonie vient de fac¸on g´en´erale de la d´efinition mˆeme de mo- tifs ´emergents, au-del`a de celle du crit`ere de taux de croissance.
En savoir plus

9 En savoir plus

Motifs de saisie en abattoir avicole

Motifs de saisie en abattoir avicole

Résumé du PFE : sous titre : Motifs de saisie en abattoir avicole Résumé : Les saisies dans un abattoir avicole constituent une étape cruciale et nécessite une bonne maitrise afin de procurer au consommateur un produit sain. Notre étude comprend une partie bibliographique dans laquelle sont définies les normes d’élevage du poulet de chair et les difficultés que rencontre cette filière en Algérie et d’une autre part les normes pour les abattoirs avicoles, les bonnes pratiques des opérations et l’hygiène d’abattage ainsi que l’inspection sanitaire à ces différents stades. Pour ce qui est de la partie pratique, elle est consacrée à la présentation de l’unité d’abattage de taboukert, les modalités d’abattage ainsi que l’inspection sanitaire et les lésions à l’origine des saisies
En savoir plus

1 En savoir plus

Show all 410 documents...