Extraction de données complexes

Top PDF Extraction de données complexes:

Fouille de données biomédicales complexes : extraction de règles et de profils génétiques dans le cadre de l'étude du syndrome métabolique

Fouille de données biomédicales complexes : extraction de règles et de profils génétiques dans le cadre de l'étude du syndrome métabolique

Fouille de données biomédi- cales complexes : extraction de règles et de profils génétiques dans le cadre de l’étude du syndrome métabolique. Journées Ouvertes Biologie Informatique Math[r]

14 En savoir plus

Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles

Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles

Données inattendues et entrepts de données : une aide à la navigation Les utilisateurs étant souvent démunis fa e à la omplexité de leurs don- nées d'entrepts de données, il est indispensable de les guider vers les zones les plus intéressantes pour eux, au sens où elles ontiennent des informations nouvelles, ou des informations qu'ils re her hent. Dans la partie II, nous avons vu omment exploiter la notion de blo pour permettre la distin tion rapide et automatique de zones homogènes. Ces blo s pouvaient alors servir à la déte tion de omportements atypiques quand une ellule était très diérente des autres ellules d'un même blo . Cependant es te hniques ne permettaient pas la prise en ompte de la dimension temporelle des données (données historisées). Nous nous sommes don intéressés à un autre moyen de déte ter des omportements atypiques, en proposant un nouveau mode de navigation fondé sur la re her he de séquen es outliers. Nous travaillons à partir d'une dimension donnée par l'uti- lisateur. Pour un niveau donné, ette dimension omprend don un ensemble de valeurs (par exemple {P aris, M ontpellier, M arseille} ) pour le niveau V ille de la dimension Lieu ), et à ha une de es valeurs orrespond un sous- ube onte- nant l'ensemble des ellules asso iées à la ville Paris. Ces sous- ubes peuvent alors être vus omme une séquen e de données, si l'on imbrique la dimension temporelle. Nous proposons alors d'identier les n séquen es qui dièrent le plus des autres, orrespondant alors aux n villes présentant des résultats atypiques. Ce pro essus est ensuite réitéré aux niveaux inférieurs, an que l'utilisateur dé- ouvre les raisons pour lesquelles es villes n'ont pas eu le même omportement que les autres.
En savoir plus

139 En savoir plus

Modélisation et manipulation d'entrepôts de données complexes et historisées

Modélisation et manipulation d'entrepôts de données complexes et historisées

En règle générale, la technique utilisée pour définir un entrepôt de données est la technique des vues matérialisées [Widom 1995] [Gupta, Mumick 1995], calculées sur des sources relationnelles ; de très nombreux travaux étudient cette approche (cf. chapitre I) parmi lesquels plusieurs traitent de l'extraction des données source pour l'élaboration de l'entrepôt [Labio, Garcia-Molina 1996] [Chawathe, et al 1994]. Ces travaux proposent des algorithmes pour maintenir des vues matérialisées en fonction des changements survenus dans les relations source. Plus récemment, dans [Cui, Widom 2000] les auteurs abordent les problèmes liés à la correspondance entre les données stockées dans l'entrepôt et les données source dont elles sont issues (the tracing lineage problem). Ces travaux se concentrent sur les aspects de détection des changements des données source [Labio, Garcia-Molina 1996] ainsi que sur la mise en correspondance des données de la source et de l'entrepôt [Cui, et al 2000]. Nos travaux se distinguent de ceux-ci puisque les travaux précités se situent dans un contexte d'entrepôts relationnels, n'abordant pas les problèmes d'extraction des comportements de données sous forme d'objets.
En savoir plus

258 En savoir plus

Extraction de relations complexes. Application à des résultats expérimentaux en physiologie rénale

Extraction de relations complexes. Application à des résultats expérimentaux en physiologie rénale

temps que cette opération demande. Les premières présentations faites ont vivement intéressé les chercheurs du domaine. Du point de vue de l’extraction d’information, l’originalité de notre approche ré- side dans le fait que les données sont extraites des articles complets et nécessitent d’être retrouvées dans différentes sections de l’article, et que nous extrayons les infor- mations qu’elles soient présentes dans le texte ou dans des tableaux. Les principales difficultés proviennent de la présence de nombreuses variations terminologiques et de la mise en relation des descripteurs avec un résultat. Le système d’extraction atteint un résultat de très bon niveau (F-mesure de 0,78), et permet de trouver tous les résultats des articles, sans pour autant fournir trop de bruit devenant gênant pour les experts curateurs (rappel de 1 et précision de 0,63).
En savoir plus

37 En savoir plus

Extraction automatique d'habitations en milieu rural de PED à partir de données THRS

Extraction automatique d'habitations en milieu rural de PED à partir de données THRS

2 Les images satellitaires métriques offrent une meilleure adéquation entre leur résolution et la taille réduite des habitations à cartographier. Leur usage semble une alternative envisageable aux localisations par GPS, mais l’automatisation de la détection d’éléments complexes comme les habitations, nécessite le développement de nouvelles méthodes pour dépasser les limites actuelles des approches purement radiométriques. Dans ce sillage, le renforcement de l’approche spatiale dans les traitements d’images s’avère être une solution prometteuse, notamment en privilégiant l’analyse contextuelle des éléments à détecter. La méthode est mise en application dans une étude de cas menée au Cameroun.
En savoir plus

10 En savoir plus

Extraction de données et apprentissage automatique pour les sites web adaptatifs

Extraction de données et apprentissage automatique pour les sites web adaptatifs

1 Pr´ esentation du probl` eme ? De nos jours, le Web est un lieu incontournable d’´echange d’informations. De simples ensembles de pages web statiques ` a sa naissance, celui-ci a ´evolu´e ces derni`eres ann´ees vers la mise ` a disposition de services de plus en plus complexes. Suivant le type de site d´evelopp´e — commerce ´electronique, biblioth`eque num´erique, journal d’actualit´es, forum de discussions, etc. — les services peuvent ˆetre vari´es : de l’achat d’un bien ` a la rencontre de l’ˆ ame sœur, en passant par la lecture de son journal pr´ef´er´e en ligne. C’est sous l’impulsion des acteurs du commerce ´electronique, cherchant ` a fid´eliser leurs clients, qu’ont ´et´e d´evelopp´ees des recherches visant ` a fournir aux usagers la meilleure qualit´e de service possible. Dans cette perspective, il parait naturel d’adapter ` a la per- sonne navigant sur leur site, le service auquel elle acc`ede. Ce constat va maintenant bien au del`a de la philosophie commerciale : en effet, la plupart des sites d´esirant am´eliorer les services propos´es se tournent vers le concept de sites web adaptatifs [PE97].
En savoir plus

149 En savoir plus

Fouille de données complexes : des relevés terrain aux données satellitaires pour la cartographie de paysages agricoles

Fouille de données complexes : des relevés terrain aux données satellitaires pour la cartographie de paysages agricoles

1. Introduction Motivés par des problèmes d’Aide à la Décision, les chercheurs de différentes communautés (Intelligence Artificielle, Statistiques, Bases de Données ...) se sont in- téressés à la conception et au développement d’une nouvelle génération d’outils per- mettant d’extraire automatiquement de la connaissance de grandes bases de données. Ces outils, techniques et approches sont le sujet d’un thème de recherche connu sous le nom de Knowledge Discovery in Databases ou KDD (Extraction de Connaissances dans les Bases de Données) ou Data Mining (Fouille de Données). Elles sont utilisées dans de nombreux domaines d’applications. Les exemples les plus courants sont les compagnies d’assurance, les compagnies bancaires (crédit, prédiction du marché, dé- tection de fraudes), le marketing (comportement des consommateurs, mailing person- nalisé), la recherche médicale (aide au diagnostic, au traitement, surveillance de po- pulation sensible), les réseaux de communication (détection de situations alarmantes, prédiction d’incidents), l’analyse de données spatiales, etc.
En savoir plus

14 En savoir plus

Modélisation et extraction de données pour un entrepôt objet

Modélisation et extraction de données pour un entrepôt objet

décision restent stockées dans les sources de données et sont extraites uniquement au moment des mises à jour de l'entrepôt. L'intégration s'appuie sur des techniques de bases de données fédérées [SAMO98] et réparties [RAVA95]. - La construction consiste à extraire les données pertinentes pour la prise de décision, puis à les recopier dans l’entrepôt de données, tout en conservant, le cas échéant, les changements d’états des données. Par conséquent, l'entrepôt de données constitue une collection centralisée, de données matérialisées et historiques (conservation des évolutions), disponibles pour les applications décisionnelles. Le modèle de l'entrepôt décrivant ses données doit supporter des structures complexes [PEDE98] et supporter l'évolution de ses données au cours du temps [INMO96] [PEDE98] [YANG00].
En savoir plus

21 En savoir plus

Visualisation de données dynamiques et complexes : des séries temporelles hiérarchiques aux graphes multicouches

Visualisation de données dynamiques et complexes : des séries temporelles hiérarchiques aux graphes multicouches

4.2.2 Fouille visuelle de graphes L'objectif de VERTIGo est de visualiser les résultats à partir d'une requête ex- primée sous la forme d'un graphe. En outre, la visualisation est fortement intercon- nectée avec le moteur de recherche et permet à l'utilisateur de pouvoir lancer, mettre en pause ou analyser des résultats partiels. L'une des perspectives est de poursuivre ces travaux en considérant non plus la recherche de sous-graphes mais l'extraction de sous-graphes fréquents. De nombreuses approches existent (e.g. [ 38 , 42 ]) et il se- rait intéressant de proposer un outil visuel pour les piloter. De manière à mieux intégrer l'utilisateur dans le processus d'extraction, de nouvelles fonctionnalités vi- suelles pourraient être proposées pour permettre de sélectionner des zones de don- nées vers lesquelles l'utilisateur souhaite se focaliser. Par exemple, dans le cas du graphe DBLP (voir chapitre 3 ), l'utilisateur pourrait vouloir extraire uniquement les graphes pour une seule communauté. D'autres problèmes doivent également être considérés et sont plus liés aux algorithmes d'extraction : comment appréhender la sélection de l'utilisateur dans l'espace de recherche ? Quid des paramètres d'extrac- tion ? Par exemple le support minimal utilisé couramment dans les approches doit-il être adapté à la partie sélectionnée ou encore à l'ensemble des données ? De manière complémentaire, VERTIGo pourrait proposer une nouvelle vue pour interagir avec l'espace de recherche. Elle pourrait mettre en évidence et éventuellement proposer des mécanismes de ltrage d'une région de l'espace de recherche.
En savoir plus

123 En savoir plus

Visualisation de données dynamiques et complexes : des séries temporelles hiérarchiques aux graphes multicouches

Visualisation de données dynamiques et complexes : des séries temporelles hiérarchiques aux graphes multicouches

4.2.2 Fouille visuelle de graphes L'objectif de VERTIGo est de visualiser les résultats à partir d'une requête ex- primée sous la forme d'un graphe. En outre, la visualisation est fortement intercon- nectée avec le moteur de recherche et permet à l'utilisateur de pouvoir lancer, mettre en pause ou analyser des résultats partiels. L'une des perspectives est de poursuivre ces travaux en considérant non plus la recherche de sous-graphes mais l'extraction de sous-graphes fréquents. De nombreuses approches existent (e.g. [ 38 , 42 ]) et il se- rait intéressant de proposer un outil visuel pour les piloter. De manière à mieux intégrer l'utilisateur dans le processus d'extraction, de nouvelles fonctionnalités vi- suelles pourraient être proposées pour permettre de sélectionner des zones de don- nées vers lesquelles l'utilisateur souhaite se focaliser. Par exemple, dans le cas du graphe DBLP (voir chapitre 3 ), l'utilisateur pourrait vouloir extraire uniquement les graphes pour une seule communauté. D'autres problèmes doivent également être considérés et sont plus liés aux algorithmes d'extraction : comment appréhender la sélection de l'utilisateur dans l'espace de recherche ? Quid des paramètres d'extrac- tion ? Par exemple le support minimal utilisé couramment dans les approches doit-il être adapté à la partie sélectionnée ou encore à l'ensemble des données ? De manière complémentaire, VERTIGo pourrait proposer une nouvelle vue pour interagir avec l'espace de recherche. Elle pourrait mettre en évidence et éventuellement proposer des mécanismes de ltrage d'une région de l'espace de recherche.
En savoir plus

123 En savoir plus

Extraction automatique des mots-clés à partir de publications scientifiques pour l'indexation et l'ouverture des données en agronomie

Extraction automatique des mots-clés à partir de publications scientifiques pour l'indexation et l'ouverture des données en agronomie

Mesures d'associations entre les mots BioTex prend en compte deux fac- teurs pour extraire la terminologie. Tout d’abord, le logiciel extrait des termes selon des patrons syntaxiques de´finis (nom-adjectif, adjectif-nom, nom-pre´position-nom, etc.). Apre`s un tel filtrage linguistique, un autre filtrage statistique est applique´. Celui- ci mesure l’association entre les mots composant un terme (par exemple, « agriculture familiale ») en utilisant une mesure appele´e C-value ( Frantzi et al., 2000 ) tout en inte´grant la ponde´ration TF-IDF. Le but de C- value est d’ame´liorer l’extraction des termes complexes particulie`rement adapte´s pour les domaines de spe´cia- lite´. Le crite`re mis en place permet de favoriser les termes n’apparaissant pas, de manie`re significative, dans des termes plus longs. Par exemple, dans un corpus spe´cialise´ lie´ a` l’oph- talmologie, Frantzi et al. (2000) mon- trent qu’un terme plus ge´ne´ral comme « soft contact » est non pertinent alors que le terme plus long et donc plus spe´cifique de « soft contact lens » se re´ve`le tout a` fait pertinent.
En savoir plus

8 En savoir plus

Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absence

Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absence

Dans ce mémoire, nous utilisons toutefois l’expression « interactions d’ordre supérieur » pour désigner des modèles combinatoires (combinatorial higher-order models [ 36 ]), c’est-à-dire des structures qui comportent des « liens » pouvant rattacher plus d’un noeud. Ces « liens » indiquent donc des interactions qui se produisent entre un groupe arbitraire d’éléments. Par analogie, pour préparer un mojito, nous devons faire en sorte que la lime, le sucre, la menthe, l’eau pétillante, le rhum et la glace interagissent tous ensemble. Le mélange ainsi produit forme un tout que nous ne pouvons pas simplement séparer en ses différentes paires d’ingrédients. Il en résulte d’ailleurs un délicieux cocktail d’interactions. Plus sérieusement, nous pouvons penser à des scientifiques qui collaborent pour écrire un article. Même s’il est possible qu’un groupe d’auteurs ait travaillé en paires, il y a sans doute eu des moments où tous se sont réunis pour en discuter. L’article en question est donc le fruit d’une coopération totale, et non pas la somme de chacune des paires. Autrement dit, les modèles combinatoires écartent l’hypothèse limitante des réseaux et permettent d’encoder des « superliens » pouvant regrouper plus de deux noeuds dans des structures mathématiques appelées hypergraphes et complexes simpliciaux.
En savoir plus

155 En savoir plus

Extraction des variations spatio-temporelles du champ de gravité à partir des données de la mission spatiale GRACE : méthodes et applications géophysiques

Extraction des variations spatio-temporelles du champ de gravité à partir des données de la mission spatiale GRACE : méthodes et applications géophysiques

Dans cette thèse, nous proposons une approche différente, utilisant une technique de fil- trage spatio-temporel, la Multichannel Singular Spectrum Analysis (M-SSA) décrite dans le Chapitre 2. La M-SSA est une méthode s’adaptant aux données, à variables multiples et non-paramétrique, qui exploite simultanément les corrélations spatiales et temporelles d’un champ géophysique. Nous utilisons la M-SSA sur 13 ans de données GRACE en harmoniques sphériques distribuées par cinq centres de calculs. Nous montrons que cette méthode permet d’extraire les modes de variabilité communs aux différentes solutions, et de réduire significa- tivement les erreurs spatio-temporelles spécifiques à chaque solution et liées aux différentes stratégies de calculs. En particulier, cette méthode filtre efficacement les stries Nord-Sud dues, entre autres, aux imperfections des modèles de corrections des phénomènes connus.
En savoir plus

141 En savoir plus

Conception et évaluation de techniques d'interaction pour l'exploration de données complexes dans de larges espaces d'affichage

Conception et évaluation de techniques d'interaction pour l'exploration de données complexes dans de larges espaces d'affichage

In this section, we highlighted the advantages large displays offer for the exploration of large volume of data, namely: their high resolutions, which allow them to display large amoun[r]

222 En savoir plus

Fouille de données issues d'études psychologiques liées au vieillissement : extraction de règles graduelles

Fouille de données issues d'études psychologiques liées au vieillissement : extraction de règles graduelles

7.1. Informatique et psychologie cognitive Pendant longtemps, l’informatique a été utilisée soit dans un but de simulation de modèles explicatifs par la reproduction automatique de processus humains, soit en tant qu’outils d’analyses et de traitement de données. La simulation de la pensée humaine a été étudiée par l’intelligence artificielle (e.g. (Wagman, 1993)). Il s’agit alors d’utili- ser les théories proposées par la psychologie cognitive afin de raisonner et/ou prendre des décisions. Entre autres, la psychologie cognitive permet de sélectionner quels at- tributs privilégier pour modéliser un système ou un environnement donné. Dans le cas inverse, la psychologie a recours à l’informatique lorsque l’on ne peut pas observer directement le comportement. Par exemple, pour des questions d’éthique, il n’est pas possible d’observer directement l’implication comportementale de telle ou telle struc- ture cérébrale en les lésant directement (expérimentation animale) dès lors qu’il s’agit d’un être humain. La simulation permet alors de générer de nouvelles hypothèses de recherche pour les experts.
En savoir plus

21 En savoir plus

Amélioration et test d’une solution d’auscultation de terrain de champs de déformation complexes par intégration de données InSAR, GNSS et nivellement

Amélioration et test d’une solution d’auscultation de terrain de champs de déformation complexes par intégration de données InSAR, GNSS et nivellement

II.4.2 La pondération des données de nivellement La précision des mesures de nivellement est déterminée en fonction de la distance, de la longueur des cheminements, la possibilité d’effectuer des fermetures sur des mailles d’ordre inférieur et réputées stables, la méthode de mesure mise en place et les spécifications techniques du matériel utilisé. Un autre paramètre doit être pris en compte afin d’estimer le plus vraisemblablement possible la qualité des mesures, c’est l’environnement dans lequel a été réalisé la mesure. En effet, des conditions climatiques difficiles ou l’instabilité d’un repère de nivellement peuvent impacter significativement la qualité de la donnée. Bien que difficile à quantifier ce paramètre environnemental de la mesure doit être pris en compte. Il peut arriver que les mesures fournies ne soient pas accompagnées d’incertitudes. Dans ce cas, on pourra estimer celles-ci en fonction de la méthode de mesure, du matériel et la possibilité ou pas de fermer les cheminements sur des repères de nivellement réputés stables, disposés de part et d’autre des sections susceptibles d’être affectées par une déformation. Dans ce cas, il faudra être vigilant et garder un regard critique sur les données tout au long du traitement.
En savoir plus

73 En savoir plus

Extraction de résultats expérimentaux d’articles scientifiques pour le peuplement d’une base de données

Extraction de résultats expérimentaux d’articles scientifiques pour le peuplement d’une base de données

Aussi, après avoir présenté l’état de l’art section 2, nous présenterons la base de données QKDB en détail (section 3) et décrirons ensuite les différents procédés que nous avons mis en œuvre pour reconnaître les résultats d’expérimentation avec leurs descripteurs dans les articles (section 4), en insistant sur la reconnaissance des termes du domaine et de leurs variations (section 5). Ensuite, nous présenterons les résultats obtenus ainsi que leur évaluation (section 6) et enfin, section 7, nous présenterons l’assistant que nous avons développé qui permet la conversion d’un fichier HTML au format XML que nous avons défini, applique le processus d’extraction d’information pour proposer les informations à extraire et permet de visualiser, modifier et valider ces informations avant leur insertion en base de données.
En savoir plus

13 En savoir plus

BAVELA BAssin VErsant LAcustre. Méthode de délimitation et extraction des données spatiales. Rapport final.

BAVELA BAssin VErsant LAcustre. Méthode de délimitation et extraction des données spatiales. Rapport final.

Bavela : BAssin VErsant LAcustre HEYD C., ALLEAUME S., ARGILLIER C. R ESUME Ce document rapporte la méthode utilisée pour délimiter les contours des bassins versants lacustres DCE d’une part, et les informations qui ont été extraites et stockées dans une base de données après validation de ces délimitations. Ces informations concernent majoritairement les plans d’eau sur lesquels la France doit faire un rapportage de la mise en œuvre de la DCE à la commission européenne.

25 En savoir plus

Proposition de modes de visualisation et d'interaction innovants pour les grandes masses de données et/ou les données structurées complexes en prenant en compte les limitations perceptives des utilisateurs

Proposition de modes de visualisation et d'interaction innovants pour les grandes masses de données et/ou les données structurées complexes en prenant en compte les limitations perceptives des utilisateurs

dispositif immersif 4π sr 39 204 000 Le premier constat issu de ces calculs est que s’il semble exister une limite de volume en termes d’affichage, cette dernière est très dépendante du dispositif. De plus, bien que dans les prochaines années la technologie devrait permettre de créer des affichages ayant autant de pixels que d’éléments distinguables, ce n’est actuellement pas le cas. Par exemple, un écran standard (full HD) contient en moyenne 2 millions de pixels alors que nous avons identifié qu’un utilisateur peut distinguer plus de 5 millions d’éléments sur un tel dispositif. La limite d’éléments distinguables est donc actuellement bornée par le nombre de pixels que possèdent les dispositifs les plus courants. Enfin, cette limite perceptive est supplantée par une limite cognitive difficilement définissable. Nous nous contentons donc d’identifier l’existence d’une limite haute sans pouvoir la chiffrer. Vis-à- vis d’une limite basse, la limite maximale d’objets identifiables de manière pré-attentive est de quatre [35]. Une représentation contenant moins de cinq objets ne nécessitera donc pas certaines précautions facilitant la perception. Nous identifions ainsi trois types de données liés au volume : un volume faible, un volume moyen et un volume important (cf. figure 4.11).
En savoir plus

151 En savoir plus

Extraction d'éléments curvilignes guidée par des mécanismes attentionnels pour des images de télédétection: approche par fusion de données

Extraction d'éléments curvilignes guidée par des mécanismes attentionnels pour des images de télédétection: approche par fusion de données

Comme nous l’avons vu pr´ec´edemment, partant des listes de priorit´es pour chaque mode, la couverture de l’image se fait en suivant certaines contraintes : d’un cˆot´e la liste de prior[r]

347 En savoir plus

Show all 6087 documents...