• Aucun résultat trouvé

2.3.1 Analyse formelle de concepts et clustering sémantique d’attributs : l’approche

"Reverse scaling"

La mesure de similarité sémantique généralisée SimDAG pourrait aussi être utilisée

conjoin-tement avec l’approche d’analyse formelle de concepts (FCA). En effet, la FCA est une méthode

de bi-clustering qui permet de regrouper simultanément des objets partageant un ensemble

d’at-tributs, représentés par un concept formel. L’intérêt ici serait, dans le cas où les attributs sont

très nombreux et représentés dans un vocabulaire structuré, de réaliser a priori un clustering

"sémantique" entre les attributs. Ce processus permettra l’agrégation d’attributs qui vont être

regroupés avec les objets qui les partagent, et par conséquent de générer des concepts formels ou

des motifs fréquents facilement interprétatbles et plus pertinents vis-à-vis des besoins de

l’utili-sateur.

2.3.2 Prise en compte des différences entre les relations sémantiques

Dans un vocabulaire structuré, il peut y avoir plusieurs types de relations sémantiques. Pour

cette raison, et puisque la similarité sémantique SimDAG a été proposée dans le but de son

application à divers vocabulaires structurés en rDAG, je voudrais l’adapter pour tenir compte de

la variabilité des relations sémantiques, en considérant de façon prioritaire les relations qui sont

de type spécialisation/généralisation.

Au terme de ce travail, il apparaît que les contributions proposées tant au domaine de

l’in-formatique qu’à celui de la bioinl’in-formatique apparaissent très prometteuses. Le caractère

plu-ridisciplinaire de la thèse m’a contraint à appliquer les différentes approches sur des données

biologiques. Cependant, il est tout à fait imaginable que ces approches puissent être appliquées

à d’autres domaines d’application. Finalement, à cause de la complexité des données

transcrip-tomiques, les outils de fouille appliqués à ce type de données devraient être à la fois robustes et

satisfaisants. A ce stade, il me semble que ma contribution à ce domaine et les outils que j’ai

proposés répondent à ces contraintes.

Quatre collections d’ensembles de

référence de gènes

A.1 Liste des 13 pathways KEGG de l’espèce levure :

<?xml version="1.0" encoding="UTF-8" ?>

- <Dataset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:noNamespaceSchemaLocation=

"Dataset-forwebsite.xsd" Number="1" Source_Database="KEGG

Pathways" Release="Dec 2009">

<Total_Set_Number>13</Total_Set_Number>

<Total_Gene_Number>169</Total_Gene_Number>

<Total_GO_annotations IEA="Yes">435</Total_GO_annotations>

<Total_GO_annotations IEA="No">572</Total_GO_annotations>

<To_Be_Tested_With>GO Biological Process Annotations</To_Be_Tested_With>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00562">Inositol phosphate metabolism</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.1">Carbohydrate Metabolism</Subcategory>

<Number_of_genes>15</Number_of_genes>

<List_of_genes>851620; 851753; 851789; 851881; 850574; 856442;

853288; 850941; 851014; 855618; 855454; 854089; 854276; 855860;

856229;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00920">Sulfur Metabolism</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.2">Energy Metabolism</Subcategory>

<Number_of_genes>13</Number_of_genes>

<List_of_genes>850307; 850588; 850616; 852691; 852895; 853466;

853594; 853869; 851010; 854892;

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00600">Sphingolipid Metabolism</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.3">Lipid Metabolism</Subcategory>

<Number_of_genes>13</Number_of_genes>

<List_of_genes>852481; 852568; 851634; 851888; 851891; 856386;

853307; 853861; 853927; 850964;

855342; 854342; 856018;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00300">Lysine Biosynthesis</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.5">Amino Acid Metabolism</Subcategory>

<Number_of_genes>13</Number_of_genes>

- <!-- !!! on KEGG web site, nb of genes = 11 (august 2011):

LYS5 852723 and BAN3 853386 have

been assigned to other pathways

-->

<List_of_genes>852412; 851425; 851346; 851736; 851820; 856778;

852723; 852672; 854714; 854852;

853386; 853604; 855786;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00410">beta-Alanine metabolism</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.5">Amino Acid Metabolism</Subcategory>

<Number_of_genes>8</Number_of_genes>

- <!-- !!! on KEGG web site, nb of genes = 11 (august 2011)

-->

<List_of_genes>856804; 852902; 854661; 850838; 855291; 854556;

856044; 856182;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00514">Other types of O-glycan biosynthesis</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.7">Glycan Biosynthesis and Metabolism

</Subcategory>

<Number_of_genes>13</Number_of_genes>

- <!-- on KEGG web site, nb of genes = 13 (august 2011)

-->

<List_of_genes>851210; 852504; 851464; 851462; 851902; 852094;

856718; 852635; 853113; 854801;

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00670">One carbon pool by folate</Name>

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.8">Metabolism of Cofactors and Vitamins

</Subcategory>

<Number_of_genes>14</Number_of_genes>

- <!-- !!! on KEGG web site, nb of genes = 15 (august 2011)

-->

<List_of_genes>852270; 852378; 852565; 851582; 852017; 856932;

852752; 853118; 853955; 850715;

850747; 855149; 854241; 854411;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce00903" Status="dismissed by KEGG revision 11-4-2">

Limonene and pinene degradation</Name>

- <!-- !!! problem: in up-to-date KEGG PTHWAY versions, there is no

more sce00903, only ko00903 is found and without yeast genes

-->

<Category KEGG_ID="1">Metabolism</Category>

<Subcategory KEGG_ID="1.9">Metabolism of Terpenoids and Polyketides

</Subcategory>

<Number_of_genes>7</Number_of_genes>

<List_of_genes>856804; 850500; 853237; 853878; 854556; 856044;

856163;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce03022">Basal transcription factors</Name>

<Category KEGG_ID="2">Genetic Information Processing</Category>

<Subcategory KEGG_ID="2.1">Transcription</Subcategory>

<Number_of_genes>24</Number_of_genes>

- <!-- !!! on KEGG web site, nb of genes = 32 (august 2011)

-->

<List_of_genes>852497; 850409; 851723; 851745; 851906; 856891;

852839; 852766; 852888;

853098; 853191; 853840; 853807; 853936; 850691; 854993; 854875;

855267; 855276; 854369;

855981; 855974; 856169; 856201;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname=

"budding yeast">

<Name KEGG_ID="Sce04130">SNARE interactions in vesicular transport</Name>

<Category KEGG_ID="2">Genetic Information Processing</Category>

<Number_of_genes>23</Number_of_genes>

- <!-- on KEGG web site, nb of genes = 23 (august 2011)

-->

<List_of_genes>851219; 851203; 852079; 852109; 852780; 852660;

852892; 856354; 854813; 853863; 853638; 850713; 850767; 850973; 855031;

855221; 855237; 854142; 854201; 854242;

854273; 854505; 855844;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae" Species_shortname

="budding yeast">

<Name KEGG_ID="Sce03450" Status="Complete and OK">Non-homologous

end-joining</Name>

<Category KEGG_ID="2">Genetic Information Processing</Category>

<Subcategory KEGG_ID="2.4">Replication and Repair</Subcategory>

<Number_of_genes>10</Number_of_genes>

- <!-- on KEGG web site, nb of genes = 10 (august 2011)

-->

<List_of_genes>850372; 851975; 852790; 853747; 850970; 855132; 855264;

855328; 855471;

854166;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce04070">Phosphatidylinositol signaling system</Name>

<Category KEGG_ID="3">Environmental Information Processing</Category>

<Subcategory KEGG_ID="3.2">Signal Transduction</Subcategory>

<Number_of_genes>15</Number_of_genes>

- <!-- on KEGG web site, nb of genes = 15 (august 2011)

-->

<List_of_genes>852169; 852317; 852406; 851789; 851881; 850574; 856442;

850941; 851014;

855618; 855454; 854089; 854276; 855860; 856229;</List_of_genes>

</Pathway>

- <Pathway Species_scientificname="Saccharomyces cerevisiae"

Species_shortname="budding yeast">

<Name KEGG_ID="Sce04140">Regulation of autophagy</Name>

<Category KEGG_ID="4">Cellular Processes</Category>

<Subcategory KEGG_ID="4.1">Transport and Catabolism</Subcategory>

<Number_of_genes>17</Number_of_genes>

- <!-- on KEGG web site, nb of genes = 17 (august 2011)

-->

<List_of_genes>852200; 852394; 852425; 852518; 856702; 852695;

856576; 850684; 850941;

851142; 855194; 855498; 855741; 855983; 855954; 856162; 856315;

</List_of_genes>

</Pathway>

</Dataset>

A.2 Liste des 13 pathways KEGG de l’espèce humaine :