• Aucun résultat trouvé

Modular text mining for protein-protein interactions extraction

N/A
N/A
Protected

Academic year: 2022

Partager "Modular text mining for protein-protein interactions extraction"

Copied!
197
0
0

Texte intégral

(1)

Thesis

Reference

Modular text mining for protein-protein interactions extraction

EHRLER, Frédéric

Abstract

Since researchers discovered that proteins do not function isolated in a cell but act in multi-protein complexes, the number of publications about protein-protein interactions (PPI) has increased significantly. This large amount of unstructured textual information is difficult to exploit by humans as these have trouble to localize the information of interest efficiently.

Therefore, it is necessary to develop techniques to automate the extraction of protein-protein interactions from free text. In this thesis, we explore the PPI extraction from the point of view of database curators and study the dependencies between the different steps of the PPI extraction process. It starts with the recognition of articles containing a PPI. Once done, the proteins are located in the selected documents. These proteins must then be unambiguously identified, and finally the interactions are extracted. These different steps allow u to study exhaustively various data mining techniques. The outcomes of this thesis confirm the crucial importance of the performance consistency of the tasks involved in a process over their individual performance. [...]

EHRLER, Frédéric. Modular text mining for protein-protein interactions extraction. Thèse de doctorat : Univ. Genève, 2009, no. Sc. 2009

URN : urn:nbn:ch:unige-129364

DOI : 10.13097/archive-ouverte/unige:12936

Available at:

http://archive-ouverte.unige.ch/unige:12936

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Professeur C. Pellegrini HAUTE ÉCOLE DE GESTION DE GENÈVE

Département des sciences de l’information Professeur P. Ruch

Modular Text Mining For Protein-Protein Interactions Extraction

THÈSE

présentée à la Faculté des sciences de l’Université de Genève pour obtenir le grade de Docteur ès sciences, mention informatique

Par Frédéric EHRLER

De Genève (GE)

Thèse N ° 4127

GENÈVE ReproMail

2010

(3)
(4)

TO

To all the people who supported me during these long years of PhD…

(5)
(6)

Acknowledgment

I would like to thank all the people who have been supporting me over the past few years. This work could not have been done without them, as they have helped me become the person I am today. It is hard to cite them all, so my apologies if I have omitted your name in the following list.

First, I would like to express my gratitude to Professor Christian Pellegrini who accepted me as a PhD student in his group. I really appreciated his sound advice, which he provided each time I needed.

More broadly, I am thankful to all the members of the GAIL group, who are not only colleagues but also friends. The other person who played a key role in the accomplishment of this work is Professor Patrick Ruch. I wish I could have spent more time with him but working with him definitely increased my interest about science. He is someone I have the deepest respect for, not only for his accomplishments in his scientific career, but also for the interesting discussions we had about many other subjects. Of course, I cannot forget a few other members of the group, especially Julien Gobeill and Emilie Pasche who were always ready to give me a hand to perform laborious tasks. I am also grateful to the members of the jury, Frederique Lisacek, Ioannis Xenarios and Martine Romacker, for their reviewing work that I hope they found interesting.

In addition, there are many other people from other organisations that I would like to thank for their continuous and invaluable support: the organizer of the BioCreAtIvE contest, especially Alphonso Valencia, Martin Krallinger and Florian Leitner without whom my PhD would definitively not have been the same; numerous members of the Swiss Institute of Bioinformatic (SIB), such as Anne-Lise Veuthey, for their availability and for sharing some precious high quality resources; the Hopitaux Universitaires de Genève (HUG), where Professor Antoine Geissbühler and Professor Chrisitian Lovis integrated me in their teams and taught me so many interesting things about the mechanisms of the health system; Dietrich Rebholz-Schuhmann from EBI for providing me with the interactions verbs I required; and last but not least, I would like to thank the Département de l'Instruction Publique (DIP) of Geneva and the Fonds de la Recherche Scientifique (FNRS) for funding the various projects I have been working on. In addition, I would like to acknowledge Professor Robert Dale who welcomed me in his group during the year I spent at the Macquarie University in Sydney, as well as all the members of his group with whom I have learnt a lot and also had really nice time. To conclude, I would also like to express my gratitude to the secretary of the Centre Universitaire d'Informatique (CUI) Germaine Gusthiot, and to the secretary of the Service d’Informatique Medical (SIM), Martine Burford-Peclard, for their help with all the administrative work I had to go through.

On the personal side, I have many people to thank. For sure, I am especially grateful to my family on whom, I know, I can always count. Thanks to Michel who motivated me to write a PhD, to Dina to for all the fun I had while sharing my office with her, to my flatmates Karl and Ben-j who let me work in peace in the kitchen during endless hours. Thanks as well to all of my friends that were always ready to make fun of me about the deadline of my PhD.

(7)
(8)

Résumé

Problématique

Suite aux améliorations des moyens technologiques nécessaires aux recherches dans le domaine de la biologie, les chercheurs ont produit ces dernières années une grande quantité de données relatives aux gènes et protéines. Des méthodes à fort rendement, telles que l’identification de protéines par le moyen de la spectrométrie de masse, des matrices d’expression de gènes, de la méthode dite «doubles hybrides», de l’utilisation d’ordinateurs de façon coordonnée avec des logiciels de gestion de données et de l’Internet, ont induit une industrialisation de beaucoup d’aspects de la recherche en biologie. Cette augmentation de la quantité de données produites étant corrélée avec une augmentation des publications relatives à ces découvertes, les chercheurs ne sont plus à même de se tenir informés sur les dernières découvertes concernant leur champ de recherche.

Afin de donner du sens aux données générées, les biologistes doivent de plus en plus de créer des connexions avec les informations publiées dans la littérature. L’exploration automatique de la littérature offre l’opportunité d’intégrer plusieurs fragments d’information produits par des chercheurs de différents domaines d’expertise pour obtenir une vue des relations liant plusieurs gènes, protéines et réaction chimiques dans les cellules et divers organismes. Malheureusement, il devient difficile pour un humain de localiser de façon efficace les informations dont il a besoin parmi la grande quantité de littérature disponible. C’est pourquoi ont vu le jour de nouveaux besoins relatifs à la gestion et l’extraction de connaissance de données parmi ces grands volumes.

L’importance des interactions

Il y a une certitude croissante que le futur de la biologie réside dans la compréhension des réseaux d’entités biologiques plutôt que dans les entités individuelles. Les recherches récentes dans le domaine biologique ont montré que la compréhension des processus biologiques complexes requiert davantage que la simple connaissance des gènes et protéines existants dans les organismes. Les dernières études suggèrent que les différences entre espèces ne sont pas issues des propriétés des gènes mais plutôt de la relation entre ces mêmes gènes. Le point clef pour comprendre ces processus biologiques est de découvrir comment les gènes et les protéines interagissent en tant que complexes multi-protéiniques ou réseaux de protéines.

L’étude des réseaux d’interactions entre protéines n’est pas seulement important d’un point de vue théorique mais aussi en termes d’applications pratiques. Ces études peuvent amener à la découverte de nouveaux médicaments qui agissent en interrompant ou en modifiant les interactions entre protéines plutôt qu’en visant individuellement les protéines.

De ce constat, on comprend pourquoi nous nous attelons dans ce mémoire à l’étude du processus d’extraction automatiquement de la littérature les interactions entre protéines. Plus précisément, nous avons fait le choix dans ce travail d’examiner cette tâche du point de vue spécifique des annotateurs. Considérant leur point de vue, on se rend compte que le processus d’extraction d’interactions entre protéines que l’on se représente généralement comme une tâche atomique est en fait le résultat d’un long processus qui commence avec une collection de documents et se termine

(9)

par une liste d’interactions protéiniques. C’est pourquoi, nous avons décomposé le processus en quatre étapes que nous étudions tout au long des chapitres de ce mémoire.

1. La première est une étape de classification automatique de documents dont le but est de trier la collection initiale de documents afin de déterminer quels sont les documents dont le contenu est susceptible de contenir des interactions entre protéines.

2. La deuxième concerne l’extraction d’entités nommées consistant à débusquer dans le texte tous les noms de gènes et protéines qui apparaissent. Cette étape sera bien évidemment indispensable à la construction des interactions.

3. La troisième étape est celle de normalisation qui consiste à identifier de façon non-ambigüe les différentes protéines extraites durant l’extraction d’entités nommées. Ce problème est critique dans le domaine de la génomique du fait de la grande hétérogénéité des noms, attribués par les chercheurs, aux protéines qu’ils manipulent.

4. Enfin, la quatrième étape est l’extraction d’interactions entre protéines. Extraire les interactions entre documents requiert l’extraction de plusieurs informations qu’il faudra combiner. Parmi ces informations, on retrouve bien sûr les noms de protéines mais aussi l’espèce dont les protéines proviennent. Une troisième information nécessaire est un mot indiquant la présence d’une interaction qui prend le plus généralement la forme d’un verbe transitif.

Ce découpage en quatre phases a également été motivé par la compétition « BioCreAtIvE II » qui a eu lieu en 2008 et qui a vu une vingtaine d’équipes de différents pays s’atteler à résoudre ces mêmes problèmes. Respecter cette division nous permet donc de comparer nos approches à celles qui ont été employées durant la compétition et d’évaluer ainsi de façon non ambigüe la qualité de nos résultats.

En étudiant le fonctionnement des différentes étapes du processus menant à l’extraction de protéines, on cherche à atteindre un but double. D’une part, on s’attèle à optimiser chaque tâche indépendamment les unes des autres. A cette fin, on explore l’utilisation d’un grand nombre de techniques pouvant être mises en œuvre pour répondre aux obstacles rencontrés lors des différentes étapes du processus. Les résultats obtenus par les différentes stratégies sont systématiquement évalués et comparés afin de savoir où il serait intéressant de fournir des efforts plus accentués.

D’autre part, on s’interroge sur l’interdépendance entre ces différentes tâches. Souvent, les processus informatiques sont considérés de façon monolithique et l’utilisation qu’il en est fait dans un contexte plus globale, ou comme étape d’une tâche plus complexe, n’est pas toujours prise en compte. Dans le cadre d’une vision plus global de notre problème, il est intéressant de découvrir comment les résultats obtenus à une étape influencent les résultats de l’étape suivante. Par cette étude, nous désirons découvrir quels sont les points sur lesquels il faudrait concentrer les efforts et nous interroger s’il est utile de dépenser une grande quantité d’énergie pour améliorer des parties du processus qui n’auront pas d’impact sur des tâches en aval.

(10)

Chapitre 1 : l’état de l’art

Comme nous l’avons dit, le processus amenant à l’extraction d’interactions entre protéines est constitué de quatre étapes bien distinctes. Elles couvrent une palette de problèmes forts différents qui sont traités dans l’état de l’art.

La classification de documents

La classification de documents est un domaine dans lequel beaucoup de recherches ont déjà effectuées, cependant il est toujours utile de bien rappeler comment cette tâche doit être définie exactement. Une fois le problème correctement défini, nous discutons de la représentation la plus largement utilisée pour manipuler les documents lors de la classification textuelle : la représentation vectorielle. Etant donné que les documents ne sont généralement pas fournis dans un format approprié pour être utilisés directement à un algorithme d’apprentissage, on projette ces documents dans un espace vectoriel dans lequel chaque mot du corpus représente une dimension. La définition de cette notion d’espace vectoriel nous amène logiquement à parler de la sélection de caractéristiques. En effet, la représentation des documents dans un espace vectoriel génère habituellement des espaces de haute dimensionnalité dont toutes les composantes ne possèdent pas la même importance. En conséquence, il est possible de réduire la dimension de cet espace en supprimant les caractéristiques qui ne détiennent pas de pouvoir de discrimination et ainsi améliorer l’efficacité et éviter le sur-apprentissage.

Nous abordons également le problème de la classification déséquilibrée. Lors d’une classification binaire, il n’est pas rare qu’une classe soit plus représentée que l’autre, dans ce cas le modèle de classification va tendre à privilégier la classe la plus représentée. Cela devient problématique lorsque l’on applique le modèle sur des données possédant une distribution différente. Nous abordons donc les différents moyens visant à rééquilibrer les données afin d’éviter cet effet malencontreux. Enfin, nous passons en revue quelques unes des principales méthodes de classification automatique basées sur l’apprentissage. Nous concentrons nos explications sur les méthodes qui ont montré les meilleurs résultats dans le passé pour la résolution de problèmes de classification textuelle. Nous donnons également un petit aperçu de l’évolution des techniques utilisées pour résoudre ce problème. Nous faisons une rapide revue depuis les premiers systèmes à base de règles jusqu'à l’utilisation d’algorithmes à base d’apprentissage comme nous les employons encore aujourd’hui.

La reconnaissance et normalisation d’entités nommées

Reconnaître les entités nommées est un problème qui à été initialement défini dans un tout autre domaine que la biologie. Généralement, l’expression entité nommée fait référence aux entités qui sont définies comme rigides, c’est-à-dire qui ne changent pas de signification selon le contexte. Par exemple, la compagnie automobile créée par Henry Ford en 1903 est désignée par Ford. Les entités rigides incluent les noms propres mais aussi des termes extraits du domaine naturel comme les espèces ou les substances. Les premières tentatives consistaient à extraire de textes les entités représentant des compagnies, des personnes ou encore des dates, ce n’est que plus tard que les chercheurs se sont aussi intéressés au domaine des sciences de la vie.

Nous abordons dans cette section les problèmes spécifiques à la terminologie biomédicale. Parmi les difficultés propres à ce domaine, on retrouve par exemple le manque de conventions concernant la

(11)

nomenclature appropriée pour nommer les gènes et protéines. De plus, les chercheurs tendent à utiliser de façon excessive les abréviations et font un usage fréquent des synonymes et homonymes.

Un autre problème réside dans l’ambigüité des termes qui peuvent changer de signification selon le contexte. Par exemple, ferritin peu être une substance biologique ou un test de laboratoire. Enfin, les objets biologiques sont souvent composés de plusieurs mots comme dans human T-cell leukaemia lymphotropic virus type 1 Tax protein. Dans ce cas, il est compliqué de déterminer les frontières auxquelles le terme commence et termine ainsi que de résoudre le chevauchement entre différents candidats.

Nous terminons par la présentation des différentes familles de méthodes qui sont utilisées afin de reconnaitre les entités nommées. Principalement, trois familles de méthodes se partagent le haut de l’affiche. Les méthodes basées sur les dictionnaires, sur des règles et enfin, sur l’apprentissage. Nous verrons que toutes ces méthodes ont leurs avantages et leurs inconvénients. Par exemple, les méthodes basées sur les dictionnaires ont l’avantage de rendre la normalisation aisée, malheureusement la nature dynamique de la terminologie relative aux gènes et protéines rend inappropriée l’utilisation d’un simple algorithme de comparaison de séquences. En effet, dans un domaine comme les sciences de la vie où de nouveaux noms de gènes et protéines sont constamment générées, il est illusoire de penser pouvoir tenir à jour un dictionnaire contenant toutes les entités nommées. Pour ce qui est des méthodes à base de règles, elles ont le désavantage de nécessiter une grande expertise pour être mises en œuvre. Finalement, les méthodes basées sur l’apprentissage ont l’avantage d’être beaucoup plus adaptables mais ne concurrencent malheureusement pas toujours les performances des meilleures solutions à base de règles.

Détecter la position des entités nommées dans le texte n’est que la première partie du processus d’extraction. Une fois celles-ci localisées, il faut ensuite pouvoir les identifier de manière non ambigüe. Pour cela on applique un processus appelé normalisation. Ce processus consiste à associer les entités découvertes dans le texte avec un identificateur unique. Nous ne développons pas de section spécifique à la normalisation des entités nommées car les problèmes concernant la normalisation sont très similaires à ceux que l’on retrouve lors du processus de reconnaissance. En effet, le manque de conventions, l’ambigüité inhérente à la terminologie biomédicale ainsi que la détection de la frontière des termes sont autant de problèmes centraux aussi bien dans le processus de normalisation que dans celui de reconnaissance.

Extraction d’interactions entre protéines

Cette dernière partie de l’état de l’art nous renseigne sur l’importance d’extraire de la littérature les interactions existantes entre protéines. Nous présentons les principales méthodes employées par les chercheurs en biologie pour identifier ces interactions. Nous dévoilons ensuite les principaux problèmes liés à la recherche d’interactions dans les documents. Plus spécifiquement, nous abordons le problème des négations qui apparaît lorsqu’un chercheur présente dans son article un résultat négatif pour indiquer, par exemple, qu’une protéine n’interagit pas avec une autre. L’autre problème d’importance dans le processus de détection est la résolution des anaphores qui rend problématique la correcte identification des entités biologiques participant à des interactions. Pour terminer, nous présentons les principales méthodes employées pour extraire les interactions de la littérature. Les deux méthodes les plus généralement utilisées sont la méthode des cooccurrences ainsi que celle de la génération de patrons syntaxiques. La méthode de détection des cooccurrences consiste à

(12)

rechercher dans les articles les couples de protéines qui ont tendance à apparaître conjointement tandis que la méthode des patrons syntaxiques consiste à définir un certain nombre de patrons susceptibles d’indiquer la présence d’une interaction. Par exemple, on peut définir simplement le patron « Protéine A interagit avec Protéine B». Nous discutons également des avantages et faiblesses de ces différentes méthodes.

Chapitre 2 : Classification automatique de documents But

Dans ce premier chapitre expérimental, notre objectif est de comparer l’utilisation de différents sets de caractéristiques pour représenter les documents dans le but de découvrir lesquels sont les plus adaptés afin de dissocier les documents contenant des interactions entre protéines de ceux qui n’en contiennent pas. On émet ici l’hypothèse que des caractéristiques offrant une vue plus synthétique du contenu des documents seront plus à même d’obtenir de bonne performance. En effet on s’attend à ce que des descripteurs synthétisant le contenu des documents possèdent une plus grande stabilité, même lorsque la nature des données sur lesquelles le modèle est appliqué varie fortement. Afin de tester cette conjecture, on défini plusieurs ensembles de caractéristiques spécifiques pour notre problème et l’on observe leur capacité à rivaliser face à la représentation traditionnelle basée sur les mots (modèle dit « sacs de mots »).

Méthode

Afin de séparer les documents pertinents des non-pertinents selon qu’ils contiennent ou non des informations relatives aux interactions de protéines, on décide d’appliquer un algorithme de classification automatique. Le succès de cet algorithme repose sur un choix judicieux de caractéristiques pour décrire les documents.

Nous définissons trois ensembles de caractéristiques pour la représentation des documents.

1. Le premier est constitué par les mots qui sont les caractéristiques généralement utilisées lors de la classification de documents. Cette représentation a pour fonction de produire les résultats de référence afin de comparer les autres approches.

2. Le deuxième est composé de caractéristiques lexicales. Ces dernières sont relatives à l’attribution de termes d’un vocabulaire contrôlé aux documents afin de les décrire. En attribuant des termes d’un vocabulaire contrôlé, on espère pouvoir octroyer aux documents des concepts transportant une information sémantique plus importante que les mots.

3. Le troisième et dernier ensemble de caractéristiques est défini en utilisant l’expertise du domaine. Ces caractéristiques sont spécifiques à notre tâche et n’ont pas de sens sorties de leur contexte. Cet ensemble possède deux composantes : le nombre de protéines découvert dans les documents et le nombre de verbes transitifs indiquant une possible interaction.

Etant donné la forte adéquation entre ces caractéristiques et le but de la classification, on suppose qu’elles ont le potentiel de créer un modèle capable d’identifier efficacement les documents pertinents.

(13)

Résultats

Les différents ensembles de caractéristiques ainsi que les réglages de l’algorithme d’apprentissage sont évalués de façon exhaustive. En observant les résultats, on réalise qu’aucun des ensembles de caractéristiques définis dans l’espoir d’améliorer les performances n’arrivent à faire mieux que la représentation des documents basé sur le sac de mots. De plus, ce modèle basé sur les mots n’est pas amélioré par la combinaison d’autres caractéristiques. Nous observons également la forte différence entre les performances obtenues lors de l’application du modèle sur l’ensemble de données d’entraînement et de test. Cela révèle une fois encore l’importance de générer des caractéristiques qui ne sont pas trop spécifiques à l’ensemble d’entraînement et conservent leur pouvoir de discrimination sur de nouveaux ensembles de données.

Conclusion

On réalise que la nature de l’ensemble d’entraînement et de test influence fortement les performances. Tous nos efforts pour définir un ensemble de nouvelles caractéristiques dans le but d’améliorer les performances ne se sont pas révélés extrêmement probants mais ont révélé qu’il est possible de générer des modèles efficaces avec un petit nombre de caractéristiques bien choisies.

Chapitre 3 : Reconnaissance de mentions de gène But

Extraire des interactions entre protéines nécessite inévitablement de localiser les gènes/protéines mentionnés dans les documents. Ce problème consistant plus généralement à identifier des éléments de type spécifique dans un document est connu sous le nom de reconnaissance d’entité nommées (NER). Dans ce chapitre, sont explorés différents moyens visant à effectuer la reconnaissance de gène apparaissant dans une collection de documents. De façon concomitante, on étudie l’impact de la qualité de l’ensemble de documents initial sur les performances.

Méthode

Afin de résoudre ce problème de reconnaissance d’entité nommée, nous nous basons encore une fois sur un algorithme d’apprentissage. Nous sommes intéressés à comparer les performances induites par l’utilisation d’un algorithme séquentiel (Conditional Random Field) et l’utilisation d’un non séquentiel (Machine à support vecteur).

A nouveau, le succès de l’algorithme d’apprentissage dépend de la définition d’un ensemble approprié de caractéristiques. Contrairement au chapitre précédent où les objets à classifier étaient des documents, ici on s’intéresse à classifier des mots ou séquences de mots. En effet, on désire savoir, pour chaque mot, si celui-ci fait partie ou non d’un nom de gènes. Nous divisons les caractéristiques choisies en trois familles bien distinctes :

1. Les caractéristiques orthographiques qui regroupent tout ce qui est en rapport avec la structure interne des mots comme par exemple : le nombre de lettres majuscules, le nombre de chiffres ou encore la longueur des mots.

2. Les caractéristiques lexicales qui traitent de l’appartenance du mot à un vocabulaire contrôlé.

(14)

3. Les caractéristiques syntactiques qui couvrent tout ce qui est en rapport avec le mot dans le contexte de la phrase. On retrouve dans ce groupe les informations de décomposition analytique de la phrase qui permettent d’identifier la catégorie des mots. On retrouve également des informations telles que l’appartenance d’un terme à une phrase.

Afin de tester l’importance de l’ensemble initial de documents, on teste trois différents ensembles contenant un taux différent de document négatifs :

1. L’ensemble initial de documents qui contient quasiment autant de documents exempts de mention de gènes que de documents pertinents.

2. Un ensemble contenant les documents de l’ensemble initial classifié comme pertinent.

3. Enfin, un ensemble ne contenant que les documents pertinents du set initial.

Résultats

La partie des expériences cherchant à investiguer l’importance de la qualité de l’ensemble initial des documents sur lequel appliquer la reconnaissance d’entités révèle la réelle utilité de faire un filtrage préalable des documents. En effet, le risque de sélectionner des mots qui ne sont pas des protéines augmente avec le nombre de documents exempt d’interactions fournit en entrée.

Pour ce qui est de la comparaison entre le modèle séquentiel et le non séquentiel, il ne fait aucun doute que le modèle séquentiel fonctionne beaucoup mieux pour la reconnaissance d’entités nommées. Au niveau des différentes caractéristiques utilisées, les résultats diffèrent selon l’algorithme que l’on utilise. Pour l’algorithme non séquentiel, la combinaison de toutes les caractéristiques produit des résultats de bien meilleure qualité que lorsque les caractéristiques sont utilisées indépendamment. D’un autre côté, avec l’algorithme séquentiel on remarque que les caractéristiques orthographiques permettent d’obtenir le meilleur rappel et que les caractéristiques lexicales favorisent plutôt la précision.

Conclusion

Trier la liste de documents avant d’y rechercher les entités nommées est un bon moyen d’améliorer les performances. En effet, en supprimant les documents exempts d’interactions on augmente la précision, en évitant de sélectionner des mots qui seront de toute façon des faux positifs. Concernant la recherche de la meilleure solution pour effectuer la recherche d’entités nommées, les performances obtenues avec l’algorithme séquentiel sont généralement supérieures à celles obtenues avec l’algorithme non séquentiel. En ce qui concerne les caractéristiques définies pour décrire les mots, avec l’approche séquentielle, la structure interne des mots semble être un bon indicateur pour identifier les candidats avec un bon rappel alors que l’appartenance à un vocabulaire contrôlé permet de favoriser la précision. L’approche non séquentielle quant à elle semble bénéficier de la combinaison des caractéristiques pour améliorer ses performances.

(15)

Chapitre 4 : Normalisation d’entités nommées But

Une caractéristique spécifique relative aux noms de gènes et protéines est la grande liberté existante concernant la façon de les écrire. En effet, face au manque de directives dans l’attribution des noms de gènes et protéines, les chercheurs génèrent pour une même protéine un nombre élevé de termes comprenant des variations orthographiques ou même des synonymes complètement différents. Ce grand nombre de variations rencontré dans la littérature rend compliquée l’identification des noms de gènes et protéines. Afin de savoir de façon certaine à quelles protéines on fait référence, on désire attribuer un identifiant unique aux termes extraits des documents.

Dans ce chapitre, nous testons d’une part l’influence qu’exerce la reconnaissance d’entité nommée dans le processus de normalisation et d’autre part, nous sommes intéressés à étudier les gains de performance induits par l’ajout de variations parmi les termes contenus dans le lexique de référence.

Méthode

Pour résoudre cette tâche de normalisation, nous avons décidé d’employer une méthode à base de dictionnaires. La stratégie consiste à sélectionner un ensemble de candidats dans les documents et à les comparer avec les termes d’un vocabulaire de référence. Lorsque la similarité entre le terme contenu dans le document et celui du lexique est suffisante, on peut attribuer l’identificateur rattaché au lexique au terme trouvé dans le texte.

Normaliser les noms de gènes et protéines requiert bien entendu de les reconnaître précédemment dans les documents. La qualité des candidats extraits de la collection initiale de documents va influencer le processus de normalisation. Cette influence est testée dans la première partie de nos expériences à travers la production de différents ensembles de candidats. Nous comparons les performances obtenues grâce à trois méthodes d’extraction :

1. La première méthode sélectionne les mots en se basant sur leur probabilité d’appartenir à l’anglais « standard ». En effet, nous faisons l’hypothèse que la terminologie propre au nom de gènes et protéines est distincte de celle de l’anglais « standard » utilisé communément et qu’en conséquence un mot ne peut pas appartenir au deux catégories.

2. La deuxième méthode reprend le modèle développé au chapitre précédent afin d’extraire les noms de protéines des documents.

3. Enfin, la troisième méthode d’extraction se base sur les évidences qui ont été utilisées par les experts pour la normalisation. Ce dernier ensemble de candidats peut donc être vu comme un l’ensemble des candidats produit par une méthode optimale et qui permet en conséquence de fixer une borne supérieure aux résultats obtenus.

La deuxième partie de nos expériences consiste à étudier l’influence sur les performances de l’intégration de variations parmi les termes du lexique de référence. Etant donné que la méthode employée pour effectuer la normalisation est dépendante d’un dictionnaire, la qualité et la couverture du vocabulaire de référence est cruciale pour l’obtention de bonne performance. En effet, aucun des termes sélectionnés dans les documents qui ne trouvent pas leur équivalent dans le dictionnaire ne peuvent être normalisés.

(16)

Afin d’offrir la meilleure couverture possible, on génère quatre types de variations à partir du vocabulaire de base :

1. Premièrement, les variations basées sur les traits d’unions. Il est fréquent que les termes biologiques soient composés de plusieurs mots reliés par des traits d’union. Cependant, leur utilisation n’est pas contrainte ; c’est pourquoi un même terme peut apparaître avec ou sans le trait d’union ou parfois même concaténé.

2. Le deuxième type de variations concerne la prise en compte ou non des mots partagés entre la terminologie spécifique du domaine et celle de l’anglais «standard». Tous les mots partagés entre ces deux terminologies sont souvent source d’ambigüité dans la définition du terme ; c’est pourquoi il semble intéressant de les supprimer du lexique de référence pour voir si cela apporte des améliorations.

3. La troisième approche de génération de variations s’intéresse à tous les termes composés de plusieurs sous-séquences séparées par des signes de ponctuations comme la virgule ou encore des parenthèses. Pour ces termes « multi-composante » on fait l’hypothèse qu’une partie n’est pas indispensable à l’identification du terme et peut donc être supprimée.

4. La dernière famille de variations regroupe toutes les variations qui sont générées grâce plusieurs règles spécifiques à la terminologie biomédicale. Ces règles consistent par exemple à remplacer « alpha » par « a » ou à supprimer des caractères spéciaux comme le «+».

Résultats

Les résultats montrent clairement un gain de performance lors de la sélection d’un groupe pertinent de candidats grâce à la méthode de reconnaissance d’entité nommée développée au troisième chapitre. Cependant, malgré cette sélection, une grande quantité de faux positifs sont générés et doivent être supprimés par d’autres moyens. On remarque également l’importance de la terminologie partagée entre l’anglais « standard » et les mots faisant partie des noms de gènes et protéines. En effet, prendre en compte les mots partagés comme candidats permet de favoriser le rappel mais a un effet très négatif sur la précision.

Au niveau des variantions lexicales produites, on voit clairement que l’extension du vocabulaire de référence par de nouveaux termes améliore le rappel. Malheureusement, cette amélioration du rappel est généralement accompagnée d’une réduction de la précision et nous indique à nouveau l’importance de pouvoir faire la distinction entre les vrais et faux positifs. De plus, malgré la création d’un grand nombre de variantions, il reste encore une quantité non négligeable de termes qui ne peuvent pas être mappés. Par exemple, il existe des protéines apparaissant dans le texte sous forme de synonymes qui n’apparaissant pas dans le dictionnaire de référence. Face à ces situations, notre méthode reste démunie.

Conclusion

La normalisation est une tâche complexe nécessitant la prise en compte de nombreux paramètres.

On observe que la création de variations pour les termes du lexique de référence permet d’améliorer le rappel lors de l’utilisation d’une méthode basée sur le dictionnaire. Une telle approche reste par contre démunie pour traiter les cas où des protéines apparaissent sous une forme trop éloignée de celle contenue dans le lexique. Nous relevons également qu’étant donné le nombre élevé de fausses normalisations produites, il est très important d’avoir un ensemble de candidats initial de bonne

(17)

qualité. Cependant, même en fournissant des candidats de bonne qualité, la précision peut toujours être améliorée ; c’est pourquoi il ne serait pas superflu de faire appel à la connaissance d’experts afin de supprimer un bon nombre de cas qui pourraient être facilement identifiés comme négatifs.

Chapitre 5 : Extraction d’interaction entre protéines But

L’extraction d’interactions entre protéines est la phase finale du processus que nous avons débuté au deuxième chapitre avec une collection de documents. Après avoir filtré le contenu cette collection, recherché et normalisé les noms de protéines, on attaque ici le cœur du problème en essayant de résoudre au mieux cette tâche complexe qu’est l’extraction d’interactions entre protéines. Encore une fois, nous étudions dans ce chapitre la dépendance entre les différentes étapes du processus et explorons différentes solutions pour extraire les interactions entre protéines. Plus particulièrement, nous comparons les performances obtenues selon si les noms de protéines sont extraits en employant une technique de comparaison directe entre le vocabulaire de référence et les mots composant les documents ou si l’on génère d’abord un ensemble de termes candidats que l’on compare ensuite avec les termes du vocabulaire de référence par l’intermédiaire d’une métrique de distance.

Méthode

Extraire les interactions d’une collection de documents requiert l’extraction de plusieurs indices qu’il faut combiner dans l’espoir d’obtenir les meilleurs résultats possibles. Parmi les informations qu’il faut collecter, il n’y a pas seulement les protéines susceptibles d’interagir mais aussi l’espèce de laquelle les protéines sont extraites. L’identification d’une interaction nécessite également un mot spécifique (habituellement un verbe transitif) indiquant que les différentes protéines localisées dans la phrase interagissent.

Afin de construire les interactions, il est nécessaire d’identifier de façon non ambigüe les protéines ainsi que de connaître leur position dans le texte. Pour cela on emploie à nouveau un lexique de référence. Contrairement à l’étape précédente où nous avons utilisé EntrezGene1, nous employons ici un lexique offrant une meilleure couverture des noms de gènes protéines, GPSDB2

1. La première méthode d’extraction des noms de gènes et protéines consiste à appliquer une comparaison directe entre les termes du lexique et les termes du texte.

. Afin d’évaluer l’importance de la qualité de l’extraction des protéines, nous comparons deux techniques différentes :

1 EntrezGene est une base de données sur les gènes maintenue par the National Center for Biotechnology Information (NCBI), une division de la National Library of Medicine

2 GPSDB est une base de données qui fusionne les principales ressources existantes sur les noms de gènes et protéines

(18)

2. La deuxième méthode relaxe les contraintes d’égalité entre les termes des documents et ceux du vocabulaire en utilisant la métrique de Levenshtein3

Comme nous l’avons dis plus haut, il est également nécessaire de retrouver l’espèce de laquelle les protéines sont extraites. En effet, étant donné que beaucoup de protéines sont communes entre différentes espèces, il est indispensable de posséder cette information pour le besoin de la normalisation. Afin de détecter les espèces relatives aux documents, deux techniques complémentaires sont employées. On va rechercher directement dans les documents une occurrence d’un nom d’espèce. Pour cela, on génère un dictionnaire des espèces en s’appuyant sur NEWT, une terminologie qui contient tous les noms d’espèce connus à ce jour. Dans le cas où aucun nom d’espèce n’est retrouvé dans un document, on se base sur l’espèce la plus probable étant donné les protéines identifiées précédemment dans le document.

.

Enfin, pour construire les interactions, on recherche dans les documents des verbes transitifs indiquant la présence potentielle d’une interaction. Pour chaque phrase contenant au minimum deux protéines et un verbe transitif on génère alors une interaction.

Résultats

On remarque que les performances obtenues, que cela soit au niveau du rappel (10%) ou de la précision (18%) sont vraiment basses. Cela s’explique facilement par la complexité de la tâche. A chaque étape de décision, la quantité d’erreur produite s’accumule pour finalement devenir très importante lorsque l’on s’intéresse au résultat final. L’identification des protéines est particulièrement difficile étant donné que la normalisation va non seulement dépendre de la bonne reconnaissance du nom de la protéine mais également de l’espèce. Cela signifie que la source d’erreur est double. Si l’espèce n’est pas identifiée correctement, tous les identificateurs seront également faux. De plus, dans le cas ou les protéines ne sont pas identifiées correctement, on risque de ne pas être capable d’identifier correctement l’espèce la plus appropriée. On comprend donc que ces deux paramètres fortement lié sont la source d’un nombre important d’erreurs.

Conclusion

La tâche d’extraction d’interactions entre protéines est une tâche très complexe du fait qu’elle dépend de plusieurs facteurs qui représentent autant de sources d’erreur. Etant donné que ces facteurs d’erreur se combinent, l’erreur obtenue au terme du processus est généralement très importante. Parmi les difficultés propres à l’extraction, on réalise que la détection de l’espèce est une tâche spécialement problématique. En effet, peu d’indices clairs peuvent être extraits du texte. De plus, lorsque l’on se base sur les protéines extraites afin de découvrir quelle est l’espèce la plus probable, une ambiguïté subsiste du fait que plusieurs organismes sont des hôtes potentiels pour les mêmes protéines. Enfin, une dernière difficulté dans l’identification est relative au fait que plusieurs espèces distinctes peuvent être impliquées dans une interaction.

3 Levenshtein est une distance inter-chaîne calculant un score de similarité dépendant du nombre d’insertions, de modifications et d’ajouts de caractères nécessaires pour rendre les deux chaînes identiques

(19)

Conclusion générale

Dans ce travail, nous étudions le processus amenant à l’extraction d’interactions entre protéines à partir de la littérature. Nous avons décomposé ce processus afin d’atteindre un double but. D’une part, nous avons cherché les meilleures stratégies pour résoudre les différentes tâches qui jalonnent le processus et, d’autre part, nous avons cherché à évaluer les tâches les unes par rapport aux autres plutôt que de les considérer comme des tâches indépendantes.

Dans le premier chapitre expérimental, nous avons cherché à améliorer les performances de classification en adoptant une représentation des documents se basant sur des caractéristiques synthétisant leur contenu. Nous avons observé que la représentation basée sur les sacs de mots reste la représentation la plus adaptée afin d’éviter le sur-apprentissage. Cependant, nous avons également observé que l’utilisation de la connaissance d’experts pour définir des caractéristiques spécifiques au problème fonctionne pratiquement aussi bien.

Dans le deuxième chapitre relatif à la reconnaissance de mentions de gènes, nous avons comparé deux algorithmes d’apprentissage, un séquentiel et un non-séquentiel. Ces deux algorithmes ont été employés avec une large palette de caractéristiques. Nous avons également cherché à déterminer l’influence de l’ensemble de documents initial sur le processus et, par là, à évaluer l’influence de la classification de documents sur la reconnaissance des noms de gènes. A propos de la comparaison des algorithmes, nous observons une dominance de l’algorithme séquentiel. Cependant, l’algorithme non-séquentiel offre quand même des performances intéressantes, mais reste globalement moins adapté pour équilibrer le rappel et la précision. Concernant l’importance de la classification, il apparaît clairement que le processus de NER bénéficie de la suppression des documents non pertinents.

Dans le troisième chapitre concernant la normalisation des mentions de gènes, nous avons étudié d’une part l’influence de la sélection de candidats pour être normalisés et d’autre part s’il est possible d’augmenter le vocabulaire initial afin d’améliorer le rappel sans réduire par la même occasion la précision. Les résultats montrent qu’une sélection appropriée des candidats est nécessaire pour obtenir une bonne normalisation. En effet, nombreux sont les mots qui possèdent une forte ambigüité et peuvent ainsi faire varier fortement les performances selon s’ils sont pris en compte ou pas. A propos de l’augmentation du vocabulaire de référence, nous avons observé que seule la prise en compte de règles construites par un expert permet d’améliorer le rappel sans réduire fortement la précision.

Dans le dernier chapitre expérimental, nous nous sommes attaqués à l’extraction des interactions entre protéines. Nous avons étudié les fortes dépendances qui existent entre les différentes informations qui doivent être extraites pour construire les interactions. Les résultats des expériences nous ont montré que chaque élément nécessaire à la construction des interactions tel que les protéines, les espèces et les verbes transitif amènent son lot d’erreur qui, démultiplié par l’effet de séquence, devient finalement très important à la fin du processus.

Ce mémoire se termine sur quelques discussions plus générales vis-à-vis du contenu du travail. Plus particulièrement, nous insistons sur l’importance de considérer les tâches dans leur contexte, de l’intérêt de faire appel à la connaissance d’experts dans les processus de décision, de la valeur

(20)

ajoutée apportée par l’utilisation de vocabulaires contrôlés et finalement de l’importance de gérer au mieux la balance entre le rappel et la précision pour atteindre ces objectifs. Enfin, nous ouvrons la discussion sur de futures recherches concernant les problèmes mis en exergue par notre travail.

Parmi les domaines qui nécessiteraient une prochaine réflexion, on retrouve le problème de l’accès aux documents, que ce sois l’accès au contenu entier des documents ou l’intégration d’informations additionnelles par les auteurs dans ces documents.

(21)
(22)

Table of content

TO ... I ACKNOWLEDGMENT ... III RESUME ... V PROBLEMATIQUE ... V L’importance des interactions ... V CHAPITRE 1 : LETAT DE LART ... VII La classification de documents ... VII La reconnaissance et normalisation d’entités nommées ... VII Extraction d’interactions entre protéines ... VIII CHAPITRE 2 :CLASSIFICATION AUTOMATIQUE DE DOCUMENTS ... IX But ... IX Méthode ... IX Résultats ... X Conclusion ... X CHAPITRE 3 :RECONNAISSANCE DE MENTIONS DE GENE ... X But ... X Méthode ... X Résultats ... XI Conclusion ... XI CHAPITRE 4 :NORMALISATION DENTITES NOMMEES... XII But ... XII Méthode ... XII Résultats ... XIII Conclusion ... XIII CHAPITRE 5 :EXTRACTION DINTERACTION ENTRE PROTEINES ... XIV But ... XIV Méthode ... XIV Résultats ... XV Conclusion ... XV CONCLUSION GENERALE ... XVI TABLE OF CONTENT ... XIX ABSTRACT ... 1 1 INTRODUCTION ... 5 1.1 BACKGROUND ... 5 1.2 OUR PURPOSE ... 6 1.2.1 DOCUMENT CLASSIFICATION ... 9 1.2.2 GENE MENTION ... 9 1.2.3 GENE NORMALIZATION ... 9

(23)

1.3 A GUIDE TO CHAPTERS ... 10 1.3.1 STATE OF THE ART ... 10 1.3.2 EXPERIMENTAL CHAPTERS ... 10 2 STATE OF THE ART ... 13 2.1 TEXT CLASSIFICATION ... 13 2.1.1 INTRODUCTION ... 13 2.1.2 VECTOR SPACE MODEL ... 14 2.1.2.1 Converting document to Vector Space Model ... 14 2.1.2.2 VSM Limitations ... 14 2.1.3 FEATURE SELECTION ... 15 2.1.3.1 Feature selection methods ... 16 2.1.4 DISCRETIZATION ... 17 2.1.4.1 Balance between recall and precision, towards utility measures ... 18 2.1.5 CLASS IMBALANCE ... 18 2.1.5.1 Possible approaches ... 18 2.1.5.2 Resampling ... 19 2.1.5.3 Cost sensitive learning ... 19 2.1.5.4 Overfitting ... 19 2.1.6 CLASSIFICATION APPROACH HISTORY ... 20 2.1.6.1 The 80’s ... 20 2.1.6.2 The 90’s ... 20 2.1.6.3 Today ... 21 2.2 NAMED ENTITY RECOGNITION AND NORMALIZATION ... 21 2.2.1 INTRODUCTION ... 21 2.2.1.1 Named entity normalization ... 22 2.2.1.2 The notion of perspective ... 23 2.2.1.3 Named entity recognition/normalization problems ... 23 2.2.2 EVALUATION ... 25 2.2.3 APPROACHES ... 25 2.2.3.1 Dictionary methods ... 26 2.2.3.2 Rules based approaches ... 26 2.2.3.3 Machine learning methods ... 27 2.3 PPI EXTRACTION ... 28 2.3.1 ON THE IMPORTANCE OF PPI ... 28 2.3.2 EXPERIMENTAL TECHNIQUES TO EXTRACT PPI ... 28 2.3.2.1 Two hybrids ... 29 2.3.2.2 Physical and structural interaction ... 29 2.3.3 NEED TO STRUCTURE THE KNOWLEDGE AUTOMATICALLY ... 29 2.3.4 PROBLEMS ... 30 2.3.4.1 Availability of full text ... 30 2.3.4.2 Negative Expression ... 31 2.3.4.3 Anaphora resolution ... 31 2.3.5 PPIEXTRACTION METHOD ... 32 2.3.5.1 Co-occurrence methods ... 32 2.3.5.2 Extraction Pattern ... 33

(24)

2.3.6 PPITOOLS ... 34 2.3.6.1 STRING ... 34 2.3.6.2 Current state ... 35 2.3.6.3 Filling the database ... 35 2.3.7 IHOP ... 36 2.3.7.1 Content ... 36 2.3.7.2 Interest of a network... 36 2.3.7.3 Generating content ... 37 2.3.7.4 Application ... 37 3 BINARY CLASSIFICATION ... 39 3.1 INTRODUCTION ... 39 3.2 DATA DESCRIPTION ... 40 3.2.1 Documents collection ... 40 3.2.2 Resources ... 42 3.3 METHODS ... 46 3.3.1 Machine learning algorithm ... 47 3.3.2 Classification Features ... 47 3.3.3 Feature summary ... 54 3.3.4 Strategies for feature selection ... 55 3.4 EXPERIMENTAL SETTINGS ... 55 3.4.1 Setting the baseline ... 56 3.4.2 Experiment on additional features ... 60 3.4.3 Mixing expert generated features ... 62 3.4.4 Adding meta-features to textual features ... 64 3.5 RELATED EXPERIMENTS:BIOCREATIVEII ... 65 3.6 DISCUSSION ... 67 3.6.1 Difference between training and test set ... 67 3.6.2 The importance of expert knowledge ... 67 3.6.3 The importance of controlled vocabularies ... 68 3.6.4 Effect of mixing features together... 68 3.7 CONCLUSION ... 68 4 GENE MENTION ... 71 4.1 INTRODUCTION ... 71 4.2 DATA SET AND TERMINOLOGY ... 72 4.2.1 Training and test sets ... 72 4.2.2 The corpus ... 74 4.3 METHODS ... 78 4.3.1 The algorithm ... 78 4.3.2 Unbalanced data ... 79 4.3.3 Feature space ... 80 4.3.4 Features discretization ... 84 4.4 EXPERIMENTAL SETTINGS ... 85 4.4.1 Influence of the quality of the initial documents set ... 85 4.4.2 Setting algorithm parameters ... 88 4.4.3 Sequential .vs. Non-sequential model ... 91 4.5 COMPARISON WITH BIOCREATIVEII RESULTS ... 95

(25)

4.6 DISCUSSION ... 96 4.6.1 The influence of selecting a relevant set of documents ... 96 4.6.2 Overall comparison of the algorithms ... 96 4.6.3 Different feature have different advantages ... 97 4.7 CONCLUSION ... 97 5 GENE NORMALIZATION ... 99 5.1 INTRODUCTION ... 99 5.2 TASK AND DATA ... 100 5.2.1 Training and test data ... 100 5.2.2 EntrezGene ... 101 5.3 METHOD ... 103 5.3.1 Extracting candidate terms for comparison ... 103 5.3.2 Alternative vocabulary building ... 108 5.3.3 Matching metric ... 111 5.3.4 Extracting candidate terms from controlled lexicon ... 112 5.4 EXPERIMENTAL SETTINGS ... 112 5.4.1 Influence of the initial candidates set... 112 5.4.2 The vocabulary variants ... 114 5.4.3 What are the false positives ... 117 5.5 RESULTS COMPARISON WITH BIOCREATIVEII ... 118 5.6 DISCUSSION ... 120 5.6.1 The importance of the shared terms ... 120 5.6.2 Influence of gene mention on normalization ... 120 5.6.3 The importance of the expert knowledge ... 120 5.7 CONCLUSION ... 121 6 PROTEIN-PROTEIN INTERACTION EXTRACTION ... 123 6.1 INTRODUCTION ... 123 6.2 DATA DESCRIPTION ... 125 6.2.1 Training set ... 125 6.2.2 Test set ... 125 6.2.3 Terminology ... 126 6.2.4 SwissProt ... 126 6.2.5 GPSDB vs. EntrezGene ... 126 6.2.6 Interactors ... 128 6.2.7 Species ... 130 6.3 METHODS ... 132 6.3.1 Extracting interactors ... 133 6.3.2 Extracting protein names ... 133 6.3.3 Normalizing protein... 135 6.3.4 Extracting the species ... 135 6.4 EXPERIMENTAL SETTINGS ... 136 6.4.1 Interactors extraction ... 137 6.4.2 Species extraction ... 139 6.4.3 Protein recognition ... 140 6.4.4 Protein-protein interaction extraction ... 142 6.5 COMPARISON WITH BIOCREATIVEII RESULTS ... 142

(26)

6.6 DISCUSSION ... 144 6.6.1 The strong dependence between the extracted information ... 144 6.6.2 Very complex pattern between protein interaction ... 144 6.6.3 The importance of recognizing candidate proteins ... 145 6.7 CONCLUSION ... 145 7 CONCLUSION ... 147 7.1 DOCUMENT CLASSIFICATION ... 147 7.2 GENE MENTION ... 148 7.3 GENE NORMALIZATION ... 149 7.4 PPI EXTRACTION ... 150 7.5 GENERAL DISCUSSION ... 152 7.5.1 Context and minimal commitment ... 152 7.5.2 The importance of the expert knowledge ... 152 7.5.3 The importance of controlled vocabularies ... 153 7.5.4 Balancing efficiency and effectiveness ... 153 7.6 FUTURE ... 154 7.6.1 Working with full text ... 154 7.6.2 Discovering more efficient interaction patterns ... 154 7.6.3 Extending the scope of interactions ... 155 7.6.4 Standardization of the annotations in literature ... 155 FIGURES ... 157 TABLES ... 159 REFERENCES ... 161

(27)
(28)

Abstract

BACKGROUND: Modern biology is more and more concerned with the analysis of imposing amounts of information. The combination of the traditional study of proteins as isolated entities in various organisms with the analysis of large protein interaction networks has revealed that proteins do not function isolated in a cell but act either in multi-protein complexes or in protein networks. Following this discovery, the number of publications about protein-protein interactions (PPI) has increased significantly. This large amount of unstructured information is difficult to exploit by humans as these have trouble to localize the information of interest efficiently. Therefore, there is a necessity to develop automatic techniques able to extract protein-protein interactions from free text to answer fundamental biological questions.

PURPOSE: Our goal in this work is to explore the PPI extraction process from the literature and study the dependencies that exist between the different steps of this process. Instead of considering the detection of PPI as a theoretical problem, we have chosen to adopt an approach that reflects the point of view of the database curators. By considering the viewpoint of the curators, we realize that the PPI extraction is a complex process involving several tasks. We chose to divide the process into tasks of similar granularity as those that were proposed during the BioCreAtIvE II contest, namely:

• Detection and ranking of protein interaction relevant articles

• Gene mention tagging

• Gene normalization

• Extraction of protein-protein interactions

By decomposing the overall process in a sequence of smaller tasks, we create a framework that allows studying independently the influence of the different tasks on the complete process.

METHOD: The four experimental chapters of our work address the four different tasks of the process.

Every chapter highlights specific challenges and problems.

1. In the first experimental chapter, we attempt to retrieve documents likely to contain PPI. We regard this problem as a binary classification task. We conduct our experiments to validate a hypothesis stating that it is possible to find innovative features offering a better generalization power than the words. The two specific types of features tested to validate our assumption rely on the use of controlled lexicons and on expert knowledge.

2. The second chapter focuses on the identification of gene mention. In our approach, we perform the named entities recognition (NER) as a classification task. We must decide, for each word, if it belongs to a gene name. Although Markovian approaches4

4 In a common description

are usually employed to solve NER problems, it is possible to rely on a non-sequential algorithm. We hypothesize that, depending on the set of features adopted, a non-sequential approach can obtain competitive performance. Three types of features have been defined for our experiments:

present state of the system, its future and past are independent (Britannica Online Encyclopedia)

Références

Documents relatifs

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come

Our methodology is based on the analysis of computed mediated communication corpus by developing, in one hand, a pragmatic analysis grid in order to find the intention of the

and the Middle east using the chemistry-transport model MAGRITTEv1.1 succeed in capturing the observed weekly cycles over the largest cities, as well as the observed long-term

• Estimating “the” requirement vs the response Expressing amino acid requirements and. interpreting the response to the amino

scoticus, from the Obsoletus complex, are extremely difficult to identify by using traditional methods such as morphological examina- tion.. The deoxyribonucleic acid

- Fonctionnement en « CP dédoublés » durant cette année expérimentale dans les écoles du REP Duruy. - Synthèse de la conférence CNESCO des 14 et 15 mars 2018 « Ecrire et

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Cela génère un mouvement secondaire complexe dans le plan perpendiculaire à l’axe de la conduite Une étude numérique a été développée par Li et al 1994 concernant