• Aucun résultat trouvé

Extraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques

N/A
N/A
Protected

Academic year: 2021

Partager "Extraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques"

Copied!
2
0
0

Texte intégral

(1)Extraction automatique d’affixes pour la reconnaissance d’entités nommées chimiques Yoann Dupont, Isabelle Tellier, Christian Lautier, Marco Dinarelli. To cite this version: Yoann Dupont, Isabelle Tellier, Christian Lautier, Marco Dinarelli. Extraction automatique d’affixes pour la reconnaissance d’entités nommées chimiques. EGC, Jan 2016, Reims, France. �hal-01476792�. HAL Id: hal-01476792 https://hal.archives-ouvertes.fr/hal-01476792 Submitted on 25 Feb 2017. HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés..

(2) Extraction automatique d’affixes pour la reconnaissance d’entités nommées chimiques 1,2. 1. 2. Yoann Dupont , Isabelle Tellier , Christian Lautier , and Marco Dinarelli 1. 1. Laboratoire Lattice, UMR 8094, 1 rue Maurice Arnoux, 92120 Montrouge 2 Temis SA, 207 rue de Bercy, 75012 Paris. I. Résumé. V. Sélection et tri des affixes. Nous détaillons ici une approche permettant de détecter des affixes à partir de dictionnaires en se basant sur l’algorithme de la plus longue sous-chaı̂ne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER (Krallinger et al., 2015). Nous verrons ensuite des méthodes de sélection et de tri pour choisir les plus pertinents.. II. Corpus CHEMDNER. Figure 4: Réduction du volume des affixes selon le score calculé sur le corpus d’entraı̂nement racine. carboxy. benzo. carbo. hydroxy. oxy. mentho. hydro. Figure 5: Le treillis des affixes. Représente la relation “X est une sous-chaı̂ne stricte de Y”. Les affixes sont sélectionnés selon une recherche en largeur (pointillets). VI. Résultats. • baseline : – préfixes taille < 6 – suffixes taille < 6 • autres :. Figure 1: Les entités du corpus CHEMDNER ainsi que leurs comptes. – le plus long préfixe – le plus long suffixe – 5 infixes. III. Annotation de séquences avec des CRF étiquette B-TRIVIAL I-TRIVIAL O O O B-FORMULA B-FAMILY O [...] tokens Glaucogenin E , a new C21 steroid from [...] préfixe |3| Gla # # # new C21 ste fro [...] nin # # # new C21 oid rom [...] suffixe |3| Figure 2: CRF → système à base de traits pondérés pour retrouver la séquence “étiquette”. f(B-TRIVIAL | mot=Glaucogenin) = poids1 f(I-TRIVIAL | mot=Glaucogenin) = poids2 f(B-FAMILY | préfixe |3|=ste) = poidsx f(I-FAMILY | préfixe |3|=ste) = poidsx+1. etiquette(traits) = argmax E∈Etiquettes. P. t∈traits f (E|t). Figure 3: vision simplifiée du fonctionnement d’un CRF. VII. Conclusions et perpectives • approche pour trouver automatiquement des affixes • entités extraites du corpus d’entraı̂nement → utiliser PubChem (Wang et al., 2009) • sélection : probabilité conditionelle entre deux affixes apparentés (Zhang and Lee, 2006) • intégrer affixes dans des méthodes vectorielles (SVM, RN) • appliquer la méthode pour trouver automatiquement des termes déclencheurs IUT de Reims Châlon Charleville IUT de de Troyes Université de technologies de Troyes Université d’ Angers. IV. Extraction d’affixes. r o t e n o n e. 0 0 0 0 0 0 0 0 0. m 0 0 0 0 0 0 0 0 0. e 0 0 0 0 1 0 0 0 1. n 0 0 0 0 0 2 0 1 0. t 0 0 0 1 0 0 0 0 0. h 0 0 0 0 0 0 0 0 0. o 0 0 1 0 0 0 1 0 0. n 0 0 0 0 0 1 0 2 0. e 0 0 0 0 0 0 0 0 3. Table 1: matrice de calcul de sous-séquences. Références préfixes infixes suffixes ∅ {e,o,n,t,en} {one} Table 2: affixes extraits. • liste d’affixes candidats • liste bruitée : besoin d’élaguer !. Krallinger, M., O. Rabal, F. Leitner, M. Vazquez, D. Salgado, Z. Lu, R. Leaman, Y. Lu, D. Ji, D. M. Lowe, et al. (2015). The CHEMDNER corpus of chemicals and drugs and its annotation principles. Journal of cheminformatics 7 (Suppl 1), S2. Wang, Y., J. Xiao, T. O. Suzek, J. Zhang, J. Wang, and S. H. Bryant (2009). PubChem: a public information system for analyzing bioactivities of small molecules. Nucleic acids research 37 (suppl 2), W623–W633. Zhang, D. and W. S. Lee (2006). Extracting Key-substring-group Features for Text Classification. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’06, New York, NY, USA, pp. 474–483. ACM. LATEX Tik Zposter.

(3)

Références

Documents relatifs

The applied comparative approach of a sensory guided selection of organic aroma extract fractions and subsequent comparative gas chromatography, coupled to olfactometry, led to the

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

`a la section 4.2), cette pr´eanalyse consiste en un d´ecoupage en phrases, celui d´ecrit dans (Friburger et al., 2000) et distribu´e avec Unitex ; dans le cadre d’un corpus

Comme nous l'avons vu plus haut, la reonnaissane d'entités nommées est un domaine.. très large et la notion d'entités nommées est très dépendante du

Dans certains cas, la tâche d’annotation étant trop complexe, on doit se restreindre à une annotation exploitable pour l’apprentissage automatique – en se limitant par exemple

Résumé Nous montrons dans cet article qu’une même entité peut être désignée de multiples façons et que les noms désignant ces entités sont par nature

La longueur de la charte peut sembler un indicateur très relatif de sa composition, mais étant donné que nous avons porté la comparaison sur des ensembles par ailleurs très

Enfin, mˆeme quand les entit´es nomm´ees ne sont pas assez pertinentes pour ˆetre conserv´ees dans l’ontologie finale, leur type s´emantique peut traduire un concept pertinent pour