Ingénieur de Recherche en Traitement Automatique des LanguesFormation et diplômesOct 2009 – Nov 2012

(1)

Anthony Sigogne 4 bis cours du buisson 77186 Noisiel

Tel : 06.49.82.69.26

anthonysigogne@gmail.com

Nationalité : Française Titulaire du permis B 25 ans

Ingénieur de Recherche en Traitement Automatique des Langues

Formation et diplômes

Oct 2009 – Nov 2012 Doctorat en Informatique

Spécialité Traitement Automatique des Langues Université Paris-Est Marne-la-Vallée (77) Sept 2007 - Sept 2009 Master Informatique

Mention Bien

Université Paris-Est Marne-la-Vallée (77) Sept 2004 - Sept 2007 Licence Mathématiques et Informatique

Mention Assez Bien

Université Paris-Est Marne-la-Vallée (77)

Juin 2004 Baccalauréat général scientifique

Spécialité Sciences de l’Ingénieur Mention Assez Bien

Lycée Gustave Eiffel de Gagny (93) Expériences professionnelles

Oct 2009 – Oct 2012 Enseignant

TD/TP/Cours d'Ingénierie linguistique et d'Informatique (Structures de données, Programmation C, HTML, Système).

Avr 2009 – Sept 2009 Chercheur (Stage de Master 2)

Expériences sur la levée d'ambiguités dans le cadre du processus d'étiquetage morpho-syntaxique : utilisation d'une méthode hybride combinant une approche symbolique à base de grammaires construites manuellement et une approche statistique basée sur un modèle probabiliste.

Nov 2008 – Avr 2009 Développeur

Xeres, Issy-les-Moulineaux (92)

Création d'un plugin Thunderbird en JavaScript/XUL permettant de filtrer les emails non pertinents grâce à des requêtes paramétrées.

Avr 2008 – Sept 2008 Chercheur (Stage de Master 1) Xeres, Issy-les-Moulineaux (92)

Création d'un outil pour la veille internet permettant de classer automatiquement les documents web de l'actualité en fonction du sujet principal de ces documents. Des connaissances linguistiques et statistiques ont été combinées afin d'améliorer les performances du système pour un usage intensif.

Compétences

Traitement des Langues Analyse syntaxique, Etiquetage morpho-syntaxique, Indexation automatique, Extraction d'informations, Statistiques, Graphes (automates, arbres)

Programmation C/C++, Java, Python, Caml, XHTML, CSS, PHP, JavaScript, XML, XSL, XUL, Django, SQL, Latex

Logiciels et outils GNUMake, Ant, Eclipse, Eric4, SVN, CVS, Suite Open Office, Suite Microsoft Office

Systèmes GNU/Linux, Microsoft Windows

Bases de données MySQL, PostgreSQL, Oracle

(2)

Thèse de doctorat

« Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste », effectué actuellement au laboratoire de l'Institut Gaspard Monge de l'Université Paris-Est Marne-la-Vallée, et sous la direction d'Eric Laporte et de Matthieu Constant.

Dans cette thèse, plusieurs thématiques autour du processus d'analyse syntaxique probabiliste sont abordées : (i) segmentation automatique d'un texte en unités simples et composées, et son impact sur l'analyse syntaxique. Nous proposons deux stratégies de segmentation performantes, l'une étant basée sur une pré-segmentation discriminative avant analyse, et l'autre sur une post-segmentation après analyse au moyen d'un réordonnanceur discriminatif. Ces deux stratégies font usage de ressources lexicales externes traitant d'unités multi-mots.

(ii) exploitation de lexiques syntaxiques pour l'amélioration des performances d'analyseurs syntaxiques. Notre approche consiste à remplacer les mots des textes à analyser par des classes plus générales calculées à partir de données lexicales (étiquettes grammaticales) et syntaxiques (informations de sous-catégorisation). L'utilisation de classes de verbes a permis de réduire significativement le taux d'erreurs de plusieurs analyseurs syntaxiques.

Publications (liste sélective)

Matthieu Constant, Anthony Sigogne et Patrick Watrin. « Discriminative strategies to integrate multiword

expression recognition and parsing ». 50ème conférence internationale Association for Computational Linguistics (ACL 2012). Jeju, Corée.

Dans cet article, nous proposons deux stratégies discriminantes d’intégration des mots composés dans un processus réel d’analyse syntaxique : (i) pré-segmentation lexicale avant analyse, (ii) post-segmentation lexicale après analyse au moyen d’un réordonnanceur. Le segmenteur de l’approche (i) se fonde sur un modèle CRF et permet d’obtenir un reconnaisseur de mots composés état-de-l’art. Le réordonnanceur de l’approche (ii) repose sur un modèle d'Entropie Maximale intégrant des traits dédiés aux mots composés.

Anthony Sigogne, Matthieu Constant et Eric Laporte. « Integration of data from a syntactic lexicon into a

generative and a discriminative probabilistic parsers ». 14ème conférence internationale Recent Advances in NLP (RANLP 2011). Hyssaria, Bulgarie.

Dans cet article, nous proposons une méthode performante d'intégration de données issues d'un lexique syntaxique du français, le Lexique-Grammaire, dans divers analyseurs syntaxiques probabilistes. Ces données (informations de sous- catégorisation) sont utilisées dans le but de créer des classes de verbes. Ces classes sont destinées à remplacer les étiquettes morpho-syntaxiques des verbes du corpus d'apprentissage des analyseurs.

Anthony Sigogne. « HybridTagger : un étiqueteur hybride pour le français ». 8ème Manifestation des jeunes chercheurs en Sciences et Technologies de l’Information et de la Communication (MajecSTIC 2010). Bordeaux , France.

Dans cet article, une approche hybride de l’étiquetage morpho-syntaxique est proposée. Les approches de désambiguisation symbolique et statistique sont combinées dans un même processus d’étiquetage. De plus, ce processus utilise massivement des ressources lexicales externes qui permettent d’obtenir un étiquetage performant des mots inconnus.

Anthony Sigogne et Matthieu Constant. « Real-time unsupervised classification of web documents ». 2ème conférence internationale Computational Linguistics and Applications (CLA 2009). Mragowo, Pologne.

Dans cet article, le problème de la classification dynamique de collections de documents web est abordé. Nous proposons un algorithme statistique itératif basé sur l'extraction de mots clés d'un document (mots simples et

composés, noms propres) grâce à des grammaires et des ressources lexicales. L'implémentation de cet algorithme a été intégrée avec succès dans une application utilisée pour de la veille internet.

Prix

Conférence TALN 2012 Meilleur article long Conférence MajecSTIC 2010 Meilleur article long Langues

Anglais Niveau TOEIC (score : 860)

Espagnol Notions

Loisirs

Théâtre, Voyages, Cuisine Cyclisme amateur, Musculation