• Aucun résultat trouvé

5.5 Mesure proposée

5.5.2 Méthodologie

5.5.2.1 Modélisation de l’information utile pour la REN

Les systèmes de REN, comme nous l’avons discuté dans la section 5.4, se fondent sur un ensemble de traits (observations) pour détecter et classifier les entités nommées. Même si la plupart des traits sont communs à l’ensemble des ap-proches de REN, la manière de les utiliser varie d’un système à un autre. De plus, les développeurs des systèmes choisissent des sélections de traits différentes sui-vant leur méthodologie, le type des données à traiter ou les outils (analyseurs mor-phologique, syntaxique, sémantique ou autres) à leur disposition. L’importance d’un trait par rapport à un autre est difficile à cerner puisqu’elle varie suivant le contexte. Prenons, par exemple, la suite des mots « sur le plateau » présente dans les trois exemples ci-dessous :

• sur le <loc.phy> plateau de Saclay </loc.phy> ; • sur le plateau de <org.ent> BFM </org.ent> ; • sur le plateau d’argent ;

Cette suite de mots semble contenir des indices permettant de révéler la pré-sence d’une entité nommée. Mais comment déterminer la gravité d’une erreur ou d’un ensemble d’erreurs qui modifient les traits à extraire à partir de cette suite de mots ? Comment savoir, étant donné le contexte, si la quantité d’informations transmise par les systèmes de RAP reste suffisante pour la REN ou non ?

Répondre à ces questions simplement en comparant les suites des mots de la référence (transcription manuelle) et celles de l’hypothèse nous semble insuffi-sant étant donné que les métriques de l’état de l’art utiliinsuffi-sant ce principe restent peu efficaces. Nous proposons donc de comparer plutôt la probabilité de présence d’entités nommées étant donné les transcriptions de référence (sans erreur) et les transcriptions de l’hypothèse (contenant des erreurs). Plus les erreurs de trans-cription font baisser les probabilités des réponses recherchées (pour la REN) par rapport aux probabilités obtenues sur les transcriptions de référence, plus elles sont graves pour la REN.

Pour mettre en place cette méthodologie nous avons besoin d’un modèle proba-biliste permettant de modéliser la présence d’entités nommées dans des données propres (ne contenant pas d’erreurs). Ce modèle doit aussi être simple, facilement reproductible et à faible coût. Mais, également, le modèle ne doit pas favoriser une approche de REN particulière.

Nous proposons d’utiliser un simple classifieur fondé sur des traits basiques, et utilisés dans les différentes approches de REN, notamment les sacs de mots (n-grammes de mots), les préfixes, suffixes et la présence de majuscules (si fournies par la RAP). Pour entraîner notre modèle statistique, nous avons choisi d’utili-ser la méthode du maximum d’entropie (MaxEnt) qui a démontré son efficacité dans de nombreuses tâches de classification. Ces modèles sont particulièrement

CHAPITRE 5. ESTIMATION DE LA QUALITÉ DE LA TRANSCRIPTION AUTOMATIQUE POUR L’EXTRACTION D’ENTITÉS NOMMÉES

adaptés à la prise en compte de multiples traits discriminants, qui peuvent être in-terdépendants. En cas de disponibilité de données, le développement des modèles MaxEnt est peu coûteux en temps et en développement. En plus, l’algorithme d’ap-prentissage est implémenté dans l’outil Wapiti [Lavergne et al., 2010] développé au LIMSI (Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingé-nieur). L’outil Wapiti permet, entre autres, l’accès à tous les paramètres du modèle nécessaire pour le développement de nos outils d’évaluation.

Pour le maximum d’entropie, la probabilité pour un mot m d’appartenir à une classe c selon un ensemble de fonctions caractéristiques (traits) f1...fk et leurs poids associés λ1...λk (avec Z(m) un facteur de normalisation sur le mot) est esti-mée selon la formule [Berger et al., 1996].

P (c|m) = exp(Pn

i=1λi× fi(t, c))

Z(m) (5.3)

Les divers traits seront donc exploités par le modèle afin de déterminer les poids λ1...λkselon la formule5.4. La théorie de l’apprentissage automatique four-nit une procédure qui ajuste itérativement les poids à l’aide d’un algorithme de descente de gradient. λ =argmax λ X m,c p(m, c) ×log (p(c|m)) (5.4)

Ce modèle tire avantageusement parti des multiples traits, potentiellement in-terdépendants, qui peuvent être relevés pour un mot donné. Dans les modèles MaxEnt l’estimation des probabilités des classes pour un mot donné ne dépend pas des estimations calculées pour les mots le précédant et lui succédant. Ceci les rend peu efficaces pour des tâches d’annotation de séquences telles que la REN puisque la non-prise en compte des relations de dépendance peut donner lieu à un étiquetage différent pour des mots appartenant à une même entité et rend difficile la détection des frontières de début et de fin d’entité. Toutefois, cette caractéris-tique les rend particulièrement intéressants dans notre cas puisque elle assure que les probabilités déterminées pour chaque mot ne dépendent que des observations faites sur l’ensemble de traits et empêchent ainsi la propagation de possibles er-reurs ou imprécisions dues au modèle.

5.5.2.2 Les segments importants pour la REN

Identifier les segments importants pour la REN est nécessaire pour mettre en place une méthodologie d’évaluation ciblée. Afin de pouvoir identifier le type d’er-reur de REN favorisé par les erd’er-reurs de la transcription automatique, nous avons décidé de distinguer deux types de segments dans les documents textuels :

• les segments contenant des entités nommées, sur lesquels les erreurs de RAP peuvent engendrer des erreurs d’omission ou de substitution d’entités pour les systèmes de REN ;

5.5.5 Mesure proposée

• les segments hors entités sur lesquels les erreurs de RAP peuvent engendrer des erreurs d’insertion d’entités pour les systèmes de REN.

La figure 5.9 montre un exemple de sortie de système de RAP contenant des erreurs dans les deux types de segments et signale les fautes de REN pouvant être engendrées par ces erreurs.

RÉF : Je vais en parler de Science Po je vais dire juste

HYP : Willy on parlait de sillons peau jeudi jusqu'à

Hors entités Entités Hors entités

FIGURE5.9 – Exemple de segmentation de texte en segments entités et segments hors entités, en haut le texte référence et en bas l’hypothèse RAP. Les segments entités sont en vert et les segments hors entités sont en bleu. Les mots écrits en rouge sont des mots hors entités qui ont été modifiés par des erreurs de RAP et qui sont susceptibles de causer des erreurs de REN.

Les erreurs de RAP qui modifient les entités (segments entités en vert) ou les mots se trouvant dans leurs contextes proches peuvent conduire à une omission des entités ou à leurs substitutions (erreurs sur les frontières ou la classe de l’en-tité) par les systèmes de REN. Nous pensons que la comparaison entre les probabi-lités de présence d’entités données sur la référence et l’hypothèse permet de nous renseigner sur la perte d’information causée par les erreurs de RAP. Ainsi plus la probabilité de présence d’entités sur l’hypothèse de RAP baisse par rapport à celle calculée sur les transcriptions de référence plus les erreurs de RAP sont graves pour la REN.

Les erreurs de RAP qui modifient les segments hors entités peuvent conduire les systèmes de REN à insérer des entités qui n’existent pas dans la référence. Ty-piquement les erreurs introduisant des noms propres, des dates ou des quantités (tels que les mots en rouge dans la figure 5.9) augmentent le risque d’insertion d’entités par les systèmes de REN.

La mesure que nous proposons est alors composée de deux mesures élémen-taires. Une première mesure permet d’évaluer le risque d’erreurs d’omission et de substitution d’entités calculée sur les segments entités nommées et vise à prévenir contre la baisse de rappel des systèmes de REN. Une deuxième mesure permet d’évaluer le risque d’erreur d’insertion d’entités calculée sur les segments hors entités et vise à prévenir contre la baisse de précision des systèmes de REN.

Fina-CHAPITRE 5. ESTIMATION DE LA QUALITÉ DE LA TRANSCRIPTION AUTOMATIQUE POUR L’EXTRACTION D’ENTITÉS NOMMÉES

lement, une mesure unique est tirée à partir des deux mesures élémentaires pour évaluer la qualité des sorties de RAP pour la REN.

5.5.2.3 Projection et segmentation

Notre méthodologie nécessite une segmentation des transcriptions manuelles et automatiques en segments entités et hors entités. Il est donc nécessaire que les transcriptions de référence (manuelles) soient annotées manuellement en entités nommées. Ainsi les frontières des entités constituent aussi les frontières des seg-ments. Pour obtenir la même segmentation sur les transcriptions automatiques, nous projetons les annotations de la référence sur les sorties de RAP en utilisant une approche proche de celle décrite dans [Galibert et al., 2011]. La projection se fait en plusieurs étapes. D’abord nous appliquons un alignement forcé du signal sur les transcriptions de référence, ceci nous permet de disposer des positions tem-porelles possibles des entités. Nous utilisons ensuite ces positions temtem-porelles plus une marge pour déterminer les frontières possibles des entités. Nous gardons enfin la solution la plus proche phonétiquement de la référence.

Grâce à cette projection nous pouvons disposer d’une segmentation des sorties de RAP en segments entités et hors entités qui correspond à la même segmentation présente dans les transcriptions de référence.