• Aucun résultat trouvé

3.2 Les approches orientées données

3.2.1 Prendre en compte des indices locaux

Dans les années 90, d’autres approches ont émergé suite à la disponibilité d’importants volumes de données pour des problématiques identifiées. Or, pour des besoins

applica-3.2. LES APPROCHES ORIENTÉES DONNÉES

tifs ou d’évaluation, certains jeux de données ont été qualifiés manuellement ou semi-automatiquement. Pour une tâche spécifique, cette qualification peut relever d’une simple classification binaire (détection : le phénomène est-il observé dans les données) jusqu’à un travail plus approfondi (reconnaissance ourésolution) comme par exemple une structura-tion en profondeur (format XML, enregistrements d’une base de données) ou la découverte de relations entre documents (liens, pointeurs entre documents ou vers un référentiel).

Bien entendu, les tâches pour lesquelles les systèmes sont capables de réaliser des trai-tements automatiquement sans que le risque d’erreur soit jugé trop important (calculs, envoi de courriels, déclenchement d’opérations comptables, enregistrement / manipulation / diffusion de contenus multimédias, correction orthographique) ont été outillées par l’im-plémentation directe des procédés sous forme d’automates. Cependant, pour de nombreuses autres tâches, l’intuition conduisait à penser qu’elles pouvaient être résolues automatique-ment, à l’aide de modèles plus abstraits, plus complexes, nécessitant une implémentation et un paramétrage.

Ainsi, disposant pour certaines tâches de nombreux exemples des données entrées dans leur forme brute (numérisée) et des données attendues en sortie (qualifiées), il devient pos-sible d’examiner systématiquement les correspondances d’une représentation vers l’autre. Dans ce contexte, concevoir le système peut se focaliser sur l’élaboration d’un modèle para-métrablequi vise à transformer la première représentation en la seconde (quelles données en entrée sont potentiellement pertinentes, quelles règles de transformation sont à disposition, comment tenir compte des erreurs pour ajuster les paramètres, etc.). Une procédure auto-matique et itérative, dite d’apprentissage automatique [Mitchell, 1997], sera alors chargée d’ajuster les paramètres disponibles, cette procédure étant guidée à chaque itération par les erreurs que commet le système sur les jeux de données disponibles.

Dans notre cas, la représentation source est le texte brut (sans entités nommées), la représentation cible contient les annotations en entités nommées (c.f. 2.2). Mais les algo-rithmes d’apprentissage existants ont été majoritairement tournés vers des tâches de classi-fication (binaire ou multi-valuées) : détection de pourriels, transcription d’images (glyphes) en textes (symboles d’un alphabet), répartition de documents au sein de thématiques, etc. Dans ce cadre, l’apprentissage automatique se rapproche plutôt d’un étiquetage (attribu-tion d’une étiquette à un élément) que d’une annota(attribu-tion (délimita(attribu-tion d’une expression).

Prenons pour exemple l’énoncé suivant, annoté en entités nommées :

‘En <date> 1969 </date> <pers> Georges Pompidou </pers> dirige la <org> France </org>’

En première approche, le texte doit être converti afin que chaque unité atomique (token) reçoive une classe (type d’entité nommée). Pour cela, et afin de pouvoir déterminer les frontières (même lorsque deux entités de même type sont contiguës), le format BIO s’est imposé. Au premier token d’une entité de type t sera affectée la classe ‘B-t’ (Begin). Si l’entité contient plusieurs tokens, les tokens suivants seront classifiés‘I-t’(Inside). Enfin, les mots qui ne sont partie d’aucune entité recevront la classe ‘O’(Outside). La figure3.2

illustre ceci pour notre exemple.

Cette représentation par classes associées aux mots permet d’utiliser des modèles qui estiment la probabilité des classes pour les tokens du texte. Pour ce faire, des statistiques peuvent être recueillies sur les données exemples. En première approximation, nous pouvons

3.2. LES APPROCHES ORIENTÉES DONNÉES En O 1969 B-date Georges B-pers Pompidou I-pers dirige O la O France B-org

Figure3.2 – Représentation BIO d’une annotation

simplement affecter à chaque token la classe qui lui estmajoritaire(la plus fréquente) dans le corpus d’apprentissage. Pour ceci, nous considérons les données d’apprentissage comme un ensemble de paires Ex = {(ti, ci)} : les tokens et les classes qui leur sont associées. Pour annoter un token t, le système sélectionne la classe c qui maximise la fréquence

|{(ti, ci)∈Ex, ti =t, ci=c}|.

Immédiatement, nous voyons que ceci se heurte à deux difficultés majeures :

– le token peut ne pas être présent dans le corpus d’apprentissage (notamment pour les noms propres, catégorieouverte),

– les mots ambigus (‘Washington’ peut-être une personne, un lieu ou une organisa-tion) présenteront systématiquement un taux d’erreur directement lié à leur degré d’ambiguïté.

L’objectif devient alors de tirer parti d’une information plus riche à propos des tokens, généralement issues des ressources (dont les lexiques). Nous pouvons reformuler le modèle majoritaire de manière équivalente pour n’importe quelle informationf(t) qui concerne le token par estimation d’uneprobabilité conditionnelle :

P(c|f(t)) = |{(ti, ci)Ex, f(ti) =f(t), ci =c}|

|{(ti, ci)∈Ex, f(ti) =f(t)}|

Par suite, il importe d’être en mesure de tenir compte conjointement de plusieurs infor-mations (morphologiques, morpho-syntaxiques, lexicales) à propos du token comme autant de fonctions caractéristiques. Ces indices, s’ils sont pertinents, interviennent lors de l’esti-mation des probabilités des classes. La figure3.3 illustre ceci.

En PRP MAJ O 1969 NUM B-date Georges NP MAJ HUM B-pers . . .

Figure 3.3 – Prendre en compte les caractéristiques des tokens

Nous ne faisons pas ici le détail des modèles numériques adaptés à ce type de pro-blème. Parmi celles-ci figurent les modèles bayésiens, le clustering [Miller et al., 2004], le

3.2. LES APPROCHES ORIENTÉES DONNÉES

maximum d’entropie (MaxEnt (ou régression logistique logit), les machines à vecteur de support [Isozaki et Kazawa, 2002] (SVM) et bien d’autres. Pour nos besoins, nous rappe-lons tout de même la formule du maximum d’entropie qui a démontré son efficacité pour la reconnaissance d’entités nommées [Borthwicket al., 1998,Mikheev et al., 1999,Ekbala

et al., 2010], mais aussi pour de nombreuses autres tâches. Par ailleurs, ces modèles sont particulièrement adaptés à la prise en compte de multiples traits discriminants, qui peuvent être interdépendants.

Pour le maximum d’entropie, la probabilité pour un token td’appartenir à une classe

c selon un ensemble de fonctions caractéristiques (indices)f1. . . fk et leurs poids associés

λ1. . . λk (avecZ(t) un facteur de normalisation sur le token) est estimée selon la formule [Berger et al., 1996] : Pλ(c|t) = exp n P i=1 λi∗fi(t, c) Z(t)

Les diverses ressources (morphologiques, morpho-syntaxiques, lexicales) seront donc exploitées par ces modèles sous la forme de fonctions caractéristiques (outraits, en anglais

features). La théorie de l’apprentissage automatique fournit une procédure qui ajuste itéra-tivement les poidsλi selon les exemples (et fonctions caractéristiques) mal classifiés par le modèle. Cela est couramment à l’aide d’algorithmes dedescente de gradient, qui modifient progressivement les poids afin de parvenir à un optimum local.

Finalement, le texte à traiter étant formé d’une séquence de tokens ht1, t2. . . tni, il convient, pour une séquence de classeshc1, c2. . . cni qui peuvent y être affectés, d’une part de vérifier que ces classes forment une annotation valide (en formatBIO, une classeI-t ne peut être précédée que par un I-t ou un B-t de même type) et d’autre part d’estimer la

vraisemblance de l’annotation produite. En pratique, une hypothèse d’indépendance entre classes successives est couramment faite, la vraisemblance de la séquence de classes selon les probabilités locales devenant alors simplement :

PM E(hc1. . . cni|ht1. . . tni) =

n

Y

i=1

P(ci|ti)

Ce modèle tire avantageusement parti des multiples indices, potentiellement interdépen-dants, qui peuvent être relevés pour un token donné. Cependant il présente un inconvénient majeur : l’estimation des probabilités des classes pour un token ne dépend pas des esti-mations sur les tokens le précédant ou lui succédant. En effet, pour l’exemple ‘Georges Pompidou’, il est alors possible qu’un modèle à maximum d’entropie, qui examine le token courant sans tenir compte du contexte immédiat, classifie‘Georges’ comme personne, puis

‘Pompidou’ comme une organisation (abréviation du ‘Centre Pompidou’).