• Aucun résultat trouvé

3.3 Analyse d’opinion

3.3.4 Autres poursuites

Les expressions extraites ont fait l’objet d’une étude approfondie de leurs caractéris-tiques sémancaractéris-tiques par [Jackiewicz 2010]. Par ailleurs, avec Stéphane Ferrari nous avons expérimenté quelques patrons sur un corpus volumineux (l’ensemble des articles du journal « Le Monde » sur la période 1987-2002 représentant 2,2 Go de données) pour acquérir des lexiques. Par exemple, sur le patron < {réputé, salué} pour ART_POSS [ADJ] NOM >, nous avons fixé la partie gauche pour collecter la partie droite c’est-à-dire un nom (éven-tuellement précédé d’un adjectif). Cette expérience a permis de collecter 590 attestations pour ce patron qui ont aussi été étudiées finement par A. Jackiewicz qui a pu dégager des catégories sémantiques14

. L’ensemble des patrons et lexiques fournit ainsi des ressources linguistiques. Une réflexion est en cours sur leur utilisation au sein d’outils de TAL en vue de l’extraction et de l’analyse de certaines facettes de l’opinion (polarité, prototypicalité, intensité) dans les textes.

3.4 Bilan

Les travaux présentés dans ce chapitre s’appuient sur un modèle ou une étude linguis-tique sur un phénomène ciblé pour extraire de l’information des textes à des fins appli-catives (recherche documentaire, extraction de connaissances) ou encore pour affiner un modèle linguistique en fournissant des observables (analyse d’opinion). Le développement des ressources linguistiques se fait à partir de l’observation des corpus. Plus précisément, le concepteur de règles d’extraction cherche des régularités linguistiques dans les textes. Ce processus est long donc coûteux en temps de développement. En terme de résultat, les règles ont généralement une bonne précision mais souffrent d’un rappel moins bon (une bonne couverture des règles est difficile à assurer lorsque la conception des règles est ma-nuelle). Automatiser ce processus nous a ainsi paru une voie à explorer que nous proposons et développons au chapitre suivant.

14. À titre d’illustration, les expressions récurrentes mettent en évidence une caractéristique saillante et valorisée d’une cible : sentiments nationalistes, jugements tranchés, sens caustique... [Jackiewicz 2010] .

Chapitre 4

Fouille de données pour le TAL

L’analyse automatique de textes requiert des ressources linguistiques (lexiques, patrons linguistiques...). Elles sont de plus dédiées à un domaine spécifique. Nous nous sommes alors intéressés aux méthodes permettant de les acquérir automatiquement.

L’apprentissage automatique en TAL a déjà fait l’objet de nombreux travaux (voir [Hobbs et Riloff 2010] et [Tellier 2009]). Historiquement, deux familles d’approches peuvent être considérées. Les approches numériques ou statistiques telles que les modèles de Markov caché, machines à vecteur de support, champs aléatoires conditionnels, etc. sont extrême-ment efficaces sur les tâches de classification. Les tâches d’extraction sont vues par ces approches comme un problème de classification où le principe consiste à parcourir le texte et à décider à quelle classe appartient un mot (par exemple pour la reconnaissance d’en-tités nommées). Ces approches sont entièrement automatiques et obtiennent les meilleurs résultats dans les challenges (voir par exemple [Smith et al. 2008] pour la reconnaissance d’entités nommées biologiques, [Krallinger et al. 2008] pour la détection d’interaction entre protéines), mais elles nécessitent des corpus annotés pour l’apprentissage des modèles, ce qui est un processus coûteux. De plus, les classifieurs ont un fonctionnement de type boîte noire car les modèles obtenus, à base de descripteurs numériques, sont difficilement in-terprétables ou exploitables comme ressources linguistiques du point de vue qualitatif ou explicatif. De leur côté, les approches symboliques visent à apprendre des ressources linguis-tiques. On peut citer les approches dans la lignée de [Hearst 1992] concernant l’acquisition des relations lexicales (exemple l’hyperonymie). Les méthodes relatives à l’apprentissage des patrons exprimant des relations entre entités nommées sont majoritairement de type supervisé. Les techniques utilisées peuvent être fondées sur la programmation logique in-ductive ou l’apprentissage relationnel (comme pour le système RAPIER [Califf et Mooney 1999]), ou encore sur la recherche de chemins pertinents sur l’arbre syntaxique de la phrase (par exemple [Schneider et al. 2009] pour l’extraction d’interaction entre gènes dans les textes biologiques). Certains travaux comme ceux de [Riloff 1996] effectuent l’apprentissage sur un corpus brut préalablement découpé en textes considérés comme pertinents ou non pour les relations cherchées. Le principe consiste à amorcer l’apprentissage avec quelques règles d’extraction élaborées manuellement (seed patterns) pour générer l’ensemble des pa-trons candidats et un processus sélectionne les candidats pertinents pour la tâche visée. Pour prendre en compte les diverses formes syntaxiques que peuvent prendre les relations entre entités nommées, relations qui peuvent être distantes dans la phrase, l’apprentissage

Fouille de données pour le TAL des règles, ainsi que leur application, sont réalisés à partir d’une analyse plus ou moins profonde de la phrase.

Les méthodes dites de fouille de données à base de motifs ont pour objectif la découverte d’informations nouvelles à partir de bases de données [Han 2005, Agrawal et al. 1993]. Le cœur des processus de fouille est la recherche de régularités dans les données ; on appelle motifs de telles régularités. Par exemple, à partir de situations biologiques décrites par un ensemble de gènes, un motif est un ensemble de gènes qui se retrouvent fréquemment dans de nombreuses situations biologiques. De plus, si on retrouve dans les textes biologiques ces mêmes gènes en interaction, ce motif présente alors un intérêt biologique potentiel : il est candidat pour être un groupe de « synexpression » (les gènes sont simultanément sur-exprimés dans des données différentes).

Outre l’extraction de motifs fréquents, la fouille de données présente aussi l’intérêt de pouvoir être appliquée dans un cadre non supervisé. Dans le domaine de la fouille de textes, de nombreux travaux ont pour but l’extraction de règles d’association1. Les règles extraites sont considérées comme de nouvelles connaissances découvertes [Janetzko et al. 2004, Roche et al. 2004] ou encore elles peuvent être utilisées pour caractériser des textes [Turmel et al. 2003]. Ces travaux se situent dans un paradigme ensembliste, c’est-à-dire sans intégrer la dimension séquentielle de la langue. Nous verrons que cette dimension est un point central dans nos contributions.

Contributions Dans ce contexte, nous avons proposé d’exploiter les méthodes de fouille de données fondées sur des motifs séquentiels pour : i) la prise en compte de la relation d’ordre temporelle entre les données textuelles ; ii) le caractère symbolique et interprétable des motifs qui permet une analyse qualitative ; iii) la possibilité de découvrir les motifs dans un cadre non supervisé. Dans ce chapitre, je présente notre démarche pour la découverte de patrons linguistiques à travers trois contributions :

(1) l’extraction de relations entre entités nommées (section 4.2) ;

(2) la découverte de patrons pour extraire des constituants détachés porteurs de juge-ment ou de qualification (section 4.3) ;

(3) la reconnaissance d’entités nommées (section 4.4). Notre démarche est caractérisée par les idées suivantes :

Sur le plan du TAL, l’apprentissage ne nécessite pas d’analyse syntaxique ni de res-sources linguistiques autres que les corpus d’apprentissage et l’utilisation d’un analyseur de type treeTagger. Pour la tâche (1), seules les entités nommées sont pré-étiquetées - et non les relations comme dans les méthodes supervisées, et pour la deuxième tâche, les corpus sont bruts. L’apprentissage est donc non supervisé sur ces tâches. La fouille est effectuée sur des traits linguistiques (qui sont ici limités à la forme du mot, à son lemme, et aux informations morpho-syntaxiques, mais d’autres attributs linguistiques sont possibles). Le nombre de motifs obtenu est fortement restreint, ce qui permet de limiter le coût de la

1. Motif exprimé par une relation de la forme A → B où A et B sont des ensembles disjoints signifiant que si on a A, alors on trouvera aussi fréquemment B.

Indices linguistiques pour la fouille : les défis DEFT

validation manuelle, (sur la tâche (3), les motifs sont validés automatiquement car l’ap-prentissage est supervisé) et ceux-ci sont applicables en tant que patrons linguistiques. Sur la tâche (2), nous montrons que les patrons découverts peuvent être composés de différents types d’information associés à un mot (lemme, catégorie grammaticale...). Ils peuvent être très spécifiques – composés de la forme seule des mots –, être très généraux – catégorie grammaticale seule –, ou combiner les informations.

D’un point de vue fouille, nous montrons l’intérêt de concevoir de nouvelles méthodes de fouille combinant la découverte de motifs séquentiels composés d’items (simples élé-ments) ou d’itemsets (ensemble d’éléélé-ments) à partir de données textuelles. Ainsi, pour la reconnaissance d’entités nommées, nous proposons un nouveau type de motif qui combine une séquence et son voisinage sous forme ensembliste. Sur le plan linguistique, ce voisinage permet la prise en compte du contexte gauche et droit pour la reconnaissance de l’entité. Pour l’extraction des motifs, notre approche se caractérise par l’utilisation de contraintes variées en plus de la fréquence des motifs, et notamment la prise en compte d’informations linguistiques dans le processus de fouille sous forme de contraintes. En s’appuyant sur le cadre de la fouille récursive sur les ensembles d’items, nous avons adapté les techniques de fouille récursive aux séquences. Nous montrons qu’il est ainsi possible, sur des données caractérisées par une dimension séquentielle, de bénéficier du paradigme de la fouille ré-cursive qui permet de découvrir un nombre borné de motifs récursifs ayant des capacités de généralisation. La tâche (1) illustre l’apport de ces motifs pour l’extraction et la ca-ractérisation de relations entre entités nommées. Comme nous l’indiquons dans le dernier chapitre, nous pensons que ces méthodes ont aussi une portée dans d’autres problématiques relevant de la fouille de données.

4.1 Indices linguistiques pour la fouille : les défis DEFT

J’ai commencé à m’intéresser à la fouille de données lors de défis DEFT et du projet Bingo (cf. section 3.2 p. 26). Les défis DEFT éditions 2006, 2007 et 2008, auxquels j’ai pris part avec plusieurs membres de notre équipe2

ont été l’occasion de combiner des compétences en TAL et en fouille de données. Nous avons mis en œuvre un classifieur supervisé fondé sur des règles d’association et s’appuyant sur des indices linguistiques fournis par des chaînes de traitement adaptées aux tâches spécifiques de chaque défi. Contexte Les trois défis DEFT auxquels nous avons participé avaient les objectifs sui-vants [Widlöcher et al. 2006, Vernier et al. 2007, Charnois et al. 2008] :

– lors du défi DEFT 2006, il s’agissait de reconnaître des segments thématiques ap-partenant à différents domaines (juridique, scientifique, politique). Il s’agissait plus précisément de déterminer les premières phrases de chaque segment, ce qui peut revient à attribuer à une phrase donnée une catégorie (début de segment ou non) ; – la tâche de DEFT’07 consistait à attribuer une classe d’opinion à chaque texte du

corpus. Les corpus proposés étaient de quatre types : critiques de films et de livres,

2. Selon les années ont participé : Frédérik Bilhaut, Antoine Doucet, Patrice Enjalbert, Stéphane Ferrari, Nicolas Hernandez, Yann Mathet, François Rioult, Antoine Wildöcher

Fouille de données pour le TAL critiques de jeux vidéo, relectures d’articles scientifiques et débats parlementaires. Il s’agissait d’attribuer pour l’ensemble d’un texte une catégorie parmi trois valeurs (positif, neutre, négatif) ou deux pour les textes parlementaires (favorable ou défa-vorable à l’amendement).

– enfin, le thème de l’édition 2008 de DEFT concernait la classification en genres (Le Monde, Wikipedia) et catégories thématiques (sport, art, économie, etc.).

Les domaines d’application étaient donc divers, mais ont en commun le fait d’être traités comme des problèmes de classification. Les méthodes les plus employées par les participants de ces défis sont celles qui utilisent des classifieurs numériques (machines à vecteur de support, réseaux de neurones, méthodes probabilistes...). Sur l’ensemble des défis, ce type de méthodes a donné les meilleurs résultats, relativement au F-score3 [Azé et al. 2006, Paroubek et al. 2007, Hurault-Plantet et al. 2008].

Réalisations L’originalité de l’approche proposée par notre équipe repose sur des trai-tements symboliques combinant traitrai-tements linguistiques et fouille de données. Cette ap-proche se répartit ainsi :

– une phase de modélisation pour dégager des critères linguistiques génériques et per-tinents pour la tâche et le domaine ;

– une chaîne de traitement pour repérer ces indices et les marquer dans le texte ; – un processus de fouille produisant des règles de classification (règles d’association

concluant sur la classe) à partir du marquage textuel des indices ; – une application du modèle obtenu sur le corpus de test.

J’illustre notre méthode sur la tâche de classification en genres de l’édition 2008. La phase de modélisation s’est appuyée sur une étude des deux corpus à traiter qui a permis de dégager des hypothèses quant aux marques linguistiques caractéristiques des deux types de textes. Ceux de Wikipedia, par nature encyclopédique, nous ont semblé relever d’un style définitoire que souligne l’usage fréquent de marques comme « être un », « désigne », « définit », etc. À l’opposé, les articles du Monde plus narratifs incluent des formes lan-gagières diverses : marques énonciatives typiques de l’interview (pronoms personnels des premières et deuxièmes personnes, marques de citation), marques interrogatives, exclama-tives, anaphoriques, formes impersonnelles, temps verbaux du passé, futur, conditionnel (versus le présent atemporel de la définition). Le repérage de ces marques a été réalisé en tête de texte, c’est-à-dire en première phrase ; l’hypothèse étant que cette position joue un rôle privilégié dans l’organisation discursive, et en particulier, que certaines marques discriminantes des genres textuels sont situées dans cette position.

Ces différentes marques ont été repérées dans les textes (plus précisément sur la pre-mière phrase). En bout de chaîne, un composant produit une matrice dans laquelle chaque ligne correspond à un texte du corpus et chaque colonne à un attribut étiqueté par un in-dice. La valeur de cet indice est le nombre d’occurrences de l’objet ou 0 si l’indice est absent de la première phrase. Les règles de classification – c’est-à-dire les règles d’association – sont produites automatiquement à partir de la matrice. Quelques expériences rapides ont permis de constater que la seule règle /ˆetre + d´eterminant → W ikipedia/, de confiance 73% (présente 4703 fois dans les 6398 textes de classe Wikipedia et uniquement 446 fois

Contraintes et fouille récursive pour l’extraction de relation entre entités nommées

dans les 88825 textes du Monde), permet d’obtenir sur l’échantillon d’apprentissage un F-score moyen de 85.2%. Le F-score théorique d’un classifieur utilisant uniquement cette règle est de 86%, qui est le résultat obtenu sur les données de test. Nous avons tenté de per-fectionner cette règle et d’utiliser des règles moins fréquentes et linguistiquement justifiées, mais les performances étaient moins bonnes et nous n’avons pu améliorer les performances du classifieur. Le bon résultat obtenu confirme cependant notre hypothèse de départ sur ce simple indice. Les autres indices étant nettement moins fréquents sur la première phrase – et probablement disséminés sur l’ensemble du texte –, les règles correspondantes sont peu utilisées par le classifieur.

Bilan Du point de vue de la modélisation, l’intérêt de cette approche est donc de pouvoir observer la pertinence de marqueurs linguistiques à partir des régularités exhibées par les règles d’association (comme nous avions commencé à le faire lors de notre troisième parti-cipation et que nous venons de décrire). Le calendrier des défis n’a cependant pas permis ce regard linguistique lors de nos deux premières participations. Sur les trois participations, les résultats obtenus par notre méthode se situent autour de la moyenne des participants. Nous pensons que l’originalité forte de notre participation a été de montrer l’intérêt de l’uti-lisation de méthodes de fouille sur les textes, notamment pour faire émerger des régularités linguistiques, ainsi que le besoin d’outils de fouille mieux adaptés au matériau linguistique. Cet axe de recherche est devenu une thématique de recherche au sein de l’équipe et une réelle dynamique s’est ainsi instaurée. Suite à nos participations à ces défis, nous avons commencé à investir les méthodes de fouille pour le TAL et la problématique de l’accès à l’information. Ce travail, toujours en cours, est décrit dans la suite de ce chapitre.

Documents relatifs