• Aucun résultat trouvé

Un outil d’extraction d’information : Insight Discoverer Extractor™ de Temis.

Emergence d’une innovation au travers de deux projets

Chapitre 4 : Emergence d’une innovation au travers de deux projets

3. Problème de la conceptualisation lors du passage du langage naturel au modèle :

2.3 Un outil d’extraction d’information : Insight Discoverer Extractor™ de Temis.

Le logiciel Insight Discoverer™ Extractor (IDE) est un logiciel destinés à l’extraction d’information (EI) commercialisé par la société Temis depuis juin 2002. Il constituait la brique la plus innovante du système que nous avons étudié, car l’extraction d’information était en 2003, et reste à ce jour, encore peu utilisée en entreprise, par rapport aux systèmes de représentation de connaissance, par exemple. Il était tout de même utilisé dans des projets industriels, notamment de veille économique et scientifique, pour de grands comptes français et internationaux. Son approche était fondée sur l’acquisition de connaissances à partir d’un corpus de textes selon un processus itératif, et exploitait les complémentarités des différentes étapes de l’analyse linguistique (morphologique, syntaxique et sémantique) à partir des étiquettes générées à chacune de ces étapes. IDE pouvait être employé pour une simple extraction d’éléments syntaxiques comme les noms, les verbes, etc. ou bien pour une extraction d’éléments sémantiques tels que des noms de sociétés, des noms de lieux, des dates, des prix,… et des relations sémantiques (fusion de X avec Y, achat de W par Z). L’architecture d’IDE reposait sur le moteur XeLDA™, issu des recherches du XRCE, un étiqueteur grammatical qui découpe chaque texte en unités lexicales, puis lemmatise ces unités lexicales pour qu’elles soient reconnues indépendamment de leurs formes fléchies (i.e. ramène les formes fléchies, conjuguées ou plurielles, à des formes standard, infinitif ou singulier) ; enfin, il assigne à ces unités lexicales une catégorie grammaticale (nom, adjectif, verbe…) assortie de traits morphosyntaxiques (genre, nombre). Pour réaliser cette analyse, le moteur XeLDA™ dispose de diverses ressources comme des dictionnaires, des règles morphologiques ainsi que des modèles statistiques pour résoudre les ambiguïtés concernant l’affectation des catégories grammaticales. Ces sources ne pouvaient être modifiées par l’utilisateur, elles étaient donc identiques quel que soit le domaine concerné.

Ensuite, à ce traitement, s’ajoutait l’analyse sémantique pour laquelle les ingénieurs linguistes de la société Temis définissaient des cartouches linguistiques, les Skill Cartridges™, en fonction du domaine concerné et des attentes de l’application finale. D’après Grivel et al. (2001), une Skill Cartridge™ est une hiérarchie de « composants de connaissance », appelés « Skill Units », décrivant l’information à extraire pour un métier, une activité, un domaine spécifique ou une thématique donnée. Un composant de connaissance peut avoir la forme d’un dictionnaire ou d’un ensemble de règles d’extraction qui décrivent l’information à extraire. Les règles d’extraction se composent d’un ensemble de patrons d’extraction contextuels, combinant lemmes, étiquettes syntaxiques et

Chapitre 4 : Emergence d’une innovation au travers de deux projets __________________________________________________________________________________________

étiquettes sémantiques. Chaque règle associe ensuite une nouvelle étiquette au fragment de texte repéré. Cette étiquette peut ensuite être utilisée dans de nouvelles règles.

Les linguistes de Temis suivaient les étapes de construction suivantes pour tout développement d’une nouvelle cartouche linguistique (appelée par Temis : Skill Cartridge™) :

1. L’analyse morphosyntaxique des textes qui constituent le corpus d’entraînement et la définition du vocabulaire pertinent relatif au secteur d’activité ou au domaine économique étudié (agroalimentaire, automobile, etc.) ;

2. Le regroupement des termes ainsi définis sous des étiquettes sémantiques elles-mêmes organisées, selon les besoins, en une hiérarchie de 3 à 4 niveaux généralement ;

3. La définition des règles d’extraction d’information niveau par niveau hiérarchique afin d’aboutir aux concepts visés : les acteurs du domaine d’activité étudié, leurs relations et toute information relative aux lieux, au temps ou à une donnée particulière, ou attribut, liée au domaine comme un montant financier par exemple ;

4. L’exécution interactive des règles d’extraction sur le corpus d’entraînement afin d’évaluer le résultat des extractions. Il était alors possible d’enrichir le vocabulaire, de modifier des règles d’extraction et d’en vérifier l’impact sur le corpus de travail.

En conclusion, IDE était un outil capable de s’adapter au domaine d’activité de l’entreprise cliente. Ces applications étaient développées par la propre équipe d’ingénieurs linguistes de Temis. Néanmoins, Temis et l’entreprise cliente devaient réaliser ensemble une analyse linguistique sur laquelle reposaient les patrons d’extraction construits manuellement. Au final, les informations étaient extraites et annotées par des étiquettes sémantiques constituant un arbre conceptuel. Nous allons maintenant étudier plus en détail la structuration des arbres de concepts générés afin de comprendre comment ils pouvaient être transformés en une représentation plus formelle du contenu.

La représentation en arbre conceptuel :

La figure 7 (page 149) montre un exemple d’arbre conceptuel généré par IDE, à partir d’un extrait de l’article relatif à la biographie de « Francis Ford Coppola » présenté en Annexe.

Chapitre 4 : Emergence d’une innovation au travers de deux projets __________________________________________________________________________________________

La racine de cet arbre représente généralement le document analysé par le moteur d’extraction. Chaque nœud de l’arbre est constitué d’une étiquette sémantique (préfixée par le symbole « / ») et de la valeur (indiquée entre parenthèses) de l’unité textuelle du texte à laquelle cette étiquette a été affectée. D’autres informations, telles que le lemme de cette unité textuelle ou sa position dans le texte, peuvent aussi être associées aux étiquettes sémantiques si besoin est. Dans la Figure 7, la racine du document porte l’étiquette sémantique « /article » et a pour valeur son titre : «Famille Coppola, l’esprit de clan». Chaque sous-arbre correspond à une entité nommée isolée, à une phrase ou encore plus généralement à une proposition du document analysé.

Premièrement, les sous-arbres représentant les entités nommées isolées sont généralement formés à partir de deux schémas d’extraction :

1. Les entités nommées identifiées de manière « certaine » à partir d’un lexique ou de toute autre ressource linguistique utilisée par le moteur d’extraction ;

2. Les entités nommées identifiées de manière « potentielle » à partir de l’application d’un patron d’extraction compilé dans le moteur d’extraction.

Dans le premier sous-arbre de la figure 7, l’étiquette « /REFERENCE-ACTEUR » représente l’entité nommée isolée dont la valeur est « Francis Ford Coppola ». Ce nœud possède un nœud fils « /ActorNamed », qui signifie pour IDE qu’il a été repéré à partir d’un lexique, lui-même ayant pour nœud fils « /Personnalité » qui indique le lexique dont a été extraite l’entité nommée « Francis Ford Coppola ». A l’inverse, dans le deuxième sous-arbre de la figure 7, si l’entité nommée « Spike Jonze » a pour racine la même étiquette que l’entité nommée précédente, son nœud fils « /NomDePersonnePotentiel » indique que son étiquette sémantique a été calculée à partir du déclenchement d’un certain patron d’extraction pour la reconnaissance des noms de personnes construit à partir des étiquettes « Prénom » et « ProperName ». Le mélange des étiquettes ayant un label français ou anglais n’est pas un hasard. Les ingénieurs linguistes réutilisent souvent des ressources linguistiques d’applications différentes pour éviter de réécrire tous les patrons à chaque nouvelle application. Dans notre cas, l’étiquette « ProperName » avait été définie dans une précédente cartouche linguistique.

Chapitre 4 : Emergence d’une innovation au travers de deux projets __________________________________________________________________________________________

Figure 7 : Extrait de l’arbre conceptuel produit par l’analyse linguistique de l’article « la tribu Coppola » publié dans le magazine Elle.

Deuxièmement, une proposition n’est représentée sous la forme d’un sous-arbre que si elle est composée d’unités textuelles ayant donné lieu à une extraction. De la même manière, certaines unités textuelles de la proposition peuvent ne pas apparaître dans le sous-arbre : seules celles ayant été étiquetées sémantiquement par les patrons seront représentées par un nœud du sous- arbre. Ces sous-arbres correspondent à l’interprétation de la proposition pour répondre aux tâches de reconnaissance d’un attribut, d’une relation, voire d’un scénario. D’après l’analyse des sous-arbres, on peut résumer les différentes situations comme suit : lorsqu’ils contiennent une seule référence à une entité nommée, alors la tâche correspond à l’identification d’un attribut pour celle-ci ; lorsqu’ils contiennent deux étiquettes correspondant à des entités nommées, alors il s’agit de la tâche d’instanciation d’une relation entre ces entités nommées ; lorsqu’ils contiennent plusieurs entités nommées, cela signifie qu’un scénario a été clairement identifié au sein de la proposition.

Par exemple, le sous-arbre portant l’étiquette « /DATE-NAISSANCE » dans la Figure 8, ci- après, correspond à l’extraction d’un scénario complet correspondant à la naissance d’une personnalité. Ce scénario est constitué des entités nommées « Personnalité », « Date » et « Lieu », respectivement représentées par les étiquettes « /Person », « DATE » et « Location ».

Chapitre 4 : Emergence d’une innovation au travers de deux projets __________________________________________________________________________________________

Chaque proposition, ou sous-arbre, constitue un fait qui représente la structure schématique d’un événement, d’une action, d’un état, etc. Ainsi, chaque phrase peut être représentée en distinguant la proposition et ses modalités. La proposition est constituée d’un verbe d’où partent des relations étiquetées sémantiquement et correspondant aux différents « cas ». Les modalités concernent les informations qui situent et spécifient la proposition comme la négation, le mode, le temps, l’aspect, etc. Il suppose que pour chaque verbe, il existe seulement un nombre restreint de cas parmi les suivants :

1. AGENT : l'instigateur animé d'une action

2. INSTRUMENT : la force inanimée ou l'objet affecté

3. DATIF : l'animé affecté par l'action

4. FACTITIF : l'objet résultat de l'action

5. LIEU : le lieu ou l'orientation

6. OBJET : l'entité qui bouge, change ou dont la position ou l'existence est en question.

La relation entre grammaire des cas et arbre conceptuel est encore plus évidente dans le domaine de la veille économique, bien connu des moteurs d’extraction d’information, et d’IDE en particulier. Les scénarios de ce domaine sont généralement bien identifiés et structurés en fonction des différentes informations à extraire correspondant aux questions suivantes : Qui sont les acteurs du secteur d’activité ou du domaine économique étudié ? Quels sont les objets considérés relatifs au domaine décrit ? Quelles sont les actions de ces acteurs, sur quels objets portent-elles, comment s’effectuent-elles ? Où ont lieu les actions en question ? Quand ont-elles eu lieu ? Quel est le montant de ces actions ?

Mais cette grammaire des cas ne peut correctement représenter les phrases plus complexes où, comme-ci-dessus, on a des emboîtements de propositions les unes dans les autres. Elle convient surtout aux phrases dites simples. L’arbre conceptuel est capable de représenter hiérarchiquement des constructions plus complexes comme par exemple dans le dernier sous-arbre de la figure 8 où le syntagme nominal « son cousin, Nicolas » se décompose en deux syntagmes nominaux : le

Chapitre 4 : Emergence d’une innovation au travers de deux projets __________________________________________________________________________________________

premier, « son cousin », est représenté par l’étiquette sémantique « /Famille » et le second « Nicolas » identifié par l’étiquette « /Prénom ».

Figure 8 : Transformation de deux sous-arbres conceptuels en un graphe conceptuel où la même entité nommée « Coppola » fait le lien entre les deux propositions. (Amardeilh, 2007).

Pour qu’un arbre conceptuel issu de l’analyse linguistique produise une représentation plus globale de la signification du texte originel, il faut pouvoir identifier et référencer les entités nommées identiques entre elles au delà des différents sous-arbres des propositions. Comme illustré à la figure 8, nous obtiendrons alors une représentation sous la forme d’un graphe conceptuel qui est un premier pas vers une représentation ontologique.