• Aucun résultat trouvé

Chapitre 2 État de l’art

2.1 Portée de l’étude

Nous partons d’un cas particulier qui est le système CATS, et nous cherchons à élargir notre étude

à tous les systèmes similaires au sens où ils traitent des énoncés spontanés en commerce électronique.

Nous précisons d’abord la terminologie que nous emploierons.

• Portage linguistique : il s’agit de détailler et analyser la méthode de passage d’une langue à

l’autre ; il ne s’agit ni de génération multilingue, ni de localisation.

• Localisation : portage vers une autre langue et adaptation à un autre contexte similaire (tâche,

domaine, lieu).

• Systèmes de e-commerce : systèmes utilisés pour faire du commerce électronique utilisant

divers media (Web, dialogue, SMS…), que ce soit en B2B ou en B2C. C’est donc le grand

public qui est visé dans ce type d’application.

• Énoncés spontanés en langue naturelle (ESLN) : les énoncés à traiter sont rédigés d’une façon

naturelle ; ce sont par exemple des annonces qui contiennent du bruit, des erreurs, des

fautes… ou les feedbacks des utilisateurs. A contrario, ce ne sont pas les annonces de la

presse, car elles sont corrigées et éditées.

• Ecrit/oral : on traite ici l’écrit, car, jusqu’à présent, il n’existe pas de systèmes de e-commerce

pour l’oral disponibles commercialement, il y a seulement des projets de recherche comme

Nespole! (NESPOLE! 2000).

2.1.1 Applications de e-commerce envisageables

Les applications envisageables sont a priori nombreuses, mais si nous limitons notre recherche aux

applications de e-commerce traitant obligatoirement des données spontanées, la liste devient moins

importante :

• Petites annonces : des sites comme e-Bay.fr, bonjour.fr et autres existent sur le Web, mais

l’opération d’extraction de contenu est réalisée manuellement par l’utilisateur qui choisit des

items dans des menus à partir d’une interface contrôlée.

Par exemple, Comintoo est un moteur de recherche pour l'immobilier lancé début février 2007

(http://comintoo.com/). L’idée est de regrouper tout les sites sur l'immobilier en France dans un

seul site basé sur la communication en langage naturel. Le langage utilisé n'est pas spontané, il

est contrôlé par des menus déroulants et des textes gardés en mémoire. Il s’agit de contrôler la

saisie et en même temps d'aider à la rédaction du texte par l'affichage d’exemples de

recherche. Ensuite, les annonces sont affichées dans leur site original par redirection à l’aide

des liens. Les annonces sont parfois disponibles dans d'autres langues, mais il s’agit d’une

génération multilingue. La même chose est prévue pour le domaine de l’automobile.

Nous avons trouvé un traitement d’énoncés dans le cas du système CATS, basé sur le SMS

comme media et recevant des énoncés spontanés en arabe.

• Enchères : il en existe surtout sur le Web, notamment Advise, e-Bay… Il n’y a pas de

traitement des énoncés spontanés, et, pour le cas multilingue, il y a appel à des systèmes de

TA comme Systran. Ces applications font de la recherche « exacte » par critères, sans

inférence.

Figure 3 : exemple d’enchères de voiture

• Rapports d’incidents par des utilisateurs : on a trouvé un cas d’approche d’extraction

d’information, pour lequel il y a eu portage d’une langue à une autre dans le domaine des

accidents d’avion (Riloff, Schafer et al. 2002).

• Traitement du Web de type catégorisation de courriels, résumé automatique, etc. : ce type de

service existe. La compagnie 5ca (http://www.5ca.com/) fait la gestion des communications

basées essentiellement sur l’IP (téléphone, email, tchat, sms, etc). 5ca utilise des méthodes

semi-automatiques pour la catégorisation des courriels et fait appel à des systèmes de

traduction automatique pour des cas multilingues (manuels de produits…). Pertinence

Summarizer, un système de résumé automatique, est aussi utilisé pour la gestion des courriels,

de sites Web, etc. Nous avons trouvé des services proposés par DATOPS

(http://www.datops.com/) pour les études d’opinion et l’identification d’informations-clés.

• Recherche d’information : il y a des projets comme MIETTA « Multilingual Information

Extraction for Tourism and Travel Assistance ». MIETTA est un projet européen qui intègre

la recherche d’information avec l’extraction et le traitement d’information (Buitelaar, Netter et

al. 1998).

Les pages jaunes permettent aussi la recherche d’information, mais en contrôlant la saisie par

un affichage d’exemples de saisie, comme le montre la figure suivante.

Figure 4 : recherche d'informations à l'aide des pages jaunes

• Extraction d’information : nous avons trouvé des systèmes ; un des plus importants est une

application adaptative de type « Amilcare », c’est une application adaptable d’extraction

d’information.

• Assistance à la vente : le système NLSA, une application déployée par IBM.

Dans cette étude, on ne s’intéresse qu’aux applications commerciales dans lesquelles il y a un

traitement du contenu d’énoncés spontanés. En fait, ce traitement peut être automatique (CATS) ou

manuel (e-Bay). L’essentiel est qu’il existe une représentation interne du contenu. Dans le cas

d’e-Bay, le portage de la représentation interne du contenu est fait par appel à de la TA experte (Systran ou

Reverso), et le portage des annonces elles-même n’est pas fait (elles sont gardées telles quelles), mais

on pourrait le faire.

Tenant compte de ce filtrage, la liste des types de services trouvés devient un peu moins longue.

Voici la liste retenue :

• Petites annonces,

• Enchères,

• Rapports d’incidents,

• Traitement du Web,

• Recherche d’information,

• Assistance à la vente.

Les éléments de la liste retenue peuvent répondre partiellement à notre étude ; il est donc

important de procéder à une analyse détaillée des systèmes et des approches correspondants.

2.1.2 Liste des applications considérées

Dans ce qui suit, nous dressons la liste des applications retenues pour les domaines envisagés. Le

Tableau 2 présente la liste des applications classées par ordre d’importance.

Application Note

NLSA (Naturel Language Sales Assistant) +

Pertinence Summarizer +

CATS (Classified Ads through SMS) +

IMRS (Impression-based Music-Retrieval System) +

MKBEEM (Multilingual Knowledge

Based European Electronic Marketplace) -

Projection interlingue d’extraction d’information +

Amilcare -

e-Bay -

Tableau 2 : liste de applications considérés

+ : application très importante pour notre étude.

- : application moins importante pour notre étude.

Nous classons la liste des applications considérées en deux catégories : celles qui peuvent être

considérées comme des systèmes et celles qui peuvent êtres considérées comme des approches. Ainsi,

nous adoptons pour chaque système de e-commerce analysé le type d’examen suivant :

• Brève présentation

• Type des énoncés traités

• Architecture et ressources (pour traiter les énoncés)

• Portage linguistique (nous essayons d’analyser la méthode de portage s’il a été réalisé, sinon

nous essayons de détecter les composants qui dépendent de la langue).

Nous adoptons pour chaque approche analysée le type d’examen suivant :

• Brève présentation

• Type des énoncés traités

• Méthode et ressources (pour traiter les énoncés)

• Domaine d’application