• Aucun résultat trouvé

Partie 2 : Détection Automatique des Activités d’Entreprises

7.5 Mesure de similarité par réseau de neurones

7.5.3 Présentation de l’architecture du réseau

Il n’existe pas de méthodes automatiques pour choisir l’architecture du réseau. Elle varie en fonction de l’application et dépend fortement des données à utiliser pour l’apprentissage. L’architecture du réseau est construite en fonction du nombre de couches à utiliser et du nombre de neurones dans chaque couche. Les neurones peuvent être organisés de différentes manières, ce qui définit l’architecture et le modèle du réseau [165].

Le réseau de neurones que nous utilisons [77] est le Multi Layer Perceptron qui est organisé en couches où l’information circule dans un seul sens. Le choix de ce type de réseau est justifié par le fait que nous avons trois types de données (requête, VCH, documents). Ceux-ci doivent être représentés séparément dans le réseau avec une logique d’emplacement. La requête est la clé du besoin d’information. Elle doit

6. Vecteur qui évalue la pertinence de chaque document en fonction de la réponse pertinente attendue par l’utilisateur. Aprés la première simulation, nous gardons les sorties des 18 neurones documents et nous augmentons les valeurs des deux neurones documents pertinents (classes et sous-classes)

7.5. Mesure de similarité par réseau de neurones 87 être en entrée du réseau. La réponse est fonction des documents. Donc ces derniers doivent être à la sortie. Entre les deux se place le VCH qui contrôle l’association des termes entre la requête et les documents. Dans notre cas, il est constitué de trois couches (couche d’entrée, couche cachée et couche de sortie) avec deux types de neurones (neurone terme et neurone document). Les neurones termes correspondent à l’entrée du réseau. Car c’est en fonction d’eux que la requête est exprimée. Les neurones documents correspondent à la sortie du réseau pour exprimer la réponse en fonction du document le plus pertinent. Le processus suit un mécanisme de propaga- tion d’activation. Autrement dit, un vecteur entreprise (requête) active initialement certaines cellules termes. Cette activation se propage vers les documents à travers les connexions entre les couches. Enfin, la connaissance peut évoluer par apprentissage. Dans le but de tester l’apprentissage en utilisant la statistique de pondération des termes et la statistique combinée avec la sémantique (relations de synonymie, de généralisation...), nous avons établi deux modèles : un modèle de base et un modèle enrichi.

7.5.3.1 Modèle de base

Le modèle de base illustré dans la figure7.8est constitué d’abord par une couche d’entrée qui représente une couche virtuelle liée à l’entrée du système et ne contient aucun neurone. Elle est créée dynamiquement à chaque interrogation (nouvelle re- quête). La couche suivante est constituée par n neurones de termes (n : nombre de termes du VC). Il existe un lien synaptique reliant chaque terme de la couche d’en- trée (requête) à un terme de la couche des termes reflétant le poids de ce terme dans la requête. La dernière couche est celle de sortie constituée par m neurones de do- cuments (m : nombre de documents, m classes et sous-classes NAF). Les scores des neurones documents sont directement les sorties du système. Le réseau reçoit à son

Figure 7.8 – Organisation des couches dans notre modèle de base

entrée un vecteur de termes (vecteur requête) activant ainsi les termes de la requête sur la couche des termes. Ensuite ces termes activés vont propager leurs activations

à leurs voisins. Enfin les termes activés directement à partir de la couche d’entrée et ceux activés par propagation vont envoyer leurs signaux d’activation vers la couche de sortie. Les documents sur la couche de sorties recevant des signaux pour être activés se déclenchent pour construire la réponse à la requête d’entrée. Les relations suivantes expliquent le processus d’activation :

∀t ∈ T /t ∈→q , ET i (τ = 0) = f reqi ∀t ∈ T /t /∈→q , ET i (τ = 0) = 0 ∀t ∈ D, EiD(τ = 0) = 0 EiD(τ = 1) =X i∈T EtT(τ = 0).qt.wd,t où

T : est la couche des neurones termes. D : est la couche des neurones documents.

f reqt : est la fréquence absolue du terme t dans la requête q.

qt: est le poids du terme t dans la requête q.

wd,t : est le poids du terme t dans le document d.

Les deux premières équations représentent l’état initial des neurones termes (à τ = 0). La troisième équation représente l’état initial des neurones document. L’état des documents (à τ = 1) est représenté par la dernière équation : c’est la somme des produits de l’importance des termes activés, calculée à partir de leur fréquence absolue et leur fréquence relative.

Une fois l’architecture du réseau de neurones choisie, il est nécessaire d’effectuer un apprentissage. L’apprentissage détermine les valeurs des poids permettant à la sortie de réseau de neurones d’être aussi proche que possible de la réponse pertinente attendue (pour chaque entreprise détecter la classe et la sous-classe pertinentes). Cet apprentissage s’effectue en calculant à chaque fois l’écart de l’erreur entre le vecteur sortie du réseau et le vecteur désiré qui contient les scores qui privilégient la classe et la sous-classe pertinentes. L’erreur est rétropropagée à chaque fois dans les couches du réseau jusqu’à obtenir le résultat désiré, c’est-à-dire obtenir un réseau stable. 7.5.3.2 Modèle Enrichi

L’objectif du modèle enrichi est de tirer un meilleur parti des ressources sémantiques propres au métier. Le VCH, constitué précédemment, ne va plus être utilisé comme une ressource linguistique brute permettant de filtrer l’information. Mais il va être analysé pour faire apparaitre des relations d’ordre linguistique concernant la synonymie, la généralisation, la co-occurrence. L’un des intérêts de ce modèle enrichi est qu’il permet la représentation et l’usage de ces informations à forte valeur ajoutée.

7.5. Mesure de similarité par réseau de neurones 89 Nous avons mis l’accent sur l’importance de la fonction de mise en correspon- dance et l’indexation qui ont un rôle majeur dans la performance du processus pour limiter le silence et le bruit de notre système, et ce pour nous garantir la sélection des documents les plus pertinents. La détection des termes en commun entre un do- cument et une requête quelconque n’est pas satisfaisante par rapport à notre souci de ressortir tous les documents pertinents. Il nous faut donc aller un peu plus loin et ajouter des mécanismes complémentaires.

Notre objectif est toujours d’améliorer la fonction de mise en correspondance parce qu’un terme peut apparaître dans plusieurs documents et peut représenter plus qu’un concept. Par conséquent, si un document et une requête n’ont pas la même représentation, ce dernier ne sera pas retourné ce qui accroît le silence.

Figure7.9 – Multiple représentations d’un concept par différents termes En outre, un document peut être indexé par des termes spécifiques et éventuel- lement par des termes génériques. Cette problématique ne peut pas être résolue par une simple comparaison des représentations. Pour mettre en œuvre ces mécanismes, des relations entre les termes sont nécessaires.

Le modèle enrichi est une extension du modèle de base. Ce modèle est basé sur l’utilisation de la combinaison sémantique des termes [26] [119]. Nous avons inclus des relations de synonymie, de généralisation et de Co-occurrence. Chaque relation est représentée par une couche cachée. Tous les termes sont les mêmes dans toutes les couches. En passant d’une couche à la seconde, un nombre plus important de termes est activés. Notre modèle utilise des différents liens entre les termes basés

Figure 7.10 – Organisation des couches dans le modèle Enrichi

mées essentiellement par des liens de synonymie et de généralisation. Les relations statistiques sont exprimées par des liens de co-occurrence.

Deux termes t1 et t2 sont synonymes s’ils représentent les mêmes concepts. Inverse-

ment, les relations sont symétriques, réflexives et transitives. Un terme t1 généralise

un autre terme t2 si tous les concepts de t2 peuvent être représentés par le terme

t1. Nous pouvons dire alors que le terme t2 est spécifique du terme t1. Cette rela-

tion est non symétrique et paradoxale. Deux termes t1 et t2 sont co-occurrents s’ils

apparaissent ensemble en liaison forte au moins dans l’indexation d’un document. On associe à ces liens la fréquence d’apparition de ces termes dans tout le corpus c’est-à-dire dans les 20 documents (classes et sous-classes NAF).

Un neurone calcule son statut selon l’état de neurones qui sont reliés et selon les connexions impliquées. Le tableau 7.1, nous présentons un extrait descriptif des couches utilisées.

Synonymie Généralisation

Voiture véhicule mécanique fraise

Chaudière chaudronnerie mécanique décolletage

Réservoir citerne revêtement métaux

Fabrication construction usinage découpage

Table7.1 – Exemple des termes de la couche synonymie et généralisation

La couche de co-occurrence est obtenue automatiquement en calculant le nombre d’apparitions des deux termes ensemble dans les documents. La décision, si deux termes sont synonymes, est liée au langage du domaine traité. La sémantique des termes dans ce domaine peut être différente de la sémantique des termes dans la langue française.