Approche de détection des secteurs d’activités

Partie 2 : Détection Automatique des Activités d’Entreprises

7.3 Approche de détection des secteurs d’activités

point de vue informatique.

7.3 Approche de détection des secteurs d’activités

Compte tenu de l’existence d’une ressource sémantique très structurée comme le NAF, nous sommes conduits à utiliser des techniques d’indexation relativement classiques (indexation contrôlée) pour filtrer l’information qui circule dans le texte de l’entreprise. Rappelons toujours qu’en termes de recherche, la question consiste à montrer la valeur ajoutée de l’usage de ressources sémantiques propres au métier, par l’étude des performances finales du système. Pour l’extraction d’information sur les activités, nous avons procédé de manière statistique, en nous basant sur l’approche d’indexation contrôlée. Notre approche[76] [79] se déroule en trois phases décrites par la figure 7.2. Nous utilisons le thésaurus qui reflète une représentation sémantique et conceptuelle de tous les domaines d’activités. Dans notre cas le thesaurus est le code NAF7.1.

Figure 7.2 – Approche visée pour l’extraction des activités des entreprises

Notre thesaurus est utilisé en amont du moteur de recherche. Il sert de ressource sémantique externe pour améliorer l’expressivité du besoin d’information (quelle est mon code NAF à partir de mon site web ?) avant de le soumettre au système de recherche d’information. Cette technique peut s’avérer efficace, notamment lorsqu’il s’agit d’information traitant d’un domaine spécifique (activités des entreprises par exemple), dans la mesure où elle permet à l’utilisateur d’exprimer son besoin d’information dans un langage contrôlé. Nous effectuons la lemmatisation (avec l’outil TreeTagger) des termes du thesaurus ainsi qu’une élimination des mots vides. Le ré-

sultat est le Vocabulaire Contrôlé Hiérarchique (VCH) qui est un ensemble de termes (mots simples et mots composés), par exemple : usinage, emboutissage, machines- outils...

Dans une première phase une pondération manuelle est faite sur ce vocabulaire contrôlé ; elle permet d’attribuer, par expertise, un poids (1, 2 ou 3) pour chaque terme. Le poids d’un terme dans un document traduit l’importance de ce terme dans le document. En réorganisant l’ensemble des termes du VCH selon la structure initiale du NAF, nous obtenons un vecteur pour chaque classe NAF (vecteur classe). Dans une deuxième phase, nous utilisons le VCH pour réaliser une pondération automatique du site web de l’entreprise. Cette pondération est basée sur le calcul de la fréquence du terme dans le texte du site de l’entreprise après avoir effectué un filtrage pour ne garder que les termes qui sont présents dans le VCH. Cette approche repose sur l’idée qu’il existe un rapport entre le contenu véhiculé par un texte et les mots utilisés dans le texte, que ce rapport est en fonction de la fréquence d’usage des mots, et qu’il existe une relation entre la capacité d’un mot à être choisi comme terme d’indexation et sa fréquence d’emploi.

Avec ces deux phases, nous voulons construire des vecteurs pour toutes les classes et les sous-classes du NAF, i.e C28, C28.1, C28.2, etc, et construire un vecteur pour chaque site web d’entreprise. Chaque vecteur est l’ensemble des descripteurs d’un document (classes ou sous-classes NAF) ou d’une requête (site web d’une entreprise) avec leurs pondérations (poids informationnels). Pour cela, on utilise les techniques traditionnelles de la RI et une représentation vectorielle des termes des libellés des classes et sous-classes NAF. Dans une troisième phase, on effectue un appariement entre le vecteur classe et le vecteur entreprise pour mesurer le degré de rapprochement.

7.3.1 Extraction

Au vu de nombreux exemples de pages web, dans lesquels l’information pertinente est noyée dans le texte dédié à la mise en forme ou à l’architecture du site web, nous avons vu naître le besoin d’établir des règles permettant d’extraire ce texte avec le moins de bruit possible. De façon analogue, des programmes spé- cifiques sont nécessaires pour extraire automatiquement de l’information dans les documents de type HTML, sans que celle-çi soit toujours explicitement structurée par un jeu de balises adéquates. C’est ce type de traitement que nous avons cherché à mettre en œuvre sur notre corpus. Nous avons utilisé le navigateur Lynx3 _{qui est}

un programme de conversion de la version HTML en format texte. Ce programme4

fonctionne par suppression et transformation de balises. Il prend en entrée un fichier ".html" ou ".htm" classique et propose en sortie la version en format ".txt". Nous

3. http ://lynx.browser.org/

4. Lynx est un navigateur "texte" trés connu dans le monde Unix (il existe aussi pour d’autres plateformes telles que Windows). On entend par navigateur texte, un navigateur qui affiche le contenu d’une page en mode texte, sans aucun rendu graphique. Il ne tient pas compte des feuilles de style, des balises de formatage (font...), des attributs de formatage et affiche tout avec une fonte unique, une taille unique de caractères.

7.3. Approche de détection des secteurs d’activités 75 avons en outre développé des programmes de nettoyage, qui normalisent le texte brut afin qu’il corresponde aux normes typographiques, et suppriment les éléments pouvant mettre en échec la suite du traitement.

7.3.2 Lemmatisation

L’analyse morphosyntaxique d’un discours de texte consiste à évaluer sa forme morphologique et la fonction grammaticale de ses éléments constitutifs. La mor- phologie est une branche de la linguistique qui étudie la façon dont les morphèmes (la plus petite unité porteuse de sens qu’il soit possible d’isoler dans un énoncé) se combinent pour former des lemmes (une unité autonome qui constitue la langue). Au cours de cette analyse morphosyntaxique, pour chaque mot on distingue sa ca- tégorie grammaticale et son lemme. La lemmatisation désigne l’analyse lexicale du contenu d’un texte regroupant des mots d’une même famille. Chacun des mots se trouve réduit à une entité appelée lemme. La lemmatisation regroupe les différents formes que peut prendre un mot : le nom, le pluriel, le verbe à l’infinitif, etc. Il existe plusieurs outils et plate-formes d’analyse morphosyntaxique. Celui que nous utilisons dans le cadre de notre travail est TreeTagger5_{. C’est un outil pour l’annota-}

tion grammaticale de données textuelles, qui associe à chacun des mots du discours son genre : noms, verbes, adjectifs, etc, et son lemme. Cet outil a été développé par Helmut Schmid dans le cadre du projet "TC" à l’institut de Linguistique informatique de l’Université de Stuttgart. TreeTagger a été utilisé avec succès pour différentes langues : allemand, anglais, français, italien, chinois. Il est fondé sur un algorithme d’arbre de décision pour effectuer l’analyse grammaticale.

7.3.3 Indexation

Cette étape est primordiale dans un processus de recherche d’informations. Elle consiste à analyser le document afin de produire un ensemble de mots clés, appelées aussi descripteurs, utilisés dans le processus de recherche d’informations. Nous avons effectué au début de notre expérience un premier test d’indexation, basé sur le calcul des fréquences des termes, dont le résultat était insatisfaisant vu que les termes clés qui représentent le document ne donnent pas l’information pertinente qui nous permet d’identifier l’activité de l’entreprise. En effet nous retrouvons beaucoup de termes qui ne sont pas pertinents pour notre recherche. C’est pourquoi dans un deuxième test nous avons effectué une indexation contrôlée par notre VCH, qui est faite en utilisant le NAF.

L’indexation contrôlée est composée de deux étapes : une première qui consiste en un filtrage pour ne conserver que les termes qui sont représentés par le VCH. Cette étape a pour but de maîtriser l’information qui circule dans le site web de l’entreprise et le cadrer par rapport au domaine traité. La deuxième étape consiste en une indexation traditionnelle basée sur la fréquence des termes qui sont

filtrés. Cette dernière est faite à l’aide du logiciel d’indexation SMART (System for the Mechanical Analysis and Retrieval of Text) appelé aussi Salton’s Magic Automatic Retrieval Technique, qui est un système d’indexation pour la recherche d’informations.

Depuis les années 1970, des chercheurs se sont penchés sur l’intérêt d’utiliser des ressources lexico-sémantiques dans le processus d’indexation. L’intérêt se justifie par le souci d’un meilleur contrôle et une uniformalisation du langage d’indexation. Ces resources ont été utilisées avec succès pour améliorer les performances des systèmes de recherche d’informations dans différentes applications [81] [93] [71]. L’utilisation du VCH pour réaliser une indexation contrôlée a pour objectif de pénaliser les termes porteurs d’ambiguïté qui ont un impact direct sur la performance du système. La deuxième raison de l’utilisation du VCH est l’exploitation de la force information- nelle et représentative que constitue le NAF, comme un référentiel standard du domaine, pour explorer le contenu des sites web des entreprises.

7.3.4 Appariement

L’objectif des systèmes de recherche d’informations (SRI) est d’établir une cor- respondance entre l’information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ces systèmes font un appariement des termes de la requête posée avec ceux représentant le contenu des documents. Dans notre approche, les requêtes et les documents sont représentés dans l’espace vectoriel engendré par les termes d’indexation [147] en utilisant le système SMART.

Dans notre cas, l’appariement (mesure de similarité) consiste à retrouver les vecteurs documents (les classes et les sous-classes du NAF) qui s’approchent le plus du vecteur requête (vecteur entreprise). La phase d’appariement se déroule en deux étapes : dans un premier temps on cherche à détecter la classe du NAF la plus pertinente pour l’entreprise ; dans un deuxième temps on explore les sous-classes de cette classe pour détecter de nouveau une sous-classe. Ce processus d’appariement document-requête permet de mesurer la pertinence d’un document vis-à-vis d’une requête.

Plusieurs techniques classiques de la RI sont disponibles pour répondre à ce besoin d’appariement. Avant toute remise en cause de ces techniques, notre problématique de recherche vise dans un premier temps à vérifier si l’usage de ressources séman- tiques propres au métier permet d’enrichir suffisamment la performance issue de ce type de techniques. En nous appuyant sur la mise à disposition du code NAF, nous avons donc décidé de tester plusieurs de ces mécanismes d’appariement. Dans un premier temps, des appariements basés sur un modèle vectoriel (mesure de produit scalaire, cosinus et mesure de Jaccard) et dans un deuxième temps, des appariements basés sur un modèle connexionniste en mettant en place un réseau de neurones. Ces deux méthodes d’appariement seront développés respectivement dans les sections qui se suivent.

Dans le document Dispositifs de recherche et de traitement de l'information en vue d'une aide à la constitution de réseaux d'entreprises (Page 86-90)