L’analyse sémantique - L’indexation automatique libre

3.2 L’indexation automatique libre

3.2.7 L’analyse sémantique

Le dernier niveau de l’analyse linguistique concerne le traitement sémantique du document et vise à en identifier le sens intrinsèque. Elle a pour objectif d’en « calculer » leur sens en utilisant :

• Soit un système de relations (graphe conceptuel, réseau sémantique) ;

• Soit un système de traits sémantiques ;

• Soit une représentation conceptuelle pivot.

Nous n’aborderons pas ci-après la représentation conceptuelle pivot qui est souvent utilisée dans des applications multilingues

3.2.7.1 Analyse sémantique par graphe conceptuel ou réseau sémantique

L’analyse sémantique par graphe conceptuel vise à établir des relations de significations entre les lemmes. C’est donc la place du lemme dans le réseau qui détermine son sens et non la description sémantique qui en est faite. Le thésaurus est un exemple connu qui décrit les relations existant entre les termes par leurs positions (relations de synonymie, d’hyponymie, d’hyperonymie, etc.).

Le graphe et le tableau ci-dessous donnent l’exemple des relations sémantiques pour le lemme « car » (voiture en anglais).

Cette approche est très efficace pour décrire des mondes conceptuels fermés (domaines de spécialités), mais sa généralisation à la langue générale pose de nombreux problèmes :

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

• La polysémie de la plupart des termes, les glissements de sens, les nouvelles acceptions (évolutions) rendent difficilement « maintenable » un réseau de cette importance (sauf à simplifier les relations au risque de perdre la capacité du réseau à représenter les concepts et leurs relations) ;

• Le problème de l’universalité de la représentation du monde qui est sous-jacente à l’idée d’un réseau sémantique dans :

o Le choix des lemmes signifiants ;

o La nature des relations entre les lemmes ;

o La place des lemmes les uns par rapport aux autres dans le réseau.

3.2.7.2 Analyse sémantique par trait sémantique

La deuxième approche consiste à décrire les lemmes au moyen de traits sémantiques (ou sèmes) qui correspondent à des étiquettes. De même que le lemme est décrit, sur le plan syntaxique, par sa catégorie morphologique et le modèle flexionnel qui lui est associé, il est décrit, sur le plan sémantique, par les sèmes qui le caractérisent.

Ainsi, le terme « avocat » sera affecté des traits sémantiques indiquant qu’il peut s’agir d’un fruit ou d’un homme de loi. Si, dans la même phrase, on rencontre le lemme « plaider » affecté des traits sémantiques indiquant qu’il s’agit d’une prise de parole pour défendre un accusé, seule l’acception homme de loi sera retenue.

La compatibilité des traits sémantiques entre les lemmes d’une même phrase est vérifiée dans un processus d’unification. L’unification vérifie qu’il existe un même trait (ou ensemble de traits) commun aux différents lemmes de la phrase pour conclure à la validité de celle-ci. Par exemple, le syntagme

« l’avocat marron » est accepté, car marron comporte le sème malhonnête, alors que le syntagme

« l’avocat bleu » ne sera pas accepté.

Si le principe de fonctionnement de l’approche par traits sémantiques est simple, sa mise en œuvre s’avère délicate notamment parce que :

• Il est impossible de déterminer à priori tous les sèmes qui seront nécessaires pour les différentes applications. Par exemple, définir le terme « caviar » uniquement avec les sèmes indiquant qu’il s’agit d’œufs d’esturgeon salés est insuffisant, et il conviendrait d’ajouter le sème luxueux (ou passe si l‘on est dans le domaine sportif). Mais, avec cet exemple, on voit bien que les sèmes sont dépendants du type de représentation que l’on donne du monde de référence et du contexte d’usage de l’application qui va manipuler ces connaissances. On retrouve donc d’une certaine

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

73 manière les objections adressées à l’approche par relations sémantiques pour la question de l’universalité des sèmes.

• Enfin, se pose également la question de l’adaptation du système de traits à des domaines de spécialités nouveaux ainsi que celle de la maintenance du dictionnaire comportant la description sémantique des termes. Les définitions peuvent évoluer ou de nouveaux termes apparaître.

La décision de recourir à ces approches dépend de plusieurs critères :

• La délimitation conceptuelle du domaine : plus le domaine est spécialisé et bien délimité, meilleurs sont les résultats ;

• L’évolutivité du domaine : plus le domaine est stable, moins le système de représentation sémantique devra évoluer, moins la maintenance sera problématique ;

• Le volume des données à traiter : on ne peut guère envisager un traitement sémantique complexe pour l’indexation du web, mais traiter un intranet d’entreprise est tout à fait envisageable.

L’exemple de ces techniques de traitement automatique du langage visant à produire une analyse sémantique des documents d’un système d’information nous montre qu’à partir d’un certain niveau d’exigence de représentation et d’exploitation du contenu des documents, il est intéressant de recourir à des référentiels linguistiques pré-coordonnés pour rechercher et exploiter l’information présente dans un SRI (même si la création de ces référentiels recourt largement aux techniques de TAL telles que nous les avons vues).

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

Quatrième partie :

Les référentiels terminologiques et l’assistance à la recherche

d’information

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

4 L’apport des référentiels terminologiques à l’assistance à la recherche d’information

L’un des problèmes clefs des systèmes de recherche d’information est la définition d’une fonction de correspondance entre la représentation du contenu sémantique des documents et la requête de l’utilisateur. Cette fonction sert à modéliser la pertinence d’un document pour l’utilisateur [12, Bruandet].

Comme nous l’avons vu précédemment, il existe deux types de pertinence, une pertinence système et une pertinence utilisateur. Améliorer la qualité d’un SRI consiste à réduire la distance entre ces deux pertinences ou, pour le dire plus simplement, à les faire correspondre autant qu’il est possible.

Pour réduire cette distance, une première approche a consisté à étudier la façon dont les utilisateurs composent leurs requêtes, les compétences dont ils bénéficient ou pas pour cela, la manière dont ils définissent leurs objectifs et stratégies de recherche. Nous avons certaines d’entre elles à travers les modélisations de la recherche d’information. Cette approche est essentiellement théorique, mais il ne faut pas négliger les effets de la recherche théorique sur les pratiques et, dans ce cas, les réflexions sur les fonctionnalités d’aide à la recherche qu’ont très certainement engendrés ces travaux de modélisation).

La deuxième approche est liée intrinsèquement à la problématique de la recherche d’information. En effet, outre la question de la capacité de l’utilisateur à définir clairement et précisément son besoin d’information, il existe une autre question fondamentale, celle de l’expression de ce besoin d’information. Les utilisateurs de SRI utilisent une grande variété de termes pour exprimer le même concept. Ce problème est fondamental en recherche d’information, d’autant plus que les utilisateurs expriment leurs besoins par des requêtes brèves et « incomplètes » comme cela est souvent le cas sur l’Internet et dans les modes « recherche simple » des moteurs spécialisés ou d’entreprise [12, Bruandet].

Par exemple, les termes « voiture », « automobile », « auto », voire « bagnole », désignent le même concept de « véhicule automobile à roues propulsé par un moteur et destiné au transport terrestre de personnes, de leurs bagages et de petits objets¹⁸ ».

18 https://fr.wikipedia.org/wiki/Automobile

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

76 Par ailleurs, un même terme peut être utilisé pour exprimer différents concepts. Nous avons vu que

« caviar » peut désigner des œufs d’esturgeons ou une passe permettant de marquer facilement des points dans un sport de ballon.

Il a été montré dans la section précédente qu’une façon de résoudre cette difficulté d’expression de requête est de procéder à une indexation des documents en utilisant des technologies de traitement automatique du langage.

Une autre façon de trouver une solution à ce problème consiste à implémenter dans le SRI un référentiel terminologique qui servira, entre autres, à définir les termes d’indexation et donc de recherche des documents.

Tout au long de l’évolution des systèmes d’information, on s’est ingénié à concevoir des outils de description du contenu des documents à des fins de recherche documentaire. Ces outils ont pris de nombreuses formes : taxinomies, classifications, thésaurus [13, Chaumier].

Du référentiel qui sera utilisé pour soutenir les opérations d’indexation dépendent les opérations d’interrogation et d’exploitation des documents que permettra le moteur de recherche. Les plus simples se contentent d’établir une liste de mots clefs et/ou d’identités nommées, sans établir de relation entre les termes dudit référentiel. Ce sont les terminologies ou les listes d’autorité (l’une et l’autre pouvant se confondre). L’inconvénient principal de ces langages documentaires à mots clefs est qu’ils ne précisent pas la sémantique de l’association des mots qu’ils contiennent, et donc de la requête dès qu’il s’agit de dépasser les opérateurs booléens classiques.

D’autres référentiels proposent une mise en œuvre des relations de sens entre des catégories de termes par l’expression des liens sémantiques qui décrivent les composants et l’organisation de la connaissance du domaine qu’ils expriment [13, Chaumier]. Dans cette section, nous nous intéresserons aux référentiels les plus élaborés parmi ceux qui expriment des relations sémantiques et qui sont couramment utilisés dans les systèmes de recherche d’information, à savoir : les thésaurus et les ontologies.

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

Dans le document Assistance intelligente à la recherche d'information : élaboration d'un projet de moteur de recherche au service de la connaissance dans l'organisation (Page 72-78)