L’analyse textuelle du module d’apprentissage

Contrairement au module de segmentation, l’analyse textuelle du module d’apprentissage se propose de réaliser un « traitement automatique du langage» simplifié au niveau de chaque phrase contenu dans le corps du message. Bien entendu, lorsque nous évoquons le traitement automatique du langage, nous faisons évidemment référence à tous les travaux développés actuellement en linguistique computationnelle et plus particulièrement dans le domaine du TALN (voir paragraphe 2.2 pour plus de précisions sur ce sujet). Comme nous l’avons d’ailleurs vu au cours de la partie consacrée à la linguistique, les outils créés pour analyser le contenu des phrases en langage naturel ne manquent pas, en particulier avec le développement de la recherche documentaire sur Internet. Cependant, leurs potentialités restent encore bien trop souvent limitées à cause de la difficulté à analyser le sens d’un terme dans un contexte particulier. De plus, après avoir regardé le fonctionnement de deux outils utilisant un TAL et plus ou moins adaptés à notre problématique (voir paragraphe 2.2.3), nous en avons conclu que ceux-ci étaient beaucoup trop spécifiques à leur domaine d’application et qu’il leur fallait un champs d’expertise assez large pour pouvoir être utilisés tel quel dans notre projet. Compte tenu de cela, nous avons décidé de construire notre propre outil de traitement du langage qui est chargé de séparer chaque terme contenu dans une phrase et de le stocker ensuite dans une base de données. Nous avons donc regardé quelques techniques utilisées en Text Mining et avons, à partir de cela, élaboré trois phases permettant d’extraire les données intéressantes : une phase de découpage de la phrase, une phase de nettoyage et une phase de traitement.

La phase de découpage: elle consiste, d’une part, à supprimer toute la ponctuation et d’autre part, à repérer les espaces contenus dans une phrase pour permettre de séparer chaque terme les uns des autres. Il s’agit, par conséquent, de découper chaque phrase en une succession de termes.

En ce qui concerne la suppression de la ponctuation, nous utilisons la table de ponctuation suivante (de fa¸con pratique, cette liste est stockée dans une table d’une base de données Access ou Oracle comme nous pourrons le voir dans la description technique du logiciel située dans la partie 4 de cette thèse) :

. ; ( {

, : ) }

? ! [ ’ ... ” ]

-Il est bien entendu possible, à tout moment, de rajouter de nouveaux signes de ponctua-tion à cette table et même de l’adapter en fonction de la langue du texte (par exemple, s’il s’agit d’un discours en espagnol, nous pourrons rajouter le signe de ponctuation«¡»qui se place généralement en début de phrase exclamative).

D’un point de vue plus algorithmique, cette phase s’exécute de la manière suivante : 1. Réception du contenu du message par le module de segmentation via un stimulus

spécifique (voir paragraphe 4.3.2 pour plus de détails sur le fonctionnement des stimuli internes propres à chaque agent)

2. Connection à la table« ponctuation»de la base de données accessible par l’appre-nant grâce à l’envoi d’un stimulus

3. Comparaison entre la ponctuation contenue dans la table et celle du contenu du message

4. Suppression de cette ponctuation

5. D´econnexion temporaire de la base de donn´ees

6. Passage des termes du corps du message `a la phase de nettoyage

Prenons un exemple illustratif : Sur la phase : « Il fait beau! », la phase de d´ecoupage donne une succession de trois mots : il fait beau

La phase de nettoyage: Tous les documents textuels doivent être expurgés le plus possible des informations inutiles qu’ils contiennent afin que les informations et connais-sances retirées soient les plus pertinentes possible. En effet, dans chaque phrase écrite ou prononcée, de nombreux termes apparaissent apportant peu d’informations (voir aucune) sur le document concerné. Ces termes, nommés « stops words », sont souvent très fr´ e-quents dans un discours et leur élimination lors d’un pré-traitement permet par la suite de gagner beaucoup de temps lors de l’analyse linguistique à proprement parlée.

Nous avons donc établi deux listes de « stops words », l’une pour un discours en an-glais et l’autre pour un discours en fran¸cais, qui peuvent bien entendu être modifiées à tout moment puisqu’il s’agit de listes totalement indépendantes du programme multi-agents (nous verrons cela plus en détails et de manière plus technique dans la quatrième partie de cette thèse). Ces listes de « stops words » ont été validées par un linguiste mais il est également très facile de les trouver sur Internet (par exemple, sur le site http://www.searchengineworld.com).

En ce qui concerne, la liste de «stops words »pour un discours en anglais, nous en avons r´epertori´e 377 et en voici un extrait :

about after all already according again almost also

across against alone always among an and ...

D´ecrire un comportement d’apprenant

Pour un discours en fran¸cais, nous avons enregistr´e 309 « stops words » tels que : a aucun avec celle

a aussi avant certain ainsi auquel ce cependant alors aux ceci comme apr`es au cela ...

Regardons un peu le d´eroulement algorithmique de cette phase :

1. Réception des termes issus de la phase de découpage via un stimulus spécifique 2. Connection à la table« stops words »de la base de données accessible par

l’appre-nant grâce à l’envoi d’un stimulus (cette base est la même que celle contenant la table de ponctuation)

3. Comparaison entre les « stops words »contenus dans la table et tous les termes du message

4. Suppression des « stops words » du message 5. Déconnexion temporaire de la base de données 6. Passage des termes restants à la phase de traitement

Si nous reprenons notre petit exemple, `a l’issue de cette phase, seuls les mots « fait »et

« beau» restent.

La phase de traitement: Cette phase, la dernière de notre analyse textuelle, place chaque terme, hormis les « stops words », dans une base de données (de type Access ou Oracle en fonction du volume de données traitées, comme nous le verrons dans la partie suivante. Il s’agit de la même base renfermant la table«ponctuation»et la table« stops words ») avec le nom de la personne qui l’a prononcé (cette information sera utilisée dans la deuxième phase du processus d’apprentissage). Dans un premier temps, tous les termes sont classés par ordre d’apparition et de traitement. Cette base est exclusivement accessible par notre agent apprenant et est régulièrement vidée lors de toute nouvelle discussion (et au fur et à mesure de tout nouveau terme appris) entre participants afin de ne pas la surcharger inutilement. D’un point de vue algorithmique, cette dernière phase se traduit par :

1. Réception des termes issus de la phase de nettoyage via un stimulus spécifique 2. Connection à la base de données et ouverture de la table« specific words »

3. Inclusion de tous les termes restants `a l’issu de la phase de nettoyage dans cette table

4. D´econnexion de la base de donn´ees

5. Envoi d’un stimulus `a l’analyse statistique

Pour illustrer le déroulement de cette première analyse, nous allons déployer, pas à pas, l’exemple de notre dialogue entre deux professeurs de mathématiques, plus particuli` ere-ment la première phrase de James. Rappelons simplement quelques phrases de ce discours :

James: Alors, David, tu as corrigé l’exercice d’hier sur le calcul de circonférence d’une roulotte de cirque, trouves-tu bien le même résultat que moi au niveau du rayon?

David: Non, mais tu as entièrement raison James. Si je prends quatre fois le rayon, j’obtiendrai bien 480. Par contre, je ne vois pas où est mon erreur dans ce problème, peux-tu m’aider?

James: Et bien c’est très simple. Tu multiplies Pi par 2. Puis, le résultat de cette multiplication, tu le multiplies par ton rayon. Ton rayon étant inconnu, tu le rem-places par x. C’est ce que tu as fait?

Nous obtenons alors l’enchaˆınement suivant :

1. Réception du contenu (Alors, David, tu as corrigé l’exercice d’hier sur le calcul de circonférence d’une roulotte de cirque, trouves-tu bien le même résultat que moi au niveau du rayon?) de la part du module de segmentation

2. Passage par la phase de découpage –>Alors David tu as corrigé l exercice d hier sur le calcul de circonférence d une roulotte de cirque trouves tu bien le même résultat que moi au niveau du rayon

3. Passage par le phase de nettoyage –> David corrigé exercice calcul circonférence roulotte cirque trouves résultat rayon

4. Passage par la phase de traitement –>

Termes prononc´es Nom de la personne ayant prononc´e le terme

David James

Corrig´e James

Exercice James

Calcul James

Circonf´erence James

Roulotte James

Cirque James

Trouves James

R´esultat James

Rayon James

Cette analyse textuelle se fait, ainsi, pour toutes les phrases prononc´ees lors d’un discours entre participants.

Si l’on poursuit le cheminement de la figure 5.1, l’étape située juste après l’analyse tex-tuelle est l’étape de l’analyse statistique.

Dans le document Contribution des Sciences Sociales dans le domaine de l'Intelligence Artificielle Distribuée : ALONE, un modèle hybride d'agent apprenant. (Page 116-119)