Les approches empiriques - Courants du TAL

4. Approche centrée-utilisateur et TAL

4.1. Courants du TAL

4.1.2. Les approches empiriques

Un autre courant que celui des approches théoriques est apparu en TAL dans les années 1990. Ce courant est inspiré par les méthodes de la linguistique qui consistent à observer des données attestées. Dans les approches théoriques, le chercheur est dans une position ambivalente : il cherche à formaliser le « fonctionnement » du langage et, en tant que sujet parlant, il se donne (dans une démarche quasi introspective) des exemples pour corroborer (ou pas) son formalisme. Les approches empiriques en mettant l'accent sur des productions réelles issues de « vraies » productions langagières ont choisi d'adopter une démarche scientifique plus satisfaisante. De ce fait, en analysant des productions langagières situées (i.e. dont on peut rendre compte du contexte) on peut notamment plus facilement observer (en toute objectivité) des variabilités contextuelles dans la signification.

La linguistique a depuis longtemps adopté cette démarche scientifique. Il aura fallu attendre les années 1970-1980 que les capacités de calcul des ordinateurs soient facilement mobilisables (notamment avec l'usage des tableurs destinés au plus grand nombre) et que des méthodes statistiques génériques43_{soient implémentées et disponibles pour que le TAL s'intéresse plus souvent au recueil et}

à l'analyse de vastes données linguistiques. Cette « démocratisation » du calcul n'a d'ailleurs de fait pas impacté que le TAL mais plus largement aussi la linguistique qui en a tiré des protocoles d'observation de données qui jusqu'alors n'étaient pas forcément à la portée du linguiste. Ceci engendre deux courants scientifiques :

• Celui de la linguistique informatique44_{qui cherche à mobiliser des outils informatiques}

(essentiellement statistiques) pour observer des données linguistiques recueillies en fonction d'hypothèses.

• Celui de l'informatique linguistique qui cherche à inférer à partir de régularités observées sur de vastes données linguistiques attestées des processus de traitement et d'analyse des langues. C'est ce courant du TAL que nous dénommons par « approches empiriques ».

43 Telles que les analyses factorielles des correspondances ou encore les analyses par composantes principales par exemple.

44 Les dénominations linguistique informatique et informatique linguistique sont empruntées à François Rastier (Rastier 1994).

Les approches empiriques en TAL sont théoriquement fondées sur la théorie du distributionnalisme de Harris (Harris 1951). Elles sont aussi très inspirées par la lexicométrie, dans le prolongement notamment les travaux de Zipf (Zipf 1949) qui expriment une décroissante linéaire sur une échelle logarithmique des occurrences des mots d'un texte classés du plus fréquent au moins fréquent. De cette loi de Zipf plusieurs interprétations sont possibles telles que :

• la fréquence du mot de rang n est à peu près 1/n de l'occurrence du mot de rang 1 • plus un mot est fréquent, plus il est court

• les mots qui indexent le mieux le texte sont ceux qui sont à la fois longs et occurrents

Les méthodes statistiques de l'analyse des données sont appliquées dans le domaine des données textuelles. Les méthodes d'analyse en composantes principales, de classification hiérarchique de données, d'analyse factorielle des correspondances sont notamment mises à profit pour mettre en évidence des régularités globales qui ne sont pas immédiatement perceptibles. Nous en avons mis certaines à profit dans le cadre de ProxiDoc. Des outils ont été développés pour mettre facilement en œuvre des observations statistiques de corpus. C'est le cas par exemple du logiciel Lexico3 de l'équipe d'André Salem45_.

Les approches sur corpus ont marqué une véritable évolution du TAL. Elles se sont développées grâce aux évolutions de la statistique textuelle mais également grâce à une plus grande facilité d'accès à des données textuelles nombreuses du fait de l'essor de l'internet. Le recueil de données textuelles constituant les corpus est beaucoup plus simple aujourd'hui grâce au Web mais il ne faut pas pour autant considérer le Web comme un grand corpus. La constitution d'un corpus répond à un projet de collection de textes relevant tous d'un même genre (articles de journaux, dépêches d'agence de presse, romans relevant d'une époque donnée, dialogue …).

La fouille de données et la recherche d'information sont des domaines qui ont beaucoup apporté aux approches empiriques, notamment en terme de méthodologie. Par exemple, les notions de corpus séparés pour l'apprentissage et les tests en témoignent. Les protocoles d'évaluation de la recherche d'information le montrent aussi, notamment avec les mesures de rappel, précision et f-mesure (Van Riesbergen 1979). Ce n'est d'ailleurs pas sans poser quelques problèmes de « standardisation scientifique » dans la mesure où il est maintenant difficile de faire accepter des publications n'affichant pas des taux de rappel et de précision en guise d'évaluation.

Entre le recueil facilité de corpus et les mesures d'évaluation « prêtes à l'emploi », on constate paradoxalement que certains travaux tendent à instaurer une séparation entre le TAL et la linguistique au motif que l'informaticien n'a plus besoin des connaissances du linguiste car en interrogeant directement des corpus il serait à même de corroborer telle ou telle hypothèse. C'est une tendance dont Cécile Fabre (Fabre 2010, p.139) estime les débuts dès les années 1990. Elle s'amplifie aujourd'hui avec le contexte de ce qu'on appelle big data46_{. Même en défendant un certain pragmatisme}

d'approche, faire ainsi l'impasse sur les connaissances linguistiques explicites est, bien entendu, extrêmement préjudiciable à une maturité pluridisciplinaire de l'objet d'étude. Il est à craindre que ce courant de la linguistique computationnelle ne reproduise des erreurs de « jeunesse » du TAL qui ne voyait dans les questions linguistiques que des problèmes de calcul. Tout comme Cécile Fabre, nous

45 cf. http://www.tal.univ-paris3.fr/lexico/lexico3.htm consultée le 17/11/12.

46 cf. notamment à ce sujet http://blog.veronis.fr/2012/10/conf-big-data-et-technologie-du-langage.html, consultée le 17/11/12.

défendons vivement ici que les corpus offrent au contraire un terrain de recherche commun, et enrichissent les échanges entre la linguistique et le TAL.

Les approches empiriques marquent néanmoins un renouveau du TAL qui en tirant profit des méthodes de la linguistique réaffirme la pertinence pluridisciplinaire du domaine. Nos travaux sont bien sûr très inspirés par les approches sur corpus (comme en témoignent les projets ThèmeEditor, ProxiDocs ou encore Canopée). Cependant, si les approches empiriques invitent à une observation de données réelles, l'accent est uniquement ciblé sur le matériau linguistique. C'est-à-dire que l'interprétant (l'utilisateur) n'est pas encore explicitement le centre du protocole d'observation. C'est à notre sens cette démarche centrée-utilisateur qui manque aux approches sur corpus. Mais, à la différences des approches théoriques, la démarche centrée-utilisateur est tout à fait conciliable avec l'approche empirique.

Dans le document Pour une démarche centrée sur l'utilisateur dans les ENT. Apport au Traitement Automatique des Langues. (Page 79-81)