L’emploi globalisé des techniques du Traitement Automatique des Langues (TAL) dans le quotidien des usagers ne se fera que par l’efficacité algorithmique des systèmes proposés. De fait, les défis propres à ce domaine nous amènent à innover du point de vue théorique et à proposer des systèmes qui puissent être également déployés dans un cadre d’utilisation réelle. En effet, l’avènement des ressources gigantesques de la Toile aidant, le TAL doit être capable de répondre aux défis posés par le passage à l’échelle. Ces considérations, loin d’être stériles, définiront son succès ou son échec commercial.
Malheureusement, il n’existe que peu de solutions algorithmiques complètes capables de traiter efficacement, en un temps raisonnable en utilisant des ressources mémoires standards, les problèmes posés par l’explosion quantitative des données disponibles, souvent de l’ordre du Giga octets comme sur la Toile. Jusqu’à présent, peu de domaines se sont préoccupés de la définition d’algorithmes, de structures de données et d’architectures qui permettent des traitements avec des temps de réponse acceptables. Pour confirmer cet état de fait, la requête « efficient NLP » à partir du moteur de recherche Scholars1 de Google™ au jour du 31 mars de 2006 ne nous a retourné que 8 590 documents. Une analyse détaillée des résultats montre clairement que seuls deux domaines se sont particulièrement attaqués au passage à l’échelle de leurs applications : la recherche documentaire et l’analyse syntaxique de la langue.
La place du premier se comprend aisément au vu de l’importance commerciale que les moteurs de recherche représentent dans cette société d’information reformulée par la démocratisation de la Toile. Le second est le résultat des considérations historiques du TAL et, en particulier, des théories de Chomsky qui prônaient la résolution logique du langage à travers du « I-Language ». Dans ce contexte, les questions de décidabilité et de complexité étaient clairement posées.
Si l’aspect calculatoire a clairement été relégué à un second plan pendant plus d’une décennie, au détriment de la recherche de nouveaux modèles du TAL2, celui- ci montre aujourd’hui un regain d’intérêt de la part de la communauté scientifique.
Nous pensons que l’article publié par Yamamoto et Church (2001) dans la revue Computational Linguistics est en grande partie à l’origine de cette « nouvelle vague ». D’autres auteurs proposeront leurs contributions dans le but de compléter des lacunes existantes. Sans prétendre être exhaustifs, nous mentionnerons (Silber et McCoy, 2002), (Gil et Dias, 2003), (Ravichandran et al., 2005), (Carpenter, 2005).
Parallèlement, un certain nombre de Workshops ont été organisés : Workshop on
1. http://scholars.google.com
2. A l’exception des domaines déjà cités : recherche documentaire et analyse syntaxique.
Methodologies and Evaluations of Multiword Units in Real-World Applications3 – Gaël Dias, Spela Vintar et Gabriel Lopes dans le cadre de la Conférence LREC 2004, Workshop on Software4 – Martin Janshe dans le cadre de ACL 2005 et Workshop on Computationally Hard Problems and Joint Inference in Speech and Language Processing5 - Hal Daumé III, Ryan McDonald, Charles Sutton, Andrew McCallum, Jeff Bilmes et Fernando Pereira dans le cadre de HLT-NAACL 2006.
L’un des facteurs de ce renouveau du TAL et de la préoccupation de l’efficacité de ses applications n’est certainement pas étranger aux travaux théoriques sur l’algorithmique du texte et de ses applications à la bioinformatique. En particulier, Crochemore et al. (2001) présente les bases techniques utilisées dans les domaines de la recherche documentaire, de l’indexation pour les moteurs de recherche et des logiciels systèmes. Les méthodes qui y sont décrites trouvent leurs applications dans les questions du TAL, de l’analyse des séquences génétiques et des bases de données textuelles.
Aujourd’hui, au moment où une partie importante du TAL se transforme de plus en plus en ingénierie des langues, il est opportun de cerner au mieux les limites théoriques des problèmes que soulève cette nouvelle discipline, comme il est important de se préoccuper des différents facteurs qui pèsent sur l’efficacité des systèmes proposés, c’est-à-dire leur complexité et leurs algorithmes. Ainsi, cet ouvrage vise à fédérer les communautés dont les recherches croisent l’algorithmique, l’informatique fondamentale et le passage à l’échelle d’applications du TAL.
La partie thématique de ce numéro de la revue TAL réunit un ensemble de quatre articles sélectionnés à partir de dix-sept soumissions. Le nombre peu important de soumissions montre que ce domaine reste encore en marge de la majorité des travaux entrepris dans le cadre du TAL. Plus encore, le nombre réduit d’articles acceptés met en évidence un problème de fond sur la qualité des travaux réalisés et sur l’étendue du travail qu’il reste à faire dans ce domaine. Finalement, on pourra regretter le nombre limité de soumissions de la part de chercheurs français (trois soumissions) et francophones (une soumission). Parmi les soumissions reçues, les thèmes suivants ont été couverts : modélisation probabiliste de la langue, analyse de séquences discontinues, analyse morphologique, terminologie, étiquetage morpho-syntaxique, analyse syntaxique, grilles de calculs pour l’analyse des sentiments, automates pour le TAL, codage de réseaux lexicaux, évaluation du passage à l’échelle, construction de dictionnaires, désambiguation sémantique, dialogue et classification de textes.
Les articles retenus couvrent deux approches bien distinctes du TAL. D’un côté, Doucet et Ahonen-Myka, et Van den Bosch proposent respectivement des
3. http://memura2004.di.ubi.pt (valide au jour du 2 Avril 2006)
4. http://www1.cs.columbia.edu/nlp/acl05soft/ (valide au jour du 2 Avril 2006) 5. http://www.cis.upenn.edu/~ryantm/naaclWS06 (valide au jour du 2 Avril 2006)
algorithmes efficaces pour l’extraction de séquences discontinues et la modélisation de la langue à partir de textes « purs » c’est-à-dire sans introduction de connaissances quelles qu’elles soient. D’un autre côté, Boullier et Sagot, et Ninomiya, Tsuruoka, Miyao, Taura et Tsujii travaillent sur l’analyse syntaxique et proposent respectivement un nouvel analyseur syntaxique et une nouvelle implémentation des HPSG probabilistes. Nous faisons une brève introduction de chacun des articles de cet ouvrage.
Probability and Expected Document Frequency of Discontinued Word Sequences - An efficient method for their exact computation
Antoine Doucet et Helena Ahonen-Myka
Antoine Doucet et Helena Ahonen-Myka présentent une technique efficace pour calculer la probabilité d’une séquence de mots éventuellement discontinue, c’est-à- dire la probabilité que ces mots apparaissent dans un ordre donné, quel que soit le nombre d’autres mots pouvant apparaître entre eux. Les auteurs proposent une solution en temps linéaire à un problème d’explosion combinatoire des données qui n’avait pas été résolu avec cette efficacité jusqu’à présent. Leur approche est basée sur une formalisation du problème en une chaîne de Markov et de l’analyse de sa matrice de transition stochastique.
Scalable Classification-based Word Prediction and Confusible Correction Antal van den Bosch
Antal van den Bosch présente une technique de modélisation de la langue. En se basant uniquement sur le texte « pur », il pose clairement deux questions sur l’efficacité des algorithmes d’apprentissage. D’abord, quelle est leur aptitude à passer à l’échelle devant le choix de milliers de classes. Ensuite, quelle est leur capacité à généraliser sur l’ensemble des données et à prédire correctement. Dans ce cadre, il présente l’algorithme IGTREE, une alternative au k-NN basée sur une adaptation de l’arbre de décision C4.5. Les résultats montrent qu’un nœud est créé pour deux exemples d’apprentissage dans le pire des cas et que la prédiction, bien que plus lente avec l’accroissement des données, se maintient linéaire à plus de 100 mots par seconde.
Analyse Syntaxique Profonde à Grande Echelle : SXLFG Pierre Boullier et Benoît Sagot
Pierre Boullier et Benoît Sagot présentent un nouvel analyseur syntaxique, nommé SXLFG, qui repose sur le formalisme des Grammaires Lexicales Fonctionnelles (LFG). Cet analyseur n’est pas une grande nouveauté en soi.
D’autres analyseurs du même type ont déjà été proposés. Toutefois, ceux-ci n’utilisent pas toujours de la manière la plus complète les différentes techniques algorithmiques de partage de calcul et de représentation compacte de l’information qui permettent d’écrire un analyseur efficace malgré le fait que le formalisme LFG soit NP-complet. Ainsi, les auteurs décrivent la façon dont les structures
fonctionnelles sont efficacement calculées sur la forêt partagée résultant de l’analyse non contextuelle. Finalement, ils montrent que leur analyseur est à la fois efficace et robuste et permet l’analyse rapide de très gros corpora, bien que la grammaire utilisée pour l’évaluation soit très ambiguë.
Fast and Scalable HPSG Parsing
Takashi Ninomiya, Yoshimasa Tsuruoka, Yusuke Miyao, Kenjiro Taura, Jun’ichi Tsujii
Dans cet article, les auteurs étudient l’efficacité des techniques d’analyse syntaxique Beam Search et d’analyse syntaxique profonde dans le cadre des HPSG probabilistes. Ils adaptent d’abord la technique du Beam thresholding développée pour les CFG probabilistes aux HPSG. En particulier, ils ont proposé l’étude du thresholding local, global et celui de l’analyse syntaxique itérative. Dans ce cadre, l’analyse itérative montre un gain en rapidité par rapport à l’algorithme de Viterbi sans nuire à la précision et à la couverture. Ils examinent ensuite trois techniques développées originalement pour l’analyse syntaxique profonde : le quick check, le large constituent inhibition, et l’analyse HPSG avec un CFG chunk parser. Les résultats montrent que le quick check, l’analyse itérative et l’analyse hybride (HPSG avec un CFG chunk parser) contribuent considérablement à la performance de l’analyse totale. La précision moyenne sur le Penn Treebank est 87.2 % pour un temps d’exécution de 355 ms. Pour finir, l’analyseur est appliqué au corpus MEDLINE contenant environ 1.4 milliard de mots. Son analyse aura duré 9 jours en utilisant une capacité de calcul de 340 CPUs.
Remerciements
Pour conclure, nous remercions les rédacteurs en chefs, les membres du comité de rédaction et les membres du comité de lecture sans lesquels ce numéro n’aurait pas atteint le niveau d’exigence propre à la revue TAL. Nous remercions également les auteurs pour la qualité de leurs soumissions et le souci de précision démontré lors de la rédaction de la version finale. Nous aimerions en particulier remercier Sylvain Kahane pour toute l’aide apportée à ce numéro. Pour terminer, nous espérons que ce numéro apportera une pierre à un édifice bien plus grand et ambitieux qui se manifeste à l’horizon d’un avenir bouillonnant.
Gaël Harry Dias, Simão Melo de Sousa University of Beira Interior, Covilhã, Portugal {ddg, desousa}@di.ubi.pt Maxime Crochemore Université de Marne-la-Vallée, France [email protected]
Bibliographie
Carpenter B., « Scaling High-Order Character Language Models to Gigabytes », Actes de Workshop on software of the 43rd Annual Meeting of the Association of Computational Linguistics, 2005, Ann Arbor, USA, July 25-30.
Crochemore M., Hancart C., Lecroq T., Algorithmique du Texte, Vuibert, 2001.
Gil A., Dias, G., « Using Masks, Suffix Array-based Data Structures and Multidimensional Arrays to Compute Positional Ngram Statistics from Corpora », Actes de Workshop on Multiword Expressions of the 41st Annual Meeting of the Association of Computational Linguistics, 2003, Sapporo, Japan, July 7-12, p. 25-33.
Ravichandran D., Pantel P., Hovy E., « Randomized Algorithms and NLP: Using Locality Sensitive Hash Functions for High Speed Noun Clustering », Actes de 43st Annual Meeting of the Association of Computational Linguistics, Ann Arbor, 2005, USA, July, p. 25-30.
Silber H.G., McCoy K.F., « Efficiently Computed Lexical Chains as an Intermediate Representation for Automatic Text Summarization », Computational Linguistics, vol. 28, nº 4, 2002, MIT Press, p. 487-496.
Yamamoto M., Church K.W., « Using Suffix Arrays to compute Term Frequency and Document Frequency for All Substrings in a Corpus », Computational Linguistics, vol. 27, nº 1, 2001, MIT Press, p. 1-30.
Comité de lecture spécifique
Ricardo Baeza-Yates – Université du Chili, Santiago, Chili Tilman Becker – DFKI, Saarbrücken, Allemagne
Jean Berstel – Université de Marne-la-Vallée, France Nieves Brisaboa – Université de la Corogne, Espagne
Maxime Crochemore – Université de Marne-la-Vallée, France Gaël Dias – Université de la Beira Interior, Covilhã, Portugal Patrick Gallinari – Université Paris 6, France
Martin Jansche – Université de Columbia, New York, USA Éric Laporte – Université de Marne-la-Vallée, France Thierry Lecroq – Université de Rouen, France
Gabriel Lopes – Nouvelle Université de Lisbonne, Portugal Nuno Mamede – INESC-ID, Lisbonne, Portugal
Mehryar Mohri – Université de New York, USA Alexis Nasr– Université Paris 7, France
Arlindo Oliveira – INESC-ID, Lisbonne, Portugal Ted Pedersen – Université du Minnesota, Duluth, USA Dominique Revuz – Université de Marne-la-Vallée, France André Salem – Université Paris 3, France
Richard Sproat – Université de l’Illinois, Urbana, USA
Simão Sousa – Université de la Beira Interior, Covilhã, Portugal Mikio Yamamoto – Université de Tsukuba, Japon