• Aucun résultat trouvé

Étant donné que les résumés produits sont généralement peu cohérents à cause de l’extrac-tion de phrases déconnectées de leur contexte, les approches hybrides essayent de combler cette lacune en proposant des méthodes numériques qui tiennent en compte les traits du discours qui assurent sa compréhension.

La majorité des travaux sur l’extraction sont fondé sur l’extraction basée sur les connais-sances hybrides provenant de différentes sources symboliques et numériques ou même à base d’attribution de poids/score à des informations extraite d’une façon symbolique [Ono 1994], [Marcu 2000a]. Dans ce contexte d’idée, Ono et Marcu font précéder l’étape d’extraction par une présentation du texte source sous forme d’un arbre RST tout en l’assignant un poids a ses différents nœuds en fonction de leur position. En effet, c’est le sore final qui juge la pertinence des nœuds d’un arbre. Ainsi, la sélection de phrases pour le résumé est effectuée en fonction de la longueur désirée du résumé, et le choix est plus ou moins d’éléments, sera fixé selon dans un ordre déterminé par l’algorithme de sélection [Torres-Moreno 2011].

Après étude des différentes approches pour le domaine du résumé automatique, ainsi que les différentes méthodes utilisés, a notre connaissance, il n’existe pas des travaux de recherche qui ont résolu le problème d’extraction à base d’un contrôle terminant la part de chaque technique dans le résultat final. Il faut, cependant, noter que le traitement du problème de résumé en com-binant les méthodes numériques et symboliques, pourrait permettre de franchir un palier et de s’approcher un peu plus de ce que peut faire les résumeurs humains. Le paradigme d’extraction des phrases en se basant sur une approche hybride qui privilégiera l’utilisation des techniques numériques et symboliques en fonction des données peut servir, à notre point de vue, à être un pas en avant vers la génération d’extrait d’une meilleure qualité.

2.5 Conclusion

Dans ce chapitre, nous avons exploré quelques méthodes qui ont été proposées pour résoudre le problème de production de résumés automatiques. Il semble bien que les méthodes purement

statistiques, simplement implantées et rapidement adaptables à d’autres domaines soient li-mitées en ce sens qu’elles n’ont pas une vision globale du texte. Les méthodes fondées sur la compréhension nécessitent des modèles conceptuels et des ressources linguistiques avancées et ne peuvent être donc appliquées qu’à des domaines restreints.

En revanche, les méthodes hybrides qui tiennent compte à la fois des techniques symboliques et numériques sont plus prometteuses. Malgré les avancées enregistrées par ces méthodes, la lisibilité des résumés reste toujours à améliorer.

À partir de cette synthèse des méthodes proposées pour le résumé automatique, nous pouvons conclure que pour le développement de systèmes de résumés automatiques, une approche ex-ploratoire du document source est plus avantageuse. Étant donné que les résumés produits sont généralement peu cohérents à cause de l’extraction de phrases déconnectées de leur contexte, nous allons essayer de combler cette lacune en proposant une approche hybride basée sur des relations rhétoriques de résumés conçus à partir d’une vision globale du document source.

Les bases théoriques et techniques pour

une nouvelle approche

Les techniques de TALN pour le résumé automatique de l’arabe

Sommaire

3.1 Introduction . . . 47 3.2 Particularités de la langue arabe . . . 48 3.2.1 Absence de voyelles . . . 49 3.2.2 Agglutination . . . 50 3.2.3 Irrégularité de l’ordre des mots dans la phrase . . . 50 3.2.4 Absence de ponctuation régulière . . . 51 3.3 Difficultés de l’analyse automatique de l’arabe . . . 51 3.3.1 La segmentation de textes . . . 51 3.3.2 L’analyse morphologique . . . 51 3.3.3 L’étiquetage grammatical . . . 52 3.3.4 L’analyse syntaxique . . . 53 3.4 Principales approches de traitement automatique de l’arabe écrit . . 54 3.4.1 Approches de Segmentation de textes . . . 54 3.4.2 Approches d’analyse syntaxique . . . 56 3.4.3 Approches d’étiquetage grammatical . . . 58 3.4.4 Approches d’analyse morphologique . . . 58 3.4.5 Approches de reconnaissance des entités nommées . . . 59 3.5 Conclusion. . . 61

3.1 Introduction

L’arabe est parlé dans plus de 22 pays, du Maroc jusqu’à l’Iraq et dans toute la péninsule arabe [Versteegh 2001]. C’est la première langue pour plus de 250 millions de personnes et la deuxième pour 40 millions. L’arabe, langue du Coran, est devenue la langue d’une civilisation et ne sert plus seulement à désigner les seuls habitants de la péninsule arabe qui la parlaient.

On distingue l’arabe classique et l’arabe moderne. L’arabe classique est la forme littéraire utilisée par tous pour les besoins de l’écriture et de l’imprimerie. C’est aussi la langue de la religion pour tous les musulmans, quelle que soit par ailleurs leur langue vernaculaire. L’arabe moderne, dérivé de l’arabe classique, est la langue de la presse, des débats politiques, des textes scientifiques et de plus en plus celle des textes littéraires profanes. Parlé dans la plupart des pays arabes, l’arabe moderne n’est en revanche presque jamais la langue des échanges quotidiens.

Depuis le début des travaux en Traitement Automatique du Langage Naturelle sur la langue arabe, plusieurs études ont poursuivi des directions de recherche diverses. On peut notamment distinguer les approches numériques s’appuyant sur des probabilités et les statistiques et des approches symboliques liées à la théorie des langages formels. Comme nous le verrons dans ce chapitre, ces études vont de l’analyse détaillée de phrases isolées à des approches plus globales d’un texte dans son ensemble.

Dans ce chapitre, nous présentons d’abord les particularités de la langue arabe et les principales ambiguïtés rencontrées lors de son analyse. Ensuite, nous donnons un aperçu sur les approches d’analyse de l’arabe se rapportant aux niveaux lexical, syntaxique et sémantique. Enfin, nous présentons les principales contributions effectuées dans le domaine du TALN arabe écrit.