• Aucun résultat trouvé

Synthèse des méthodes existantes

Dans le document Nabil Alami (Page 153-156)

Le tableau A.1, illustre les approches les plus connues dans le cadre du RAT Arabes. En analysant ces travaux, nous avons conclus ce qui suit :

 La plupart des méthodes proposées pour le RAT Arabes reposent sur des approches statistiques (ou numériques). La caractéristique principale de ces approches est qu’elles reposent sur les mots existants dans le document. Ainsi, l’un des inconvénients évidents est la négligence des relations sémantiques entre les mots. Le système est toujours limité aux mots explicitement mentionnés dans le texte d’origine. Par exemple, si le système ne trouve pas les relations entre des termes tels que «لورتب» et «طفن», il traitera ces deux mots séparément en tant que deux termes non liés, ce qui affectera négativement leur importance dans le texte à traiter. Les résumés automatiques basés sur les approches statistiques sont également affectés par les mêmes limitations en matière de détection de concept. Par exemple, avec des expressions telles que « طفنلا جارختسا», « طفنلا جاتنا», « لورتبلا جارختسا » et « لورتبلا جاتنا», le système devrait pouvoir comprendre que ces expressions font référence au même concept. La relation entre les différents concepts détectés dans le document analysé n'est pas exploitée dans les approches statistiques. La capacité à détecter une telle relation entre les termes et les concepts d’un texte nécessite des connaissances supplémentaires, externes au texte analysé, ainsi qu’un module d'analyse pour apprendre les relations sémantiques entre les différentes unités textuelles du document.

 Les approches basées sur l’apprentissage automatique supervisé telles que (Boudabous et al., 2010; Sobh et al., 2007; Belkebir and Guessoum, 2015; El-Fishawy et al., 2014; Fattah et al., 2009), l’apprentissage est une étape décisive pour améliorer la précision du système. Par conséquent, dans ce type d'approche, tous les mots qui apparaissent dans les documents de test mais pas dans les documents d’apprentissage sont ignorés et aucune nouvelle information, en dehors de ce qui est déjà disponible dans les documents de teste, n'est prise en compte. En plus, ces types d’approches basées sur l’apprentissage supervisé nécessite une base d’apprentissage composée par un grand nombre de documents annotés (paires de documents / résumés) pour apprendre la fonction de prédiction. Dans le cadre de la langue Arabe, il n’existe pas de corpus approuvé pour effectuer adéquatement l’apprentissage supervisé. Par conséquent, les méthodes proposées dans la littérature qui adoptent ce type d’apprentissage, utilisent deux manières pour apprendre la fonction de prédiction. Soit elles se basent sur un corpus limité (seulement quelque dizaine de documents annotés) développé par les auteurs. Ce qui influence négativement la qualité de l’apprentissage automatique qui nécessite par défaut une grande quantité de données annotées. Soit elles utilisent la traduction automatique pour traduire les corpus disponibles en Anglais vers la langue Arabe. Ainsi, les méthodes proposées utilisent ces exemples traduits en Arabe dans leur phase d’apprentissage. Cette manière peut aussi influencer la qualité du RAT Arabes au cas où la traduction automatique n’est pas fiable.

 La majorité des méthodes développées pour l’Arabe n’abordent pas la problématique de redondance et de diversité des informations dans le résumé finale. C’est un problème majeur

pour les systèmes de RAT en général et en particulier ceux développés pour l’Arabe. Ainsi, deux phrases ayant une signification similaire représentant les mêmes idées peuvent être incluses dans le résumé si leur score est élevé, et par conséquent, d’autres phrases portant des idées différentes seront exclues vu la taille limite du résumé à produire.

 Le classement des phrases est l’un des étapes clés dans toutes les méthodes de résumé par extraction. De nombreuses recherches ont été menées pour améliorer la qualité de ce processus. Certains travaux ont utilisé des caractéristiques statistiques (Luhn, 1958; Douzidia and Lapalme, 2004; Haboush et al., 2012; Ferreira et al., 2013b; Ferreira et al., 2014) et certaines approches sont basées sur les modèles graphiques (Erkan and Radev, 2004; Mihalcea and Tarau, 2004; Baralis et al., 2013). ), tandis que d'autres ont adopté des techniques d'apprentissage automatique supervisées et non supervisées (Sobh et al., 2007; Fattah et al., 2009 ; Boudabous et al., 2010; Fattah, 2014; Yang et al., 2014; Alguliyev et al., 2015). Après avoir étudié ces méthodes, nous avons constaté qu’elles s’appuient sur une approche par sac de mot (Bag-of-Words ou BOW) pour la représentation des documents sous forme numérique. La représentation BOW peut causer deux problèmes majeurs. Premièrement, le système ne dispose pas de suffisamment de données d’observation dans la phase d’apprentissage. Ainsi, les systèmes se basant sur cette approche utilisent une représentation creuse avec des données insuffisantes qui ne portent pas suffisamment d’information (Yousefi-Azar and Hamey, 2017). Deuxièmement, les relations sémantiques entre les mots sont ignorées. De plus, il a été démontré que la représentation distribuée des mots surpasse celle en BOW dans l’identification de la sémantique dans les textes.

 Certains travaux sur le RAT Arabes ont adopté les techniques d’apprentissage automatique comme (Boudabous et al., 2010; Sobh et al., 2007; Belkebir and Guessoum, 2015; El- Fishawy et al., 2014; and Fattah et al.,2009). Cependant, les algorithmes d'apprentissage profond (ou DL) et les réseaux de neurones n'ont pas été suffisamment étudiés dans le cadre du traitement automatique de la langue Arabe, en particulier le RAT. Ces techniques ont prouvé leur efficacité dans plusieurs domaines. Ils ont été utilisés avec succès dans les applications de vision par ordinateur et de TALN, notamment le RAT (Yousefi-Azar and Hamey, 2017). Jusqu'à présent, et d’après la littérature étudiée, les travaux qui adoptent l’apprentissage profond ou les réseaux de neurones pour le RAT Arabes sont rares ou absents. Fattah and Ren (2009) est le seul travail que nous avons trouvé dans la littérature qui utilise des réseaux de neurones supervisés, mais avec un corpus d’entrainement très réduit composé seulement de 100 documents Arabes pour la phase d’apprentissage. Ce qui influence négativement les résultats obtenus par ces modèles, qui nécessitent des corpus d’entrainement très larges pour un apprentissage efficace. Dans notre travail de thèse, nous proposons plusieurs approches utilisant l’apprentissage profond et les réseaux de neurones non supervisés. La raison pour laquelle nous avons adopté l’apprentissage non supervisé, c’est qu’il n’existe pas de corpus standard dédié à la langue Arabe avec un nombre important de documents annotés pour l’apprentissage de la tâche du RAT, alors que les documents non annotés sont largement disponibles sur le web.

 Les travaux existants ne prennent pas en compte le contexte des documents à résumer. Nous supposons que la tâche de résumé peut être améliorée si nous prenons en considération les concepts clés présentés dans le texte. Pour cela, dans notre travail de thèse, nous essayons d’améliorer les modèles basés sur l’apprentissage profond et les réseaux de neurone pour

améliorer la qualité des résumés générés en adoptant la technique de clustering et la modélisation thématique pour modéliser le texte à résumer avec une représentation numérique adéquate afin d’améliorer la performance de l’apprentissage automatique des modèles proposés.

Table A.0.1 Les principales approches existantes pour le RAT en Arabe

Référence Approche Techniques utilisée Jeux de test Evaluation

Douzidia and Lapalme (2004)

Numérique Position de phrase, fréquence des termes, mots du titre et mots de repère

Corpus DUC-2004 traduit en Arabe

ROUGE

Al-Sanie (2005) Symbolique RST Corpus développé par l’auteur

Précision

Sobh et al. (2007) Numérique Apprentissage automatique: classification naïve bayésienne, programmation génétique

Corpus développé par les auteurs

Rappel, précision, and F1-measure Fattah and Ren

(2009)

Numérique Apprentissage automatique: Réseaux de neurones, probabilistes, réseaux de neurones à propagation avant, Modèle de mélange Gaussian Régression mathématique, Programmation génétique

Corpus développé par les auteurs et le corpus DUC-2001 traduit en Arabe ROUGE-1, Rappel et précision, Boudabous et al. (2010)

Numérique Apprentissage automatique avec les machines à vecteurs de support (SVM)

Corpus développé par les auteurs

F1-measure Rappel, précision El-Haj et al. (2011a) Numérique Requête et Concept Corpus développé par les auteurs

Evaluation manuelle El-Haj et al.

(2011b)

Numérique Clustering Corpus DUC-2002 traduit en Arabe

Précision, rappel, ROUGE-1 Azmi and

Al-Thanyyan (2012)

Hybride Caractéristiques statistique, RST

Corpus développé par les auteurs

ROUGE, rappel, précision, et F1-measure Haboush et al. (2012)

Numérique Fréquence des racines des mots Corpus développé par les auteurs

Rappel et précision Ibrahim and Elghazaly (2013) Hybride RST SVM Corpus développé par les auteurs

Précision

El-Fishawy et al. (2014)

Numérique Similarité entre les tweets. Apprentissage automatique: Arbre de décision avec la régression linéaire

Corpus développé par les auteurs

F1-measure, Normalized Discounted Cumulative Gain Oufaida et al. (2014)

Numérique Minimal-redundancy maximal-relevance (mRMR) EASC TAC 2011 MultiLing Pilot ROUGE-1 et ROUGE-2 Belkebir and Guessoum (2015)

Numérique Apprentissage automatique: SVM et AdaBoost

Corpus développé par les auteurs

Dans le document Nabil Alami (Page 153-156)

Documents relatifs