• Aucun résultat trouvé

Caractéristiques lexicales

Dans le document The DART-Europe E-theses Portal (Page 71-75)

B.1 Cinquante premiers mots les plus fréquents dans le corpus [DIAB_CP], utilisés dans le

3.5 Typologie des discours scientifiques et vulgarisés dans les langues française et japonaise 49

3.5.3 Caractéristiques lexicales

Nous avons vu dans la section 3.4.3.3 que le degré de spécialisation d’un document se caractérisait aussi par le lexique utilisé dans les documents. Nous présentons dans cette section les critères nous paraissant discriminants dans la distinction des types de discours scientifique et vulgarisé.

Vocabulaire spécialisé : le vocabulaire scientifique et technique est l’une des caractéristiques des langues de spécialité (Mortureux, 1995) (ex: triglycérides, lipotoxicité. . . ). Dans les documents scienti-fiques il est extrêmement fréquent. Les documents vulgarisés emploient aussi des termes spéciali-sés, mais ceux-ci sont généralement uniquement introduits puis substitués par des synonymes ou des termes de la langue générale.

Noms propres : généralement des noms de personnes ou de lieux sont utilisés. Les auteurs des do-cuments et de nombreuses citations bibliographiques sont indiqués par le nom dans les articles scientifiques.

Caractères numériques : très souvent des quantités numériques dans un corpus médical, des dates dans le cas de citations bibliographiques par exemple.

Unités de mesure : principales unités de mesures, fréquemment utilisées dans les domaines scienti-fiques (grammes, mètres, calories. . . ).

Bibliographie : présence d’une bibliographie à la fin du document, souvent sous la forme d’une liste de noms suivie d’un titre, d’une date, d’un nom de journal ou de conférence. . . Les bibliographies sont le plus souvent présentes dans les documents scientifiques.

Citations bibliographiques : références à des éléments de la bibliographie dans le texte. Celles-ci sont sous différentes formes : (nom, date), [identifiant]. . . Ces citations sont généralement présentes dans les documents scientifiques.

Ponctuation : utilisation des principaux symboles de ponctuation.

Marqueurs de glose : la glose correspond à l’explication d’une idée par une autre dans un discours Steuckardt et Niklas-Salminen (2005). Ceci est souvent indiqué grâce à un ensemble de marqueurs, parmi lesquels on trouve à savoir, autrement dit, c’est-à-dire, par exemple, etc.

Parenthèses : les parenthèses peuvent être utilisées dans différents buts. Elles peuvent servir à détailler une idée, donner un exemple, expliciter un acronyme. . .

Autres alphabets (latin, hiragana, katakana) : différents alphabets utilisés dans des textes en langue ja-ponaise. L’alphabet katakana permet d’écrire en japonais les mots d’origine étrangère, les onoma-topées, ils permettent aussi de mettre des mots en évidence dans un texte. L’alphabet hiragana est

utilisé afin d’écrire les mots japonais auxquels aucun kanji ne correspond, les mots pour lesquels l’auteur ne connaît pas l’écriture en kanji ou dans le cas où l’écriture en kanji est trop formelle.

Les kanjis sont hérités des caractères chinois et permettent avec les deux autres alphabets d’écrire l’ensemble des mots en japonais. Les caractères latins (romajis) sont utilisés assez rarement, ils permettent d’écrire certains noms étrangers et sont utilisés pour écrire les formules mathématiques.

Symboles : caractères ne faisant pas partie des alphabets ni des principaux symboles de ponctuation (émoticones,•,◦). Ces derniers sont rarement utilisés sur des articles scientifiques, des rapports de recherche ou des documents institutionnels. Ils sont parfois introduits par des logiciels facilitant la création de pages Web. Quelques symboles se trouvent dans les formules mathématiques des articles scientifiques.

3.6 Conclusion

Nous avons présenté dans ce chapitre une analyse stylistique de notre corpus d’étude. Notre dé-marche est déductive et contrastive : en partant de documents répartis dans deux classes (scientifique et vulgarisée), ils sont analysés par couples (un de chaque classe) afin de déterminer quels éléments ca-ractérisant chaque classe peuvent être discriminants. Ces caractéristiques relèvent de trois niveaux : les caractéristiques structurelles, correspondant aux éléments graphiques et structurels des documents ; les caractéristiques modales, correspondant aux éléments relatifs à la modalité dans les documents et les caractéristiques lexicales. Nous avons choisi d’utiliser deux théories de la modalité : la théorie Locutive de Charaudeau et la théorie Irrealis de Givon. Elles sont comparées dans le chapitre 5. Cette typologie est donc composée de caractéristiques du type de discours scientifique ou vulgarisé. Elle est de plus multilingue et motivée linguistiquement : les niveaux d’analyse et la sélection rigoureuse des critères permettent réellement de caractériser un phénomène (plutôt que de lister des critères potentiellement discriminants).

Nous présentons dans le chapitre suivant la mise en œuvre de cette typologie, c’est-à-dire l’implé-mentation des différents critères. Cette mise en œuvre nous permet d’apprendre un modèle de classifica-tion, mais aussi de tester la robustesse et la généricité de notre typologie.

C HAPITRE 4

Classification automatique des documents français et japonais selon leur type de discours

4.1 Introduction

« La catégorisation des textes fait partie des activités cognitives spontanées des sujets. [. . . ] Sans l’existence de catégories, notre appréhension des énoncés produits serait probablement impossible » (Adam, 1992, p. 6). Toute collection de données textuelles doit, pour être exploitée par l’homme, être ordonnée (bibliothèques, bases de données. . . ). La quantité sans cesse croissante de données textuelles électroniques, notamment sur le Web, a engendré un gros besoin de classification et soulevé le pro-blème de la classification automatique. Les données étant très nombreuses (et à chaque instant plus nombreuses), la classification manuelle est devenue impossible. Il a alors été nécessaire de créer des sys-tèmes capables de produire une classification au sein de ces données permettant à l’homme d’y accéder.

Le domaine de la classification automatique est né de ces difficultés. Nous cherchons dans ce chapitre à adapter les méthodes de ce domaine à la classification de documents du Web sur des domaines spécialisés en type de discours scientifique ou vulgarisé.

La figure 4.1 présente les différentes étapes nécessaires à la mise en œuvre de la typologie et son application aux méthodes de classification automatique. Les deux premières étapes sont manuelles. La première étape consiste à analyser le corpus d’apprentissage afin de créer une typologie adaptée à la clas-sification souhaitée. Il s’agit, dans notre cas, d’analyser les documents du corpus répartis en deux classes : les documents scientifiques et les documents vulgarisés afin d’en dégager des caractéristiques propres à ces deux classes. Ces caractéristiques forment une typologie des discours scientifiques et vulgarisés dans les domaines de spécialité en français et japonais (voir chapitre 4).

Les systèmes de classification automatique se basent généralement sur une représentation vectorielle des documents, chaque élément des vecteurs correspondant à un critère de la typologie. La reconnais-sance de chacun des critères doit donc être implémentée, afin de pouvoir construire ces vecteurs. Sebas-tiani (2005) nomme cette étape l’indexation des documents, elle est en partie manuelle (implémentation de chacun des vecteurs) et automatique (application d’un programme de création du vecteur correspon-dant à chaque document). Une fois les représentations vectorielles des documents réalisées, les méthodes

63

Figure 4.1 – Différentes étapes de la mise en œuvre de la typologie

d’apprentissage automatique peuvent être appliquées. Nous présentons dans la section 4.2 les différentes étapes de l’élaboration d’un modèle de classification : indexation, apprentissage, classification, évalua-tion. Nous présentons dans la section 4.3 l’application de chacune de ces étapes à notre problème et les algorithmes de classification choisis.

Dans le document The DART-Europe E-theses Portal (Page 71-75)