• Aucun résultat trouvé

Corpus de LS(F)

1.6 Des langues incarnées

2.1.1 Corpus de LS(F)

Rétrospective Plusieurs projets récents ou en cours vise à construire un cor-pus de LS représentatif, mais avec des moyens très variables. Ainsi, le plus grand projet à l’heure actuelle est en cours en Allemagne, avec la constitution sur 15 ans d’un corpus qui présente des échanges dans un registre quotidien entre des signeurs confirmés en LS allemande (DGS) (330 signeurs sourds dans 12 points géographiques d’Allemagne, soit 500 heures)23. La collecte de données se ré-partit ainsi : des conversations entre deux participants au sujet de différents thèmes ainsi que différentes tâches comme la restitution narrative d’une histoire en images ou d’un film. D’autres grands corpus ont vu le jour en Australie, aux Pays-Bas, en Angleterre, Belgique francophone, notamment.

Pour la LSF, les projets de corpus sont plus modestes, le plus conséquent étant CreaGest24

. Ce corpus, comme d’autres corpus LS en France, est adossé à un programme de recherche et a pour point de départ une ou plusieurs questions de recherche linguistique (recherche fondamentale ou appliquée) qui constituent les fondamentaux et orientent le protocole de recueil. Ceci n’exclut pas que d’autres questions de recherche soient ajoutées au fur et à mesure de l’évolu-tion des collaboral’évolu-tions, et de l’expertise des partenaires. Ainsi, CreaGest vise la description de la LSF et le corpus en question sert de support aux développe-ments théoriques dumodèle sémiologique (section 1.3.2). Il comprend 362 heures d’enregistrement vidéo, comprenant 144 locuteurs, adultes sourds signeurs et en-tendants, ainsi que 65 enfants sourds signeurs. Chaque sous-corpus est relié aux objectifs de recherche suivants : les énoncés discursifs en LSF d’enfants sourds de 3 à 15 ans ; des discours descriptifs recueillis en parallèle auprès d’adultes sourds signeurs et d’adultes entendants (autour de tâches explicatives) des dia-logues en LSF, entre adultes sourds signeurs ciblant la création lexicale en LSF, à travers 53 entretiens semi-dirigés, de 90 minutes chacun.

En parallèle, l’institut IRIS de Toulouse a conçu et réalisé un corpus dialo-gique réduit qui a été exploité dans le cadre de l’atelier Traitement Automatique de la Langue des Signes (TALS) organisé par le LIMSI en 2005 et réédité jus-qu’en 2010 pour permettre aux chercheurs travaillant sur la modélisation de la LS de présenter et d’échanger leurs idées et les résultats de leur recherche et de fait, d’amorcer un réseau français de recherche interdisciplinaire réunissant essentiellement des linguistes et des informaticiens autour de la LSF. Les ateliers DEGELS, englobant la gestualité coverbale mais plus centrés sur les probléma-tiques de segmentation et d’annotation, ont fait suite aux ateliers TALS. Un corpus a été constitué à dessein 25 et comprend un dialogue en français oral (sous sa forme multimodale) et un dialogue en LSF.

Le projet de recherche européenDicta-Sign26

a réuni, pour la partie fran-çaise, des équipes du LIMSI, de l’IRIT et de Websourd pour constituer la partie LSF de l’ensemble des ressources langagières produites. Les autres LS sont la DGS (LS allemande), la GSL (LS grecque) et la BSL (LS anglaise). Le corpus consiste en un ensemble de 14 locuteurs par langue et pour une durée approxi-mative de 8 heures, avec le même matériel d’élicitation décliné pour l’ensemble des langues.

Spreadthesign27

est un lexique international dont l’objectif est d’échanger des signes lexicaux dans des champs variés dans le cadre européen de la forma-tion professionnelle (Léonard de Vinci). Le but est au départ de construire des outils pédagogiques d’auto-apprentissage et de faire acquérir aux élèves sourds des compétences langagières lorsqu’ils vont à l’étranger pour une expérience

24Structures Formelles du Langage - UMR 7023, Savoirs, textes et langage - UMR 8163, Groupe d’Imagerie Neurofonctionnelle - UMR 5296 (2016). CREAGEST - Dialogue entre adultes sourds [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) https://hdl.handle.net/11403/ortolang-000926/v1.

25http://sldr.org/voir_depot.php?lang=en&id=767&version=1

26http://www.sign-lang.uni-hamburg.de/dicta-sign/portal

Expérimentales Ecologiques

construit + contraint - contraint

semi-dirigé préparé spontané

énoncés isolés (DansLS) questions à réponses courtes (MarqSpat*) questions à dévelop-pement (MarqSpat*) dialogue avec un modéra-teur (Degels1 ) traduction en LSF de dépêches AFP (Websourd ) étude lon-gitudinale bilingue bimodale (Acquisition LSF-français*) Table 1 – Typologie des corpus (Boutet & Blondel 2016)

professionnelle.

Evolution dans le type de recueil L’inventaire des corpus constitués pour l’analyse de la LSF (entre autres) reflète une grande diversité dans la nature des données (élicitées versus écologiques), ainsi que dans le degré d’élicitation (de très contrainte à très peu contrainte). Le tableau 1 présente certains des corpus de LSF utilisés en recherche actuellement (les corpus auxquels nous contribuons ou avons contribué sont indiqués avec *), répartis selon leur visée expérimentale ou non, et selon le degré de contrainte dans le recueil.

Notons que la valorisation et la diffusion de ce type de corpus a contribué à provoquer des changements de méthodes chez les chercheurs ; ainsi, des auteurs formalistes, qui exploitent des phrases en LS issues de l’élicitation à partir de phrases écrites en LV, proposent de nuancer “selon les éléments de contexte” les jugements d’acceptabilité qu’ils ont recueillis (Cecchetto et al. 2009 : 295) ou re-lèvent qu’un désaccord peut être “fondé sur une évaluation différente des données et/ou une variation dialectale entre informateurs des deux groupes de recherche [impliqués dans le projet]28

” (Cecchetto 2016). Nous soulignons donc à la fois l’impact de ces choix méthodologiques et les questions épistémologiques qui en découlent, notamment pour la représentativité d’un échantillon d’informateurs et pour la constitution d’une norme de référence pour une langue des signes. En effet, les langues des signes restent peu dotées (en grammaires, dictionnaires, ressources littéraires et pédagogiques) en comparaison des langues vocales en-vironnantes, y compris dans le cas des LS qui sont à histoire institutionnelle plus longue, comme les LSF ou ASL (en comparaison des LS tunisienne, ou LS bédouine d’Israël pour ne citer que quelques-unes des LS considérées comme plus ’jeunes’, cf. 1.4.2).

Notons également que des auteurs peuvent associer plusieurs méthodes de

28“[...] this disagreement is based on a different assessment of the data and/or dialec-tical variationamong consultants of the two research groups”

Figure 3 – Corpus Illana

recueil de données pour mettre en saillance un même phénomène : dans le cadre de notre recherche de séquences parenthétiques par exemple, nous avons exploité des données élicitées de façon contrainte ainsi que des données ’écologiques’, autrement dit (pré)existantes indépendamment de notre recherche (Blondel & Le Gac 2007).