• Aucun résultat trouvé

Des données de terrain à leur traitement 50 ans de recherches

1. Méthodologie de recueil de données de terrain et typologie des sources orales

1.2. Typologie des objectifs

Sans objectif spécifié en phonologie, morphologie et syntaxe, et sans hypothèses de départ sur le mouvement linguistique affectant les structures, sur la variabilité, sur la fluctuation, les données de terrain manipulées risqueraient fort de constituer un magma informe, que des linguistes contemporains confondent parfois avec la notion de chaos par morcellement ; comment entrer dans ces « univers chiffonnés », ou plus exactement selon une expression heureuse « irisés » que sont les univers dialectaux des Alpes/Jura aux Pyrénées et ces « petits mondes » langagiers cantabriques, galiciens, aragonais, ou d’ailleurs ? Dans ces conditions, toute opération de manipulation d’une donnée structurale quelconque localisée, qui ne serait pas rapportée d’entrée aux cartes d’isoglosses réalisées à partir des tables d’ALG6 (Séguy-1971) constituerait au plan scientifique une lacune grave, car ce sont les données de base qui déterminent la nature et les caractéristiques des distributions, ce que des théoriciens sont tentés d’oublier.

1.2.1. Recueil de données dans le cadre d’une opération relevant des méthodes de la géographie linguistique.

Il y a, on le sait, données et données, avec ou sans métadonnées. Selon ce critère, l’enquête comporte (A) ou non (B) des contraintes de type géolinguistique qui définissent la notion de ressources orales géolocalisées, géoréférencées (K. Jaberg, Scheuermeier, G. Rohlfs, Gauchat) : tous nos recueils de données numérisées sont nécessairement de type (A).

- échelle spécifiée par coordonnées GPS (communale, cantonale, infracommunale, intercommunale)

- fichier localité par localité [*loc] spécifié par n° de nœud de réseau de sociabilité en société rurale ou urbaine, pour une structure donnée (phonologique, morpho-syntaxique)

- fichier informateur spécifié [*inf] positionné dans un réseau de sociabilité et de communication intra-groupe et non seulement défini par lignage

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

193

- fichier requêtes spécifiées [*q] avec typologie de requêtes en fonction des objectifs (structures et usages).

- fichier des réponses numérisées, positives ou négatives, spontanées ou suscitées dans un plan d’expérience [*rép mots syntagmes phrases].

W1/n : il ne ferait pas bon ici nier l’existence du mot de parole/langue B1/n bandes nominales ou verbales avec extraction lexicale

S1/n fichiers de phrases soumises à analyse syntaxique/syntagmatique et prosodique (alpi ; alg sonore).

La graphie populaire de la translittération d’une source orale localisée facilite une transcription phonétique de degré de fiabilité moyen ; nous avons ainsi pu traiter ; en application spécifique, 100 carnets de translittération du célèbre recueil SACAZE pour les cantons de St-Girons, Massat, Castillon ; le corpus des données orales translittérées et transcrites, une fois numérisées, se présentent alors sous forme de fichier texte, comme suit :

***t0001 légende de Barbazan *l Lourdios_Ichère 64 Pyr. Atlantique groupe_classification_xxx*d 1887 *réf BM Toulouse Recueil Sacaze ms.1112 JE-2009,167-169 *mise_API JLF2011 d’après texte graphique édité par J. Eygun *ph requêtes sur critères par indexation ; constitution de tables de critères : diphtongue_xj/xw/hiatus/liaison/aphérèse (J.L. Fossat).

*01 /ke j_aße / awdes_’kɔps / ẽn y ßi’ladʒe deras piren’es y ‘umi e ya ‘henna ki ɛran hɛra ‘prawbez e bj’eʎs /

*02 /’ets ke nu a’ßen ke ya majz’u ‘tuta tʃ’ina / y ‘ɔrt e ya ‘ßaka /

*03 /mes /pɛr ɛsta ‘prawbes / ‘ets ke sekur’ißan tus’tɛm ak’ets ki

ɛran mes ‘prawbes ‘k ets /

*04 /y_’dia / era ’tɛr:a k ɛr aprik’ata ɗe n’ɛw / e ke ʒel’aßa a_p’ɛjra_h’ene /

*05 / ‘tut era ‘ʒen deb bi’ladʒe ke_s kaw’haßa ẽm_minʒ’an e

ẽm_b’eßen/

*06 / k ɛran ‘r:iʃez e i’rus/

07 /a_r:Rn’drata_ɗera_’nwet / dyz bja’dʒus /ki ‘bißan de ‘lwRŋ / ki_z bulun ar:es’ta ẽn akeɗ ẽndr’et / prumu_k aßen ‘r:et e ‘hami/ ke

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

194

try’kaw ẽn ya ‘pɔrta / aprez ẽn ‘Q_awda / i ẽn ‘d_awdas ẽn’gwɛra / a’r:ɛs ke nu bulun le’ʃa_wz ẽndra / ni ɗa_jz ar:e ta mãn’dʒa/

Ces données orales transcrites par nos soins à partir d’une translittération en graphie populaire dite phonologisante, ont pour origine le dossier des enquêtes SACAZE ; mais translittérées ou transcrites en mode API, les données orales ont été rendues muettes, ce qui constitue le paradoxe le plus évident, et la lacune la plus évidente, s’agissant de traitement de données orales. Nos prédécesseurs avaient déjà formé le projet d’une édition phonographique de l’archive orale analogique ; la question qui se pose est donc, après numérisation, l’exploitation optimale et concertée des ressources orales numérisées qui disposent en vue synoptique, de fichiers-textes et de fichiers sonores numérisés.

Comme on peut déjà s’en rendre compte – on y reviendra – un des premiers prétraitements repose sur la segmentation de la totalité en segments identifiés sur critères syntaxiques, prosodiques, morphosyntaxiques, phonologiques, avec annotation systématique par les utilisateurs mêmes et non en haut lieu dans quelque laboratoire que ce soit, ce qui n’est pas sans retombée au plan didactique de la formation à la connaissance ; ou bien on travaille avec des ressources électroniques importantes dans un système international dominant (big data/big system) : c’est la solution de type EUROVIA des opérations ADONIS ; ou bien, par la force des choses organisées, on opère dans de petits ateliers, petites et moyennes entreprises de formation à l’analyse de données, sur des chemins plus discrets, plus modestes, en contexte de pauvreté ; dans un tel contexte, cependant, il est aisé de repérer le graphe temporel de récurrence de tel phénomène structurant (voisement/dévoisement, diphtongue, …, etc.), comme on peut de toute évidence s’en rendre compte. Donc pas de consensus ex machina.

Dans les trois cas, les données primaires sont constituées par opération d’indexation de mots concrets construits, de syntagmes ou bandes, de phrases ou de groupement de phrases selon des critères explicités par des méthodes d’analyse énonciative ; c’est le cas, notamment, des phraséolexèmes, groupes de mots figés, lexies complexes, expressions idiomatiques, formes étendues, cooccurrences des dictionnaires dialectaux constitués à partir de données de terrain

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

195

depuis plus d’un siècle en France par les linguistes romanistes d’Europe.

BIBLIOGRAPHIE DE RESSOURCES ORALES DISPONIBLES (données ; classification ; représentation ; interprétation)

Fossat-1996 : inventaire de l’archive numérique du CLid

1- bibliothèque des archives sonores 2. Bibliothèque des archives visuelles, sur site ercvox.free.fr (enquêtes de terrain post ALG/NALF 1960-1996 occitan, français, langues romanes). 2- Fossat-2005 Analyse variationnelle des parlers gascons

couseranais et interférentiels (données orales translittérées et transcrites; traitement classificatoire ; représentation cartographique des distributions ; AIEO Reggio Calabra/Messina ; site umr838 UTM (MSH Casanova pour la réalisation et la conception des cartes distributionnelles d’ALG6 à partir des tables ; vérification et interprétation : Jean-Louis Fossat ; création des données numériques de départ J.-L. Fossat, sous licence ; droits d’auteur Jean Séguy (tous fichiers non numériques).

1.2.2. Structures et Usage(s)

Selon ce critère, on distingue les données primaires visant à établir des structures (A) et des données primaires qui déterminent tout autant les structures (STR) que les usages (US) en société organisée (B), selon l’opposition en vigueur depuis Hjelmslev (REF).

STRUCTURES (hypothèse A) : OPERATION DE TYPE ATLAS LINGUISTIQUE ET ETHNOGRAPHIQUE DE LA FRANCE PAR RÉGIONS (unités territoriales avant et après 1498)

-Critères phonétiques : table de critères pris en compte (CRIT_ph/1) ou non (CRIT_ph/0).

-Critères phonologiques : table de critères phonologiques pris en compte (CRIT_PHO/1) ou non (CRIT_PHO/0).

-Critères morphologiques et morphosyntaxiques : table de critères morphologiques pris en compte (CRIT_m/1) ou non (CRIT_m/0). -Critères syntaxiques : tables de critères syntaxiques ou morphosyntaxiques pris en compte (CRIT_msynt/1) ou non (CRIT_msynt/0).

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

196

-Critères prosodiques : tables de critères prosodiques pris en compte (CRIT_pros/1) ou non (CRIT_pros/0).

-Combinaison de catégories de critères (alg6 MS3_PrCo_complexe) -Données de polymorphisme phonétique pour cartographie du polymorphisme phonétique et phonologique (nasalité, couleur vocalique, palatalité, vélarité, densité, compacité) : les ressources numériques créées sous forme de table XL permettent alors la classification des données quantitatives et la fabrique d’une bibliothèque numérique de cartes de distribution quantitative (isoglosses de polymorphisme).

Pour accéder à cet ensemble de données numériques et cartographiques, on s’adressera à fossat@univ-tlse2.fr.

Exemplification de données de terrain gasconnes d’origines diverses, combinant critères morphologiques, syntaxiques, phonologiques, prosodiques

-(i) L’Emile ne s’a pas colhonat ; que s’a balhat còsta coberta, (40 Montfort-en-Chalosse)

-(ii) se me lo balha. (ALG6 MS3PR)

-(iii) porta-te plan : portatz-vos plan (4O Montfort, St-Vincent T),

(64 Salies-de B.)

-(iv) extraction de dossier données primaires 64 Lescun (Rohlfs,

Passet et J. Boisgontier): constat de connexité rythmique et clise asyllabique en gascon occidental.

-tu, menschido’t ! (31 Aspet) mesfisa’t, cara’t […] (groupe gasc. oriental) ; cara-t (groupe gascon aquitain occidental)

-a força de cercar_lo […] /serk’a_w] 64 Lescun -enta har-los baishar (las olhas) 64 Lescun -enta har-los [ha_ws] pravar 64 Lescun

-enta har-los [ha_ws] baishar (los anhèts) 64 Ossau

-enta har-las [h’ar_los] baishar (eras oelhas) ) [eraz gw’eλos] -enta virar-lo [bir’a_w] « pour LE faire revenir »

Exemplier languedocien restreint (Sénégas, Petit et L. Michel

1973), CLASSES SYLLABIQUES, RYTHMIQUES (méthode A avec enregistrement magnétique systématique par J. Boisgontier) avec essai de délimitation d’énoncés de la parole représentatif de structures en usage.

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

197

- digas-i bo, digas-i bo-t -toca-i

-agarro-bo’t aqui ! -va caler i anar -i va caler anar -a calgut le/lo tuar

-l’a calgut sannar, lo tesson -l’anèt (angèt véser/veire) -anèt (angèt la véser (veire)

Comme on peut déjà s’en rendre compte ici, les données recueillies sur le terrain par observation forment des recueils plus ou moins homogènes, sur objectif d’exploitation.

Exemplier d’encodage des données de terrain en vue de la classification exploratoire

(1) Schématisation des observables de terrain

On se réfère ici à une représentation classique de la situation linguistique de la France par régions, qui permet aux utilisateurs de se faire une idée de la fragmentation primaire du domaine linguistique observé de type occitan, articulé au domaine dit franco-provencal alpin et jurassien. Seule l’opération de type NALF permet une classification fine en aires primaires, secondaires et tertiaires de ce domaine. Nos propres données de terrain privilégient toujours la bordure aquitanique de ce vaste territoire, la Gascogne, et l’ancienne Guyenne, avec le Languedoc occidental et méditerranéen, avec une attention spéciale aux vallées pyrénéennes.

Pour ce domaine, les données de terrain peuvent être de type distinct : -type géolinguistique NALF.

-opérations de recueil de données lexicales antérieures ou postérieures, parallèles au plan NALF (CORPUS PAROLE ERA352/URL8 INaLF coordination J.L. Fossat).

-monographies confrontées à des dictionnaires régionaux (Dauphiné, Vivarais, Aoste).

-dictionnaires régionaux (Foix, pour les Landes de Gascogne, Arnaudin) établis d’après des données de terrain.

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

198

S’agissant de déterminer l’extension géographique du terrain des observables, on en donnera ici une représentation globale schématique.

(2) Extraction de variables et cartographie de distances structurales pour tout ou partie de ce domaine d’observable à une échelle donnée, avec attention spéciale à la Gascogne, centrale, occidentale, orientale, et à ses secteurs interférentiels, pyrénéen au Sud-est (Couserans et pays de Foix), et garonnais d’ouest en est. La méthode est rappelée ci-dessous.

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

199

Typologie et gradient (vue partielle-frontières) ALG 6

Au vu de ce schéma, il tombe sous le sens que la méthode mise en œuvre pour le traitement des données de terrain est généralisable à un quelconque élément d’information territoriale géoréférencée ; on évitera donc toute assertion sur l’homogénéité ou non sans avoir achevé l’analyse des données de terrain disponibles, ce qui peut prendre beaucoup de temps et nécessite la conjonction d’énergies ou forces de travail.

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

200

(3) Première gasconne de l’encodage des variables structurales (J. Séguy 1973) : vue sur les structures morphosyntaxiques du pronom régime gascon (bloc de 29 variables tables MS3PrCo et vérification du bloc de cartes MS3PrCo d’ALG6).

Table 3 : Système morphosyntaxique, Groupes et classes (ALG 6) Ce tableau de données, de la main de Jean Séguy (fonds numérique Jean Séguy) représente pour l’essentiel le point de départ vérifiable pas à pas de toutes les opérations de manipulation des données de terrain recueillies en hypothèse A (instrumentation avec expérimentation).

De même le tableau de distances interspatiales interponctuelles ci-dessus établi par la main de Jean Séguy 1973 fait apparaître avec netteté l’effet des frontières dialectales en zone interférentielle du gascon oriental et du languedocien occidental.

C’est cette hypothèse (A) qui est à la base de toutes les stratégies d’exploitation de données géolinguistiques dans les opérations de type atlas du NALF et/ou leurs prolongements, avec des degrés et des options divers. Ou toute opération similaire ; le premier objectif à atteindre pour analyser et décrire la variation linguistique passe alors toujours par une étape de tracé de lignes isoglosses simples ou cumulatives. (Séguy, Conférence de Londres 1960 ; Séguy ALG6 tables/cartes isoglosses tracées depuis les tables ALG 6 avec étape de vérification : Fossat-Casanova (2001) isoglosses phonétiques, phonologiques, morphologiques et morphosyntaxiques du gascon ;

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

201

2001 Classification et isoglosses morphosyntaxiques, Fossat-2008 (Leeds) ; Fossat-2009 (Lyon), Fossat-2009 (Aachen). Les données primaires intermédiaires mises en exploitation reposent dans tous les cas, qu’il s’agisse d’approche classificatoire dialectométrique ou d’approche cladistique, sur le calcul des lignes isoglosses et des constats faits à cette étape cruciale (Lalanne, Séguy 1960-1973).

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

202

USAGES (Hypothèse A/Hypothèse B)

Les données primaires polymorphes, selon ce critère, présentent un caractère monolingue dialectal (cas 1) ou non (cas 2) ; dans ce dernier cas, les données primaires témoignent d’une réalité multilingue, plus précisément plurilectale, expression consacrée depuis Puech et alii (Lyon) avec ou sans statut polynomique, selon l’expression consacrée depuis Giacomo-Marcellesi et alii.

L’objectif n’est plus alors de recueillir le lexique dialectal seul, isolé en laboratoire par artefact, mais bien d’établir ses relations , simples ou complexes, quand il existe et tant qu’il existe encore dans l’usage social, avec une ou plusieurs langues de force, comme on parlait de maisons de force (Aoste, Aran), et, le plus souvent en situation diglossique, le rapport complexe à une langue dominante, nationale en principe, sur un territoire donné, en France, en Espagne, en Italie, au Portugal ; c’est l’objectif des opérations de type ERA352 (CNRS et UTM2) prolongé à phase d’exploitation par les opérations de l’URL8 de l’Institut National de la Langue Française et des langues de France. Les données témoignent des stratégies des acteurs sociaux, des interactions dans des actes de la production et de la commercialisation de produits consommables avec délimitation thématique aux « petits mondes » de la production animale et du commerce des produits dans les économies locales réticulées. Ces mondes, de manière très prévisible, allaient être frappés brutalement par les forces d’une politique de mondialisation. Les historiens (Max Weber) avaient déjà parlé de cette situation en termes de « fin des paysans », donc de fin des langues historiques dialectales. Les données de terrain leur donnaient à la fois tort et, partiellement, raison. C’était oublier ce que sont les « forces sociales » quand elles sont structurées en réseaux de sociabilité, hier comme aujourd’hui.

Dans cette perspective, les ressources créées à partir des données de terrain sont des unités discursives, d’où sont extraites les unités lexicales catégorisables, comme on le verra plus loin.

Dès la phase de recueil de données, dans cette perspective-là, se pose ici la question cruciale des usages du dialecte dans les centres de commercialisation et à leurs périphéries, en termes de dialectologie des usages sociaux, en milieu rural, urbain et en situation d’interaction pour laquelle a été consacré le terme de situation « rurbaine » : ce type d’enquête nous a conduit à vivre quelques expériences fabuleuses dans les sociétés de montagne notamment, du territoire andorran au

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

203

territoire cantabrique, dans les mondes de culture pyrénéenne, aquitanique, avec Bruno Besche-Commenge, Claude Costes et François Séguy, voire en domaine basque avec X. Videgain et alii, en domaine cantabrique, avec A. Leal, Claude Costes, François Séguy (Los Montes de la Vega de Pas), et, par la suite, des heures exaltantes, du côté de Benzékri, du côté des dialectométriciens, avec Dennis Philps, Gotzon Aurrekoetchea, Liliane Jagueneau, Marc Peytavi, Jacques Vanpoucke, Choeb Zafar et bien d’autres encore ; se posait alors la question de savoir de quel bord on était : chez les métriciens ou chez Marcel Degeilh et Léonie à Auragnou (09 Biert). La question reste sans réponse, si on la pose en termes brutaux de pensée binariste. Elle trouve sa réponse dans un mouvement de pensée au travail incessant entre données de terrain et méthodes d’exploitation sans cesse en mouvement, avec points de fixité définis en termes de géopolitique linguistique, au sens de Robert Lafont, notamment et entre autres ; nous avons opté pour ce point de vue, ce qui représente un mouvement notable, par rapport aux prétentions de la dialectologie à s’ouvrir aux méthodes de la sociolinguistique rurale ou urbaine (Louis-Jean Calvet, G. Marcellesi).

OPÉRATIONS REPOSANT SUR DES STRATÉGIES MIXTES EN HYPOTHÈSE A

De fait, dans ce type d’opération, le recueil de données de terrain - onomastique comprise - met en œuvre des stratégies mixtes.

STRUCTURES DIALECTALES PLURILECTALES mises en évidence (A) : Index D

Exemple retenu : le corpus Sacaze des cantons de St-Girons, Oust, Castillon et Massat (Fossat 2005-2010 Contrat DGLF)

USAGE POLYNOMIQUE LOCALISÉ (A) dans les opérations relatives à l’usage des langues de France.

Exemple de chantier opérationnel : le corpus DRF/DF (opération ERA 352 CNRS/URL8/INaLF)

-index D (tous dialectes de France) avec distribution régionale -index R (tous usages de France, par régions linguistiques) -index F en France

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

204

-index A (allemand) dans le cas du territoire germanophone en France de l’Est (Alsace, Lorraine, Sarre).

L’erreur majeure des opérations d’indexation ordonnée est de séparer des prétendus niveaux, de fait imbriqués dans des mixtes, ou situations mixtes d’usage, dites de métissage dans des univers caractérisés par leurs stratégies d’interaction.

Ce type d’opération comporte deux types d’enquête (A, B) d’une part ; et d’autre part, pour A comme pour B, une observation à échelle cantonale, voire intracantonale pour les zones A, B, C de mon schéma territorial initial, avec sondages à échelle distendue, pour le nord, le sud et l’est du territoire : c’est le cas, notamment et pour nos données de terrain en zone urbaine (Lyon, Turin, Bruxelles) ou en zone rurale (Isola, Aoste) ; certains secteurs en zone hispanique ont donné lieu à une approche serrée, infracommunale, homologue à notre approche des communautés agro-pastorales pyrénéennes.

J’ai commencé à comprendre ceci à Lyon, aux abattoirs de Lyon-La Mouche, puis à Genève, dans une table ronde de bouchers jurassiens et alpins alors que les industriels de ces mondes me sommaient d’abandonner mes vues folklorisantes, plus encore en vallée d’Aoste, dans une soirée fabuleuse où se mixaient joyeusement les réponses romanes, disons franco-provençales, et tudesques, au sein d’une même cellule familiale ; et tout autant dans une table ronde de bouchers wallons et flamingants entre Namur, Bruxelles et Tourcoing. Dès ces heures-là, j’avais définitivement abandonné l’opposition carrée de Hjelmslev entre structures et usages. Et hier encore, à une journée de rencontre entre paysans éleveurs exploitants et recherche scientifique en Sciences Humaines et sociales, à Ayzac-Ost en Bigorre (Lavedan), J.F. Le Nail, Bruno Besche-Commenge et plus généralement tous ceux qui s’attachent à mieux comprendre comment sont organisées dans le temps-territoire les sociétés de production des mondes ruraux, dans les sociétés de montagne, me confortaient dans ma position ; dès lors avait sonné l’heure du retour aux sources, autrement dit aux données de terrain, à présent toutes numérisées, en ce Noël 2011 : avec un gigantesque merci à A. Meqqori, cet autre infatigable compagnon d’aventure. Alors, avançons d’un pas dans ce mouvement de retour aux gens de terrain qui, précisément parce que gens de terrain, connaissent le terrain comme le fond de leur poche, comme peut s’en rendre compte quiconque a appris à les écouter

Jean-Louis FOSSAT – DES DONNÉES DE TERRAIN À LEUR TRAITEMENT

205

systématiquement ; maîtres des données, ils nous laissent le soin d’établir des collections de métadonnées et des notes de bas de page de nos essais successifs d'analyse.

1.3. Typologie des sources orales par rapport aux