Les fréquences de sons initiaux dans les listes Swadesh de différentes langues
Ben Hroskin
ben.hroskin@gmail.com
Le résumé
Les fréquences des sons suivent une certaine logique. Si on prend un dictionnaire, on aura toujours différent nombre de pages pour chaque lettre. Nous voulons savoir si ces nombres sont totalement arbitraires ou pas.
Mots-clés
Séquences de sons, Phonétique, Eurasiatique, Liste Swadesh, Fréquences des sons
L’Avant-propos
Notre objectif ici est de comparer les fréquences des sons initiaux pour une dizaine de langues eurasiatiques (le finnois, l’éstonien, le hongrois, l’arménien, l’ossète, l’italien, le créole haïtien, le hindi, le turc, le turkmène). Nous avons essayé d’analyser les fréquences de séquences de deux premiers sons et de faire quelques conclusions quant à l’existence de distribution typique et de chercher les déviations possibles.
Nous avons choisi la liste Swadesh à 200 mots comme échantillon pour calculer les fréquences. La liste Swadesh, c’est à dire la liste de 100 ou 200 mots selon l’édition qui, présumés d’être indépendants de la culture, créent le noyau dur du lexique de toute langue. Bien que la liste soit inventée pour tâcher de calculer la proximité génétique des langues (une tâche dont nous ne voulons pas discuter ici), nous utilisons la liste juste comme un échantillon dont la taille est équilibrée avec la longueur des séquences étudiées. Sur un échantillon de 200 mots les séquences de trois sons soit seront uniques soit seront répétés dans les lexèmes à sémantique semblable (voire le fameux «erk» de l’arménien dans les mots comme «la terre», «le ciel» et «deux» a été interprété par Meillet comme une correspondance sémantique). Si nous ne prenons qu’un son initial du mot, nous obtiendrons généralement une liste des consonnes existantes dans telle ou telle langue. La liste des séquences de deux sons est particulièrement intéressante. Dans une langue «ordinaire» on a une trentaine ou quarantaine de sons, donc la séquence de deux premiers sons, dont généralement (mais pas forcément) le premier est consonne et le second est voyelle. On a alors quelques centaines de combinaisons possibles, dont une centaine à peine se réalise. Une vingtaine de séquences les plus fréquentes couvre la moitié de la liste. Donc les répétitions de certaines combinaisons sont garanties.
Les Résultats
Si on parle de la totalité des 10 langues étudiées, les séquences les plus fréquentes sont les suivantes: séquences fréquences ka 60 sa 39 ma 38 ba 37 ko 35 pa 32 la 30 ku 29 ha 26 si 26
Une de ces séquences sera dument la plus fréquente dans une des langues en cause. Les séquences les plus fréquentes pour chaque langue sont les suivantes:
langue top1 top2 top3
finnois ka su mi estonien ku si se hongrois ha kö fe turc ka ba ya turkmene ýa ga ba armenien ka er po ossete ca ka wy hindi pa ba sa italien ko ka pi creole haitien la ko ma
Dans la plupart des cas, on a la séquence ka parmi les trois séquences les plus fréquentes. A l'exception de er en arménien toutes les séquences sont de type consonne + voyelle.
La Discussion
Malgré la possibilité d’existence de liens génétiques très éloignés prétendus par certains linguistes, ce ne sont pas elles qui dominent dans notre situation. La liste des séquences les plus fréquentes ne suit pas la proximité génétique.
La séquence ka est un des débuts les plus fréquents de mots de la liste Swadesh. Souvent c’est la séquence numéro un. C’est le cas du finnois, du turc, d'arménien, mais elle ne garde pas la première position dans d’autres langues de l’échantillon.
D’autres séquences fréquentes sont souvent susceptibles d’être des vestiges de prépositions plus ou moins détectables.
C’est le cas de langues romanes pour la séquence ko (qui est d’ailleurs assez fréquent dans d’autres langues), issue de la préposition latine "con", transformée en préfixe et puis complètement lexicalisée.
Surtout c’est le cas du créole haïtien avec la séquences la. Elle provient bien évidemment de l’article défini du français classique. Quand même, cette lexicalisation massive de l’article ne rend pas cette langue complètement différente du point de vue de la fréquence des sons initiaux. Dans cette optique, nous devons mentionner encore la séquence er de l’arménien. Partiellement, cela peut être expliqué par la fameuse loi Meillet, prétendant qu'on peut expliquer l'erk armenien par le dw pré-indoeuropéen. Quand même cette explication ne couvre qu’une partie de cas, les autres restant sans explication satisfaisante.
Le finnois ou le turc comme des langues ignorantes les prépositions au cours de toute leur histoire on les séquences initiales purissimes: ka et (labiale + voyelle) en premières positions. Ces séquences sont les plus universelles et également les plus répétées dans les parties consécutives des mots.
Conclusion
Certaines séquences sont plus fréquentes que les autres. Les excès de fréquences peuvent être liés avec l'existence de préfixes et articles lexicalisés, mais également avec des mutations peu communes. Sinon on peut parler des débuts types: ka et ma.