• Aucun résultat trouvé

To clustering tree...88 : Une fois les diérences de hauteur, d'étendue et la distance eucli-dienne obtenues entre unités consécutives, l'algorithme de classication ascendante hiérar-chique groupe les unités en fonction de leurs diérences et de leur distance. Pour chaque locuteur, trois regroupements sont eectués : (1) un regroupement à partir des diérences de hauteur, (2) un regroupement à partir des diérences d'étendue et (3) un regroupement à par-tir des distances euclidiennes. Chacun de ces regroupements se forment de la façon suivante : l'algorithme détecte la diérence ou la distance la plus petite entre deux unités et eectue leur branchement. Ces unités regroupées forment une nouvelle unité. Ensuite, les diérences de hauteur et d'étendue et la distance euclidienne entre cette unité et sa précédente sont à

88. Les dendrogrammes obtenus sont donnés dur CD ROM - dossier DENDRO_CHAP3.

leur tour recalculées. Et ce, de façon itérative, jusqu'à ce qu'il ne reste plus d'unités ou de groupes d'unités à embrancher. Dans une telle procédure donc, plus la diérence ou la dis-tance entre deux unités consécutives est petite, plus vite elles sont branchées ; et inversement, plus la diérence ou la distance entre deux unités est grande, plus elles sont regroupées tar-divement. L'algorithme de regroupement hiérarchique que nous proposons est donc similaire aux algorithmes de regroupement hiérarchique déjà existants, mais il a, à la diérence de ces algorithmes, la contrainte de regrouper les unités entre elles en fonction de leur ordonnée temporelle.

L'algorithme génère ensuite une structure arborescente binaire qui prend la forme d'un dia-gramme à niveaux alignés (layered icicle diagram). La sortie au format .xml peut être visualisée à partir d'une feuille de style .xsl. Cette représentation graphique permet ainsi de visualiser les changements de registre intra-locuteurs et ainsi de visualiser la structure hiérarchique et l'or-ganisation relationnelle des unités telles qu'elles sont reétées par les changements de registre.

A partir du dendrogramme, il est donc possible de distinguer des groupes d'unités, à travers des cassures visuelles de l'arborescence. Plus la cassure est grande entre deux unités, plus la diérence de registre entre ces deux unités ou groupes d'unités est importante. Pour chaque locuteur, nous obtenons trois dendrogrammes, le premier eectué à partir des diérences de hauteur de registre, le deuxième à partir des diérences d'étendue et le troisième à partir des distances euclidiennes.

Nous proposons une interprétation visuelle de l'extrait de dendrogramme obtenu à partir des distances euclidiennes pour le locuteur 13aAC1tw (corpus PFC) et représenté en 54. Nous pouvons observer, au bas de la structure arborescente, les unités ou feuilles à partir desquelles sont calculées la hauteur et l'étendue du registre. Les unités sont ensuite regroupées entre elles selon un branchement binaire et l'unité nouvellement créée indique la diérence ou distance qui les sépare. Cette diérence (dif f) est la moyenne pondérée des distances au barycentre des deux unités regroupées. En voici la formule :

x= wk+1xk+1+wkxk

wk+1+wk ; dif f = wk+1(xk+1−x) +wk(x−xk)

wk+1+wk (18)

où xk et xk+1 sont les positions des unités ou groupes d'unités contigües, wk et wk+1 sont les poids associés aux unités, proportionnel au nombre d'unités du groupe. Pour les feuilles, xk+1=xk+DIF F KEY, lorsque le paramètre est la hauteur du registre (KEY).

La distance entre l'unité le premier et l'unité ministre est de 0.041 alors que celle entre le groupe d'unités le premier ministre ira t-il à Beaulieu et le groupe d'unités le village de Beaulieu est en grand émoi est de 1.773. Nous voyons d'ailleurs clairement que la rupture est plus grande entre l'unité Beaulieu et l'unité le village qu'entre l'unité le

premier et l'unité ministre . Les couleurs, quant à elles, indiquent la hauteur de chaque unité et de chaque groupe d'unités. Plus la couleur est chaude, plus l'unité est énoncée sur de hautes fréquences ; et inversement, plus la couleur de l'unité est froide, plus elle est énoncée sur de basses fréquences. Visuellement, nous pouvons alors apercevoir l'eet de déclinaison que nous avions abordé en 1.3 de notre deuxième chapitre : les unités en début de groupes ont un registre relativement plus haut que les unités en n de groupes (e.g. le premier ministre vs. à Beaulieu ). L'eet de déclinaison s'observe également à un niveau supérieur, i.e. entre groupes d'unités où le groupe d'unité initial a un registre relativement plus haut que les groupes d'unités qui le suivent (e.g. le premier ministre ira t-il à Beaulieu vs. le village de Beaulieu est en grand émoi ). Si l'on compare d'ailleurs cet extrait de début de texte à l'extrait de n de texte, représenté en gure 55, on voit très clairement l'eet de déclinaison sur un empan plus large. Alors que l'extrait en début de lecture est marqué par des couleurs chaudes, i.e. par un registre haut, l'extrait en n de lecture est lui plutôt dominé par des couleurs froides, i.e. par un registre bas. Parce que la hauteur et l'étendue du registre sont corrélées, on peut déjà armer visuellement que le début d'un texte est caractérisé par un registre haut et étendu alors que la n d'un texte est caractérisé par un registre bas et étroit.

Figure 54 Aperçu du dendrogramme obtenu à partir des distances euclidiennes pour le locuteur 13aAC1tw (corpus PFC). En haut à gauche, une échelle de couleurs indique les fréquences utilisées par le locuteur. En haut à droite est donné le nom du chier traité. Au dessus du dendrogramme est indiqué le temps en secondes. Les feuilles au bas de la structure arborescente représentent les unités à partir desquelles sont calculées la hauteur et l'étendue.

Figure 55 Aperçu du dendrogramme obtenu à partir des distances euclidiennes pour le locuteur 13aAC1tw (corpus PFC). L'aperçu correspond ici à l'extrait de n de lecture.

Puisqu'il est possible de visualiser des changements de registre, on peut penser qu'une telle structure arborescente nous permettrait d'établir des ruptures de structure, i.e. des chan-gements de registre intra-locuteurs. Parce que les ruptures de l'arborescence peuvent être exprimées par la distance entre les feuilles de la structure, l'étape suivante consiste donc en leur calcul.

3.4 Etape 4 : Calcul des distances entre les feuilles de la structure