• Aucun résultat trouvé

Dans ce mémoire, nous nous intéressons tout particulièrement à la tâche de SRL appliquée à des collections de documents audiovisuels. Il ne s’agit pas seulement de regrouper les segments de parole de chaque locuteur au sein d’un document audio, mais au niveau d’une collection de documents. A ce titre, les locuteurs récurrents doivent être identifiés par le même label dans chaque document de la collection.

Dans la littérature, le problème de la SRL de collection est considéré comme une étape supplémentaire de la tâche de SRL intra-document. Même si la terminologie diffère (Speaker Linking chez [Bourlard et al., 2013; Ferràs and Bourlard, 2012; Ghaemmaghami et al., 2013; Meignier et al., 2002; Van Leeuwen, 2010], Cross-Show Speaker Diarization pour [Tran et al., 2011b; Yang et al., 2011b]), elle a tendance à se normaliser en ce sens (Speaker Diarization and Linking dans [Ferras et al., 2016a; Ghaemmaghami et al., 2015]). L’idée générale est de traiter chaque document indépendamment, puis de regrouper les classes-locuteurs produites par le traitement intra-document à l’échelle de la collection, sans remettre en cause la segmentation.

3.4.1 La question de la variabilité inter-document

C’est donc le regroupement inter-document qui caractérise la SRL de collection. Par conséquent les méthodes de SRL déjà utilisées pour le regroupement intra-document ont été adaptées au regroupement inter-intra-document, que ce soit au niveau de la modélisation ou du regroupement, avec deux grandes différences. D’abord le nombre de segments à regrouper est d’un à plusieurs ordres de grandeur supé-rieur. Ensuite, la variabilité inter-document est plus importante que la variabilité intra-document. Certains locuteurs peuvent en effet parler dans un environnement acoustique différent selon les émissions (micro-trottoir vs. interview en studio, par exemple). Par conséquent, la compensation de la variabilité intra-locuteur/inter-documents est bien plus importante que lorsqu’on travaille sur un seul document. Enfin, la chronologie de certaines collections peut faire que l’âge des locuteurs

aug-3.4. SRL DE COLLECTION 37 mente la variabilité intra-locuteur [Doddington, 2012; Matveev, 2013].

Du côté des méthodes employées, on pourra citer la modélisation mono gaus-sienne avec BIC [Yang et al., 2011b], GMM/CLR avec regroupement hiérarchique [Barras et al., 2006; Tran et al., 2011b], i-vector avec partition de graphe [Du-puy et al., 2012b; Shum et al., 2013a] et regroupement hiérarchique, ILP [Du[Du-puy et al., 2012b]. Cependant, comme la variabilité intra-locuteur/inter-document est plus importante que dans le cas intra-document, les méthodes basées sur la repré-sentation i-vector et utilisant des techniques de compensation de variabilité telles que la WCCN ou la PLDA sont plébiscitées dans la littérature récente. A l’échelle de la collection, on distingue deux architectures de regroupement : le regroupement global (e.g. [Dupuy et al., 2012b]) et incrémental (e.g. [Dupuy et al., 2014a]), qui sont discutées par [Van Leeuwen, 2010].

Document C

Document A Document B Document D

Chronologie des documents

SRL SRL SRL SRL Regroupement Collection Indexée Intra-document Inter -document

Figure3.3 – Principe du regroupement global pour la SRL de collection.

3.4.2 Regroupement Global

Le regroupement global consiste à traiter la collection comme un tout, et de permettre des regroupements inter-document indépendamment de l’ordre chronolo-gique des documents. Les premières approches sur le regroupement global de col-lection [Tran et al., 2011a; Yang et al., 2011a] consistaient à considérer la colcol-lection comme un document unique. Le principe était de d’abord traiter chaque document séparément, et d’arrêter le traitement intra-document à l’étape de la segmenta-tion en locuteurs. Ensuite, les auteurs concatènent les documents de la collecsegmenta-tion en un seul et considèrent le problème comme un cas classique de regroupement intra-document. Dès lors, les méthodes appliquées sont les méthodes classiques de regroupement intra-document, décrites à la section 3.3.3 : Gaussienne/BIC suivie de GMM/CLR, selon un regroupement hiérarchique ascendant. La seule limite de

l’approche est la complexité du regroupement hiérarchique ascendant, qui est qua-dratique, ce qui implique qu’il existe une taille de collection limite pouvant être traitée selon cette approche.

Pour alléger la combinatoire du regroupement inter-document (celui-ci implique de calculer les distances entre toutes les paires de segments possibles), les auteurs ont également testé une architecture hybride, qui consiste à effectuer le regroupement Gaussienne/BIC au sein de chaque document séparément, afin de réduire le nombre de classes à comparer à l’échelle de la collection. Dans ce cas, seul le regroupement GMM/CLR est effectué sur l’ensemble des documents.

Cette architecture de regroupement global, illustrée par le figure 3.3 a été étudiée ces dernières années avec plusieurs variantes [Bourlard et al., 2013; Dupuy et al., 2012a; Ferràs and Bourlard, 2012; Ghaemmaghami et al., 2013] portant principale-ment sur les critères de regroupeprincipale-ment (hiérarchique Ward ou à saut maximum, ILP) et les modèles de représentation des locuteurs (modèles JFA, i-vector), de calcul de scores (divergence KL, cosine, PLDA).

Document C

Document A Document B Document D

Chronologie des documents

SRL SRL SRL SRL Regroupement Collection Indexée Intra-document Inter -document Regroupement Regroupement

Figure3.4 – Principe du regroupement incrémental pour la SRL de collection.

3.4.3 Regroupement Incremental

L’approche incrémentale répond à un besoin applicatif courant, où la collection s’enrichit avec le temps. En effet, l’approche globale pose deux problèmes majeurs. D’une part, elle est très consommatrice de ressources, puisqu’à chaque nouvel épi-sode, le regroupement est refait de manière globale, jusqu’à un point où la quantité de données à traiter est trop importante pour les ressources disponibles. D’autre part, à chaque nouvel épisode, le regroupement global peut remettre en question les regroupements entre les épisodes précédents. Applicativement, pour un utilisateur humain, il est difficile d’attribuer une identité à un label qui serait susceptible de changer à chaque nouvel épisode traité, c’est déroutant. Pour pallier le problème,

3.5. EVALUATION DE LA STRUCTURATION DES COLLECTIONS 39

Documents relatifs