• Aucun résultat trouvé

Évaluation de l’influence de la quantité et de la qualité des données

Annexe V. Code de procédure de l’International Association for Forensic Phonetics (IAFP)

VIII. É VALUATION DU SYSTEME

8.6. Évaluation de l’influence de la quantité et de la qualité des données

8.6.1. Influence du type d'élocution lors de l'enregistrement des

modèles

8.6.1.1. Procédure

La qualité du modèle réalisé à partir de la voix de la personne suspectée est susceptible de varier en fonction du type d'élocution adopté, parole lue ou parole spontanée. L’influence de ce paramètre est évaluée à l'aide des modèles «Session Comparaison » et «Session Polyphone 1 » des 32 participants à la base de données « Polyphone IPSC ». Ces deux sessions ont été enregistrées avec le même téléphone à une demi-heure d'intervalle. Le modèle provenant de la « Session Comparaison » est composé d’une quantité plus importante de parole spontanée que de parole lue, alors que le modèle issu de la « Session Polyphone 1 » est constitué en majorité de parole lue.

Comme il s'agit d'une comparaison directe des performances lorsque deux modèles différents sont utilisés, seule la situation où l'hypothèse H1 est vérifiée a été prise en compte dans

cette expérience. Les éléments de preuve E sont le résultat de la comparaison des enregistrements de test « Test 2 » à « Test 5 » de chacun des 32 locuteurs de la base de données « Polyphone IPSC », soit avec les modèles «Session Comparaison », soit avec les modèles «Session Polyphone 1 ».

Les rapports de vraisemblance de ces éléments de preuve sont calculés de la manière suivante : le numérateur équivaut à la densité de probabilité de l'élément de preuve E dans la distribution de la variabilité intralocuteur du locuteur dont provient l'enregistrement de test. Le dénominateur du rapport de vraisemblance équivaut à la densité de probabilité de l'élément de preuve E dans la distribution interlocuteur de l'enregistrement de test.

8.6.1.2. Résultats

Pour chaque locutrice et chaque locuteur, deux séries de quatre éléments de preuve, et delà deux séries de quatre rapports de vraisemblance, ont été calculées. Les résultats sont d'abord présentés de manière globale, pour les locutrices et pour les locuteurs. Ensuite, ils sont présentés de manière individuelle ; pour chaque locutrice et chaque locuteur deux rapports de vraisemblance moyens, exprimés en termes de logarithmes en base 10, sont calculés à partir des deux séries de rapports de vraisemblance, de manière à évaluer l'influence de la qualité des données qui constituent le modèle.

8.6.1.2.1. Type d'élocution lors l'enregistrement du modèle : évaluation globale

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.5 1 2 5 1 0 2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 LR supérieur à Probabilité

Session Comparaison (N = 64) Session Polyphone 1 (N = 64)

^ Locutrices 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.5 1 2 5 1 0 2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 LR supérieur à Probabilité

Session Comparaison (N = 64) Session Polyphone 1 (N = 64)

^

Locuteurs

Figure VIII.2. Résultat de l'évaluation globale des rapports de vraisemblance, en fonction du type d'élocution adopté lors de l'enregistrement des modèles

8.6.1.2.2. Type d'élocution lors l'enregistrement du modèle : évaluation individuelle

- 2 - 1 0 1 2 3 4 L 00 L 01 L 04 L 05 L 06 L 07 L 08 L09 L 32 L 33 L 44 L 49 L 54 L 55 L 58 L 59 Locutrices

Session Comparaison Session Polyphone 1

- 2 - 1 0 1 2 3 4 L10 L11 L12 L13 L14 L15 L16 L17 L18 L19 L20 L22 L39 L40 L41 L56 Locuteurs

Session Comparaison Session Polyphone 1

Figure VIII.3. Résultat de l'évaluation individuelle des rapports de vraisemblance moyens, en fonction du type d'élocution adopté dans l'enregistrement utilisé pour la modélisation de la voix

PARTIE III : RECHERCHE EXPERIMENTALE CHAPITRE VIII : ÉVALUATION DU SYSTEME 173

8.6.1.3. Discussion des résultats

L’influence du contenu et du type d’élocution adopté pour l’enregistrement du modèle n’est pas importante, ce qui confirme le caractère indépendant du texte de la méthode GMM. En effet, les résultats obtenus à partir d’un modèle formé de parole spontanée sont très proches de ceux tirés d’un modèle composé d’une majeure partie de parole lue, ce qui peut être observé tant de manière globale (Figure VIII.2) que de manière individuelle (Figure VIII.3). Ce résultat permet de choisir indifféremment une base de données composée de parole lue ou de parole spontanée pour l’évaluation de la variabilité interlocuteur.

Par contre, les résultats présentés de manière individuelle (Figure VIII.3) mettent encore une fois en évidence la différence qui existe entre la majorité des locuteurs, dont les tests fournissent des résultats conformes, et une minorité, les locuteurs L08, L12, L14, L49 et partiellement L19, dont les résultats sont contraires aux attentes (Figure VIII.2.).

8.6.2. Influence de la quantité de parole dans les enregistrements de

comparaison

8.6.2.1. Procédure

La qualité de l'évaluation de l'intravariabilité d'un locuteur est susceptible d'être influencée par la durée des enregistrements de comparaison utilisés à cet effet. L'influence de ce paramètre est évaluée à l'aide des enregistrements de comparaison nommés « Parole spontanée » des 32 participants à la base de données « Polyphone IPSC ». Ces enregistrements ont été séparés en deux groupes : le premier contient les énoncés de parole d'une durée de 0 à 4 s et le second les énoncés de parole de plus de 4 s.

Dans la situation où l'hypothèse H1 est vérifiée, les éléments de preuve E sont le résultat,

pour chaque personne de la base de données « Polyphone IPSC », de la comparaison des enregistrements de comparaison nommés « Parole spontanée » avec six modèles de sa propre voix : « Session Polyphone Cellulaire » et « Session Polyphone 1 » à « Session Polyphone 5 ».

Dans la situation où l'hypothèse H2 est vérifiée, les éléments de preuve E sont le résultat de

la comparaison de ces mêmes enregistrements de comparaison nommés « Parole spontanée » avec les modèles de la voix des 1000 locutrices et des 1000 locuteurs de la base de données « Polyphone Suisse Romande ».

Les rapports de vraisemblance de ces éléments de preuve sont calculés de la manière suivante : le numérateur équivaut à la densité de probabilité de l'élément de preuve E dans la distribution de la variabilité intralocuteur du locuteur dont provient l'enregistrement de comparaison. Le dénominateur du rapport de vraisemblance équivaut à la densité de probabilité de l'élément de preuve E dans la distribution interlocuteur de l'enregistrement de comparaison.

8.6.2.2. Résultats

Les personnes qui ont toujours utilisé le même téléphone sont évaluées indépendamment de celles qui ont utilisé des téléphones ou des lignes de téléphone différents pour l’enregistrement des modèles.

Modèles et enregistrements de comparaison enregistrés avec le même téléphone

Modèles et enregistrements de comparaison enregistrés avec des téléphones différents

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0 . 1 0 0 . 2 0 0 . 5 0 1 2 5 1 0 2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 LR supérieur à H1: 0 à 4 s (N = 168) H1: plus de 4 s (N = 510) H2: 0 à 4 s (N = 28000) H2: plus de 4 s (N = 86000) ^ Locutrices 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0 . 1 0 0 . 2 0 0 . 5 0 1 2 5 1 0 2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 LR supérieur à H1: 0 à 4 s (N = 108) H1: plus de 4 s (N = 1116) H2: 0 à 4 s (N = 12000) H2: plus de 4 s (N = 165000) ^ Locutrices 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 LR supérieur à H1: 0 à 4 s (N = 162) H1: plus de 4 s (N = 960) H2: 0 à 4 s (N = 27000) H2: plus de 4 s (N = 152000) ^ Locuteurs 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0 . 1 0 0 . 2 0 0 . 5 0 1 2 5 1 0 2 0 5 0 1 0 0 2 0 0 5 0 0 1 0 0 0 LR supérieur à H1: 0 à 4 s (N = 108) H1: plus de 4 s (N = 864) H2: 0 à 4 s (N = 23000) H2: plus de 4 s (N = 114000) ^ Locuteurs

Figure VIII.4. Résultat de l'évaluation globale des rapports de vraisemblance, en fonction de la durée de l'enregistrement de comparaison

8.6.2.3. Discussion des résultats

Il est normal de constater qu'une diminution de la quantité de parole dans les enregistrements de comparaison altère les performances du système de reconnaissance automatique de locuteurs. Cependant, l'influence de la quantité de parole qui compose les enregistrements de comparaison est plus importante dans le cas où l’enregistrement de tous les modèles provient du même téléphone que lorsqu'ils proviennent de téléphones différents. L'introduction de la variabilité concernant le canal de transmission conduit à des performances globales inférieures pour les locutrices et locuteurs qui ont utilisé plusieurs téléphones pour l'enregistrement des modèles. Dans le même temps, les rapports de vraisemblance obtenus lorsque l'hypothèse H1 est vérifiée diminuent et les rapports de vraisemblance obtenus lorsque l'hypothèse

H2 est vérifiée augmentent (Figure VIII.4.).

Dans le domaine forensique, ce résultat indique que les personnes mises en cause dont la voix est modélisée pour les besoins de l'enquête doivent utiliser des téléphones différents pour