• Aucun résultat trouvé

Évaluation d’une méthode de reconnaissance auto matique de locuteurs

Annexe V. Code de procédure de l’International Association for Forensic Phonetics (IAFP)

II. L A VOIX COMME INDICE MATERIEL

3.6. Évaluation d’une méthode de reconnaissance auto matique de locuteurs

La difficulté à définir l’information analysée, l’information dépendante du locuteur, rend la phase d’évaluation d’une méthode de reconnaissance automatique de locuteurs difficile et plus onéreuse que sa phase de mise au point, en termes de moyens et de travail. Trois approches ont été proposées pour l’évaluation de l’efficacité de ces méthodes : l’établissement de modèles théoriques, la comparaison de modèles théoriques et l’évaluation empirique [CAPPE, 1995].

3.6.1. Établissement de modèles théoriques

L’établissement de modèles théoriques peut permettre de dégager de grandes tendances, comme la démonstration que la classification est une tâche plus difficile que la discrimination, dans le cas d'un grand nombre de locuteurs [DODDINGTON, 1985]. La modélisation complète du fonctionnement d’une méthode reste toutefois d’une utilité assez limitée, car en général elle ne correspond que de très loin au fonctionnement en situation réelle [CAPPE, 1995].

3.6.2. Comparaison de modèles théoriques

Il est parfois possible de comparer des techniques sur la base d’arguments théoriques sans recourir à l’expérimentation. Ce type de démarche a notamment été utilisé pour sélectionner les caractéristiques du signal de parole les plus appropriées pour la reconnaissance [DASET MOHN, 1971 ; SAMBUR, 1975 ; ATAL, 1976 ; CHEUNG ET EISENSTEIN, 1978]. Cependant, comme le relève avec pertinence CAPPE, il est malheureusement impossible de progresser dans ce domaine sans recours

à la modélisation ou à la définition d’hypothèses de travail ne correspondant qu’imparfaitement à la réalité [CAPPE, 1995].

3.6.3. Évaluation empirique

Avec l’arrivée de nouvelles méthodes de reconnaissance au début des années 1980, l’évaluation empirique a supplanté la comparaison des modèles théoriques. Cette évolution s’explique, d’une part, par la difficulté d’analyse théorique de ces méthodes complexes et, d’autre part, par le développement de la micro-informatique, qui a rendu cette évaluation possible [CAPPE, 1995]. L’évaluation empirique constitue une méthode de validation très satisfaisante car elle permet d’obtenir directement une estimation de la fiabilité en situation réelle. Dans le cas forensique cette phase d'évaluation consiste à observer l'adéquation entre l'estimateur du rapport de vraisemblance ( LR^ ) et la réalité. Cette stratégie est en ce sens beaucoup plus efficace que les arguments théoriques, qui ne peuvent être utilisés que pour comparer différentes méthodes entre elles. Toutefois, ce caractère empirique limite l’interprétation et le domaine de validité des résultats aux enregistrements de qualité comparable à celle des enregistrements utilisés dans la phase d’évaluation.

PARTIE I : APPROCHE THEORIQUE CHAPITRE III : MERTHODOLOGIE 51

3.6.4. Choix d’une méthode d’évaluation

L’évaluation empirique d’une méthode de reconnaissance automatique de locuteurs en vue de son application forensique se révèle particulièrement difficile, puisque la maîtrise des paramètres qui conditionnent la qualité des enregistrements présentés comme indices est inexistante, à l’exception de ceux concernant le système d’enregistrement 26. Elle constitue

néanmoins le meilleur moyen d’estimer les performances du système développé dans le cadre de cette recherche.

3.6.4.1. Critères de sélection des bases de données

Une procédure de reconnaissance automatique de locuteurs nécessite la constitution de deux bases de données. La première sert à estimer la variabilité interlocuteur à l’intérieur de la population des locuteurs qui sont potentiellement à l’origine de l’enregistrement considéré comme indice. La seconde, de plus petite taille, permet l’estimation de la variabilité intralocuteur de la ou des personne(s) suspectée(s) d’être la source de l’indice. En sciences forensiques, ces concepts d'intravariabilité et d'intervariabilité ont été initiés par TIPPETET AL., dans le domaine de

l’interprétation des résultats d’analyse de peintures automobiles, sous les dénominations respectives de within source comparison et de between source comparison [TIPPETET AL., 1968].

3.6.4.1.1. Détermination de la langue parlée

L’écoute de l’enregistrement considéré comme indice permet de déterminer la langue parlée et l’accent régional du locuteur inconnu, de manière subjective mais fiable 27 ; dans une moindre

mesure le sexe de la personne inconnue peut être déterminé, notamment sur la base de la hauteur de la fréquence fondamentale de sa voix 28. D’autres critères de qualification, fondés sur la qualité

de la voix ou sur une proximité auditive, peuvent être envisagés à petite, mais pas à grande échelle ; de plus ces critères restent difficiles à systématiser.

3.6.4.1.2. Estimation de la variabilité interlocuteur

Les critères, mis en évidence lors de l’écoute initiale de l’indice, servent à définir la population des locuteurs qui en sont potentiellement l’origine et à sélectionner une fraction de ces personnes pour modéliser cette population d’auteurs potentiels. La qualité de la modélisation dépend de la taille de la base de données et de la justesse avec laquelle celle-ci représente la population potentielle.

Le rôle de cette première base de données consiste à mesurer la variabilité interlocuteur, c’est-à-dire à calculer la distance mathématique ou la proximité statistique entre l’indice matériel et la voix des locuteurs de la population potentielle. Cette estimation empirique est réalisée en

26 supra : 2.3. Collecte de l’indice matériel

27 supra : 2.3.7.1. Influence de l’investigation préliminaire 28 infra : 4.3.3.3.6. Détermination du genre du locuteur

comparant la voix de l’indice avec chacun des modèles des voix des locuteurs de la première base de données.

3.6.4.1.3. Estimation de la variabilité intralocuteur

Cette base de données est constituée des enregistrements de la personne suspectée d’être la source de l’indice. Le rôle de cette base de données consiste à mesurer la variabilité intralocuteur de la personne mise en cause, c’est-à-dire à mesurer la distance mathématique ou la proximité statistique des énoncés de cette personne avec les modèles de sa propre voix. Deux types d’enregistrement lui sont demandés : Premièrement l’enregistrement de plusieurs sessions en tous points analogues aux sessions existant dans la base de données interlocuteur, si possible réparties sur une période de temps comparable à celle de l’affaire, pour permettre une évaluation de la variabilité intralocuteur sur la même durée ; deuxièmement, l’enregistrement d’une longue session, de 5 à 15 minutes selon les locuteurs, de manière à modéliser la variabilité intralocuteur dans différentes situations et divers styles d’élocution.

3.6.4.1.4. Constitution d’enregistrements de test

Pour les besoins de cette recherche, les personnes sélectionnées pour jouer le rôle des personnes mises en cause ont aussi contribué à constituer un ensemble d’enregistrements de test, simulant les indices qui peuvent être rencontrés en cas d’abus de téléphone ou de mesure de surveillance.

3.7. Conclusion

Premièrement, cette analyse méthodologique met en évidence la nécessité de présenter l’état de l’art dans le domaine de la reconnaissance de locuteurs en sciences forensiques. Elle montre deuxièmement que la démarche scientifique est une démarche appropriée pour parvenir à cette présentation de l’état de l’art. Troisièmement, l’analyse des différentes méthodes pratiquées pour la reconnaissance de locuteurs en sciences forensiques conduit à considérer l’approche automatique d’un point de vue théorique et expérimental, plutôt que les approches auditive ou spectrographique. Quatrièmement, le résultat de l’étude des différents processus d’inférence de l’identité envisagés pour la reconnaissance de locuteurs en sciences forensiques indique la conformité logique et légale de l’approche par évaluation de rapports de vraisemblance. Finalement, l’évaluation empirique est considérée comme le meilleur moyen d’estimer les performances du système de reconnaissance automatique de locuteurs développé dans le cadre de la recherche théorique et expérimentale.

P

ARTIE

2