• Aucun résultat trouvé

Nous terminons cet état de l’art par un tour d’horizon de la littérature sur les méthodes de détection de violence, organisé en trois sections. Dans un premier temps, nous présentons les types d’évènements liés à la violence. Nous présentons aussi les contenus les plus cités dans la littérature, puis les modalités les plus utilisées.

1.3.1 Violence dans la littérature

Il semble que la littérature dédiée à la détection de violence ne propose pas de définition générale de la violence. Les auteurs se contentent en général de donner des définitions très précises, applicables à des travaux très spécifiques, comme la violence dans le sport. Aucun de ces travaux ne propose de définition de la violence qui soit plus générale, et qui puisse s’adapter à tous les types de contenus. Par exemple, Chen et al. [23] se sont concentrés sur “une série d’actions humaines accompagnées de saigne-ments”, Souza et al. [40] et Nievaset al. [100] sur “des scènes contenant des combats, quels que soient leur contexte et le nombre de personnes impliquées”. Quant à Gianna-kopoulos et al. [55], ils se sont intéressés à “des humains qui, intentionnellement, me-nacent, tentent ou effectivement infligent de la douleur physique à d’autres humains”. Pour finir, Gong et al. [56] cherchent à détecter “des scènes rapides contenant des ex-plosions, des coups de feu ou des combats entre humains”. Ce manque de définition

Détection de violence 35

commune implique directement un manque de jeux de données commun et général, et le faible nombre de jeux de données développés sont dédiés à des évènements violents très spécifiques.

Il faut aussi noter que la notion de violence dans la littérature scientifique semble fortement corrélée avec la notion d’action, ou de combat. Nous présentons donc des articles portant à la fois sur la détection d’actions, de combats et/ou de violence. Par exemple, Chen et al. présentent deux systèmes similaires pour détecter les scènes d’action [24], puis pour détecter les scènes violentes [23]. Il semble cependant que la définition de d’action dans [24] et de violence dans [23] soit très similaire. La définition d’action utilisée par Wang et al. [130] semble aussi très corrélée à la définition de violence, car elle inclut les scènes de combat et d’explosion, pouvant être liées à la violence.

1.3.2 Contenus ciblés

La détection de violence peut s’appliquer à de nombreux contenus. Par exemple, on peut chercher à détecter les combats dans un système de vidéo surveillance [26], ou dans les vidéos de sport [100], ou encore dans des vidéos synthétiques [37]. On peut aussi imaginer utiliser des vidéos issues de sites de partage de vidéos [40, 139], tel que Dailymotion. Mais le type de contenu le plus visé dans le littérature est sans conteste les films. Par exemple, Vasconcelos et al.[127] utilisent 23 bandes annonces de films pour classer les films par genre. Moncrieff et al. [96] s’intéressent à la mesure d’affect dans les films en cherchant des motifs particuliers dans le signal audio. Ils utilisent quelques échantillons extraits de deux films. Wang et al.[130] utilisent des plans vidéos extraits de cinq films d’action. Giannakopoulos et al. [53, 54, 55, 108] utilisent des extraits de films étiquetés violents ou non-violents. Enfin, Lin et al. [88, 87] utilisent cinq films divisés en deux parties : une partie test et une partie apprentissage.

On peut globalement noter le manque de base de données commune conséquente et publique dans le cadre des films, ce qui oblige les équipes souhaitant travailler sur le sujet à développer leur propre jeu de données. Cela ne permet évidemment pas de faire des comparaisons objectives entre les différents systèmes proposés.

1.3.3 Modalités utilisées

Il semble que la modalité vidéo soit celle qui rencontre le plus de succès dans la littérature. On peut citer notamment [127, 130, 24] pour les actions, [37, 100, 26] pour les combats ou [127, 40, 23] pour la violence directement. Concernant l’audio, on peut citer Moncrieff et al. [96] pour l’affect dans l’audio et Giannakopolous et al. pour la détection de violence directement à partir d’attributs [53] ou en passant par un étage intermédiaire de détection de concepts [54].

Il semble en revanche que les techniques récentes aient tendance à utiliser à la fois l’audio et la vidéo. Ainsi, Giannakopouloset al.[55, 108] ont fait évoluer leur système défini dans [54] pour inclure la modalité vidéo. Lin et al. [88, 87], Jiang et al. [66] et Ionescu et al.[61] sont d’autres exemples de techniques multimodales récentes. Citons

36 Indexation automatique de contenus vidéos

tout de même Nam et al. [99] comme l’une des premières publications multimodales sur la détection de violence.

Dans l’ensemble, les systèmes de détection de violence suivent le schéma habituel d’indexation de contenu. Les attributs audio et vidéos extraits sont souvent classiques, et les techniques de caractérisation utilisées se limitent généralement aux SVM et aux réseaux bayésiens. Assez peu d’évolutions significatives ont été apportés dans les sys-tèmes par rapport à la littérature sur l’indexation d’évènements. Cela peut être imputé à la nouveauté de l’application, et/ou à la difficulté lié à l’obtention et au partage des données.

Deuxième partie

Détection de concepts audio

Chapitre 2

De la difficulté de la tâche de

détection d’évènements dans les

films

Ce chapitre a pour but de mettre en avant les problématiques principales liées à l’indexation dans les films. Nous montrons tout d’abord quelles sont les spécificités des films par rapport à d’autres types de contenus tels que les vidéos YouTube. En nous appuyant sur la littérature, nous montrons qu’il y a un problème de généralisation lié à la détection de concepts dans les films. Nous constatons ce problème de manière expérimentale, avant de mettre clairement en avant le fait que ce problème peut être lié à une divergence statistique entre les films.

Documents relatifs