• Aucun résultat trouvé

Examen empirique de la gestion de l'affichage en vidéosurveillance

N/A
N/A
Protected

Academic year: 2021

Partager "Examen empirique de la gestion de l'affichage en vidéosurveillance"

Copied!
89
0
0

Texte intégral

(1)

Examen empirique de la gestion de l’affichage en

vidéosurveillance

Mémoire

Jean-Denis Latulippe-Thériault

Maîtrise en psychologie

Maître ès arts (M.A.)

Québec, Canada

(2)

Examen empirique de la gestion de l’affichage en

vidéosurveillance

Mémoire

Jean-Denis Latulippe-Thériault

Sous la direction de :

François Vachon, directeur de recherche

Sébastien Tremblay, codirecteur de recherche

(3)

Résumé

Des investissements substantiels sont effectués dans le domaine de la vidéosurveillance dans le but d’augmenter la sécurité du public et des infrastructures. Dans les salles de contrôle, l’opérateur humain doit surveiller un nombre de scènes visuelles qui dépasse généralement le nombre d’écrans disponibles. Dans ce contexte, deux approches de surveillance peuvent être privilégiées : la stratégie « paritaire », où une répartition égale dans l’affichage des caméras est favorisée, et la stratégie « prioritaire », où l’affichage de certaines caméras est priorisé par rapport aux autres. Toutefois, l’impact de ces stratégies de surveillance sur la performance de l’opérateur n’est toujours pas connu. La présente étude cherche à vérifier dans quelle mesure les deux stratégies sont utilisées naturellement par des surveillants non-experts, puis à évaluer leur impact sur la performance à l’aide d’une simulation réaliste de vidéosurveillance. Placés dans un contexte de surveillance de sécurité lors d’un festival extérieur, les participants doivent surveiller huit flux vidéo dans le but de détecter et rapporter des incidents (p. ex., un enfant disparu). L’interface ne permet toutefois d’afficher que six écrans à la fois. La stratégie de gestion de l’affichage des caméras utilisée est évaluée à l’aide d’un index mathématique basé sur le temps d’affichage des caméras. Cet index révèle que la stratégie prioritaire est utilisée par la majorité des sujets (60,3%). Cependant, le taux de détection des incidents ne diffère pas significativement selon la stratégie employée. Ainsi, il semble que la stratégie paritaire soit aussi valable que la stratégie prioritaire. En outre, le nombre de fausses alarmes est marginalement inférieur chez les surveillants paritaires. Ces résultats suggèrent qu’il n’est pas nécessaire de favoriser l’une des deux stratégies d’affichage à l’étude. Ainsi, le choix de la stratégie d’affichage pourrait revenir au surveillant (en fonction de ses préférences) et ne devrait pas nécessairement être imposé.

(4)

Abstract

Substantial investments are being made in the area of video surveillance in order to increase public and infrastructure safety. In control rooms, the operator must monitor a number of visual scenes that usually exceeds the number of screens available. In this context, two surveillance different approaches to surveillance may be favoured: the "equally distributed" strategy, where equal distribution in the display time of cameras is preferred, and the "prioritized" strategy, where the display duration of some cameras is longer compared to other feeds. However, the impact of these monitoring strategies on operator performances is still unclear. This study seeks to assess the extent to which both strategies are used spontaneously by (non-expert) operators, and then to assess their impact on performance using a realistic video surveillance simulation. Placed in a security monitoring environment at an outdoor festival, participants must monitor eight video streams for the purpose of detecting and reporting incidents (for example, a missing child). However, the interface can only display six screens at a time. The strategy for managing the display of the cameras used is evaluated using a mathematical index based on the display time of the cameras. This index reveals that the "prioritized" strategy is used by the majority of subjects (60.3%). Yet, the detection rate of incidents does not differ significantly according to the strategy used. These results suggest that the equally distributed strategy is equally valuable as the prioritized strategy. In addition, the number of false alarms is marginally inferior for participants who equally distributed video feeds. These findings suggest that it is unnecessary to favour one of the two camera display strategies under study. Thus, either of these strategies could be chosen by operators according to their preferences rather than being imposed.

(5)

Table des matières

Résumé ... iii

Abstract ... iv

Table des matières ... v

Liste des tableaux ... viii

Liste des figures ... ix

Liste des équations ... x

Remerciements ... xi

Introduction ... 1

Tâches de surveillance et environnement de travail ... 2

Configuration des salles de contrôle multi-écrans. ... 3

Types d’incidents à détecter en surveillance en sécurité publique. ... 4

Défis cognitifs en surveillance ... 5

Surcharge visuelle ... 6

Vigilance et charge de travail ... 7

Conscience de la situation ... 8

Cécité aux changements et cécité inattentionnelle ... 9

Stratégies de gestion de l’affichage des caméras disponibles ... 12

Objectifs et approche méthodologique ... 15

Méthode ... 18

Participants ... 18

Le micromonde CSSS ... 18

Stimuli. ... 21

(6)

Mesures ... 26 Classification subjective ... 26 Classification objective. ... 28 Calibration ... 31 Taux de détection. ... 31 Temps de détection. ... 32 Fausses alarmes. ... 32 Cécité inattentionnelle. ... 32 Résultats ... 34 Classification subjective ... 34 Classification objective ... 34 Calibration ... 34 Taux de détection ... 36 Temps de détection ... 37 Fausses alarmes ... 38 Cécité inattentionnelle ... 39 Discussion ... 41

Influence de la stratégie utilisée sur la performance de détection ... 42

Formation et expertise ... 45

Limites méthodologiques ... 49

Retombées et pistes futures ... 50

Conclusion ... 52

Références ... 54

(7)

Annexe B : Questionnaire d'identification de la stratégie de gestion des caméras utilisée - V1 ... 70 Annexe C : Questionnaire d'identification de la stratégie de gestion des caméras utilisées - V2 ... 72 Annexe D : Liste des incidents et leurs classifications acceptées ... 76

(8)

Liste des tableaux

Tableau 1 : Répartition théorique du temps d’affichage des huit caméras lorsqu’une caméra est affichée pendant la durée totale de l’expérience ... 31 Tableau 2 : Répartition théorique du temps d’affichage des huit caméras lorsqu’une caméra n’est jamais affichée ... 31 Tableau 3 : Statistiques descriptives de l’index mathématique d’affichage selon la stratégie utilisée ... 34 Tableau 4 : Répartition des participants en fonction de la stratégie utilisée et du type de mesure ... 35 Tableau 5 : Taux de détection global ... 36 Tableau 6 : Tests t pour échantillons indépendants sur les moyennes de temps de détection pour les trois types d’incident selon la stratégie favorisée ... 38 Tableau 7 : Statistiques descriptives des fausses alarmes selon la stratégie utilisée ... 39 Tableau 8 : Statistiques descriptives des scores au test de Cécité Inattentionnelle en

fonction de la stratégie utilisée dans le micromonde CSSS ... 40 Tableau 9 : Répartition des participants en fonction de la stratégie utilisée dans le

micromonde CSSS et de la détection de l’incident inattendu du test de Cécité

(9)

Liste des figures

Figure 1. Micromonde CSSS ... 20

Figure 2. Interface de surveillance ... 20

Figure 3. Capture d’écran du panneau Rappel accessible via le bouton rappel ... 21

Figure 4. Capture d’écran du panneau Renseignements accessible via le bouton renseignements ... 21

Figure 5. Capture d’écran des huit flux vidéo. ... 23

Figure 6. Exemples des trois types d’incidents ... 24

Figure 7. Taux de détection par type d’incident ... 37

(10)

Liste des équations

Équation 1. Temps d'affichage théorique ... 28

Équation 2. Temps d'affichage observé ... 29

Équation 3. Une caméra toujours affichée ... 30

(11)

Remerciements

En premier lieu, je souhaite dédier ce mémoire à mon père, Denis Thériault, pour qui l’éducation était une valeur fondamentale et qui a su me transmettre sa grande curiosité, sa ténacité ainsi que l’importance de relever des défis.

Je tiens à remercier spécialement François Vachon et Sébastien Tremblay de m’avoir accordé leur confiance en me donnant l’opportunité de travailler au sein d’un programme de recherche stimulant à saveur technologique. Sans votre soutien financier et académique tout au long de mon parcours, ce mémoire n’aurait pu être réalisé. Je remercie également Daniel Lafond d’avoir généreusement accepté de participer à ce mémoire par le biais de ses suggestions et commentaires. Merci également d’avoir été un excellent superviseur dans le cadre de mon stage de maîtrise. I also want to express my gratitude to Joel Suss, who carried out a rigorous and fundamental work throughout the development of the CSSS platform. Our multiple—yet insightful—conversations significantly helped me to develop my English writing and speaking. Sachez que vos compétences professionnelles et scientifiques, ainsi que l’intelligence et la rigueur dont chacun de vous avez fait preuve m’ont poussé à me dépasser. Vous me servirez de modèle pour les années à venir !

Mon parcours aux études graduées n’aurait pas été le même sans mes ami(e)s et collègues du deuxième sous-sol. Merci pour votre soutien. Vous avez toutes mes félicitations pour avoir endurée mon sarcasme si longtemps ! Je tiens également à saluer le travail d’Ariane Dallaire et de Félix Veillette qui ont su accomplir leurs tâches d’assistant de recherche avec rigueur et efficacité. Finalement, je remercie particulièrement ma mère Louise Latulippe et ma fiancée Meggie Carrier pour leurs encouragements constants et leur support inconditionnel sans lesquels ce projet fou n’aurait pu être complété.

(12)

Introduction

La vidéosurveillance est un domaine de la sécurité publique visant à protéger les individus, les infrastructures et les lieux publics contre le terrorisme, l’agitation civile et l’activité criminelle. Son utilisation est en croissance à travers le monde depuis plusieurs années (Dailey, 2013; La Vigne & Lowry, 2011; Whitson, Doyle & Walby, 2009; Williams & Johnstone, 2000). Cette tendance est particulièrement forte au Royaume-Uni où le nombre de caméras est passé de 5 238 en 1997 (Armitage, 2002) à plus de 4 millions en 2013 (BISA, 2013, cité dans Reeve, 2013). En Amérique du Nord, d’importants investissements ont également lieu et peuvent s’expliquer par le rôle central que joue la vidéosurveillance dans l’identification des criminels lors d’incidents1 fortement médiatisés tel l’attentat du Marathon de Boston en 2013 (Dailey, 2013). Lorsque ce type d’incident se produit, les services policiers visionnent rétrospectivement des milliers d’heures de contenu vidéo afin de trouver des indices qui pourraient faire avancer l’enquête. Une surveillance en temps réel est aussi effectuée afin de prévenir des dangers dans différents contextes, tels les gares de train, les passages à niveau ou lors de grands rassemblements (voir Furlong & Keef, 2011; Wood, 2007; Wood, Freer, Grimes & Brook-Carter, 2007). L’opérateur humain travaille dans une salle de contrôle où il doit détecter les comportements suspects, reconnaître et identifier certaines cibles via une surveillance de plusieurs flux vidéo (Armitage, 2002; Hempel & Töpfer, 2004; Keval, 2009). Lorsque le nombre de caméras à surveiller dépasse le nombre d’écrans disponibles, l’opérateur est forcé de sélectionner un sous-ensemble de caméras

1

Il est à noter que le mot « incident » réfère dans ce texte aux évènements critiques que les opérateurs ont à détecter contrairement à son usage normal en langue française (c.-à-d. un évènement de moindre importance).

(13)

parmi les flux vidéo disponibles. La présente étude a pour but d’évaluer l’influence des principales stratégies de gestion d’affichage des caméras sur la performance de l’opérateur. Tâches de surveillance et environnement de travail

Dans les salles de contrôle en sécurité publique, la surveillance peut être réactive ou proactive (Keval, 2006; Keval & Sasse, 2008). Lorsque la surveillance est réactive (en réponse à un incident spécifique), il est attendu de l’opérateur qu’il identifie des individus ou des groupes d’individus à partir d’une description. Par exemple, les opérateurs peuvent être amenés à identifier et à suivre le déplacement d’un cambrioleur fuyant le lieu d’un crime ou à détecter l’apparition d’un individu porté disparu. En surveillance proactive, l’opérateur doit effectuer une recherche visuelle dont le but est de détecter des évènements suspects ou dangereux en se basant sur un ensemble de règles ou d’heuristiques. Ce type de surveillance nécessite une attention soutenue afin de détecter les incidents critiques en temps opportun. Par exemple, il peut être attendu de l’opérateur qu’il détecte une intrusion dans une zone sécurisée ou une bagarre qui éclate à la sortie d’un bar. Contrairement à la surveillance réactive qui a un but bien défini, les incidents à détecter en surveillance proactive peuvent ne jamais se produire. De plus, l’opérateur proactif doit généralement détecter tout évènement qui peut constituer un danger pour le public, et ce, sans connaître la nature de l’incident à détecter. Par exemple, ce type de surveillant peut avoir à détecter un individu ayant un malaise physique à l’intérieur d’une station de métro même s’il n’a pas reçu d’instructions à ce sujet.

Cette recherche visuelle dans le but de détecter des évènements rares existe aussi dans d’autres domaines, tels la surveillance de bagages et le contrôle aérien. Toutefois, contrairement aux images statiques utilisées en contrôle de bagages (voir Biggs & Mitroff, 2015), les images en sécurité urbaine comprennent souvent des foules en mouvement. Ce

(14)

type de scène visuelle dynamique représente une importante charge sur le système visuel de l’opérateur. Dans le domaine du contrôle aérien, l’opérateur doit surveiller et interagir de façon active avec des aéronefs qui sont en plein vol (p. ex., Metzger & Parasuraman, 2001). Le travail de l’opérateur en surveillance est plus passif, puisque ce dernier n’interagit pas de façon directe avec l’individu, le groupe d’individus ou l’objet qu’il surveille.

Configuration des salles de contrôle multi-écrans. Les composantes et les configurations des systèmes de surveillance peuvent varier grandement d’une salle de contrôle à une autre. Certains systèmes sont extrêmement sophistiqués et utilisent des technologies de vision nocturne, de détection de mouvements, de suivi automatique et des objectifs (« zoom ») puissants. Néanmoins, la plupart des installations existantes sont plus rudimentaires (Ratcliffe, 2006). En effet, Keval et Sasse (2008) rapportent qu’une seule des 13 salles de contrôle qu’ils ont visitées dans le cadre de leur étude observationnelle est équipée d’un système de surveillance automatisé. Dans plusieurs installations de vidéosurveillance, les écrans sont configurés de sorte qu’ils peuvent afficher plusieurs flux vidéo simultanément. De plus, une alternance du contenu affiché par ces écrans est observée lorsqu’un grand nombre de flux vidéo doivent être surveillés. Par exemple, dans une salle de contrôle visité pas Luff et Heath (1999), parmi les écrans qui composent un mur vidéo, certains écrans affichent continuellement les mêmes flux vidéo, d’autres alternent l’affichage d’un groupe de caméras ou sont dédiés à l’affichage de certains points de vue spécifiquement sélectionnés par les opérateurs. Les 100 flux vidéo à surveiller par les opérateurs observés par Stainer, Scott-Brown et Tatler (2013) sont également affichés sur un mur vidéo. Celui-ci comprend 47 écrans dont plusieurs sont segmentés pour qu’ils puissent afficher simultanément quatre flux vidéo (habituellement des scènes à faible activité, p. ex, des stationnements). D’autres écrans alternent l’affichage séquentiel et automatique d’un

(15)

maximum de cinq caméras pendant quelques secondes. Des écrans conçus pour l’inspection détaillée (« spot monitors ») sont également mis à disposition des opérateurs directement sur leur bureau. Ces derniers permettent la sélection puis l’affichage d’un seul flux vidéo à la fois.

Les opérateurs observés par Gill, Allen et leurs collaborateurs (2005) utilisent généralement leur mur vidéo de manière à obtenir un aperçu rapide de la zone sous surveillance. Cependant, dans les salles de contrôle qui reçoivent un grand nombre de flux vidéo, il n’est pas toujours possible d’afficher toutes les caméras via le mur vidéo. Une des salles de contrôle visitées par ces auteurs reçoit au-dessus de 500 flux vidéo, qui sont affichés sur 50 écrans. Ainsi, les opérateurs ont seulement un aperçu de 10% de la zone à surveiller simultanément. Afin d’augmenter le nombre de caméras visibles en simultané, certaines salles de contrôle affichent quatre caméras et plus sur bon nombre de leurs écrans (multiplexage). Toutefois, cette solution réduit significativement la taille des images, ce qui rend la détection d’incidents plus difficile. Gill, Allen et leurs collaborateurs (2005) soulignent que même en utilisant le multiplexage, certaines salles de contrôle n’arrivent pas à afficher tous les flux vidéo à surveiller simultanément. Dans ce type de salle de contrôle, les opérateurs doivent bien souvent effectuer eux même la sélection des flux vidéo à surveiller (p. ex., Gill, Allen et coll., 2005; Stainer et coll. 2013). De manière générale, il y a surabondance d’écrans à surveiller dans les salles de contrôle et les manières de les afficher sont multiples. La présente étude s’intéresse précisément à ce contexte de surveillance et a pour objectif global de mieux comprendre les stratégies de gestion de caméras utilisées naturellement par les opérateurs en vidéosurveillance, et leurs impacts sur la performance.

Types d’incidents à détecter en surveillance en sécurité publique. L’opérateur en sécurité publique a plusieurs types d’incidents à détecter. Celui-ci peut avoir à utiliser des

(16)

informations qui lui sont fournies par les autorités afin de guider sa recherche d’incidents spécifiques. Par exemple, les services de police peuvent demander aux opérateurs de surveiller des incidents spécifiques qui peuvent se produire dans des lieux spécifiques (p. ex., une intrusion dans une zone interdite au public). De plus, en situation de surveillance réactive, les opérateurs doivent généralement rechercher des individus disparus ou recherchés (p. ex., des terroristes suite à un attentat). Il arrive également que les opérateurs aient à surveiller de manière proactive les différentes caméras à la recherche de tout événement suspect ou dangereux (p. ex., un individu se déplaçant avec une arme à feu). La simulation utilisée dans la présente étude intègre des incidents fictifs qui sont liés aux trois types de tâches de surveillance que doit effectuer l’opérateur : les incidents dont le lieu et la nature sont connus (p. ex., une intrusion au Parlement), les incidents dont le lieu est inconnu, mais dont la nature est connue (p. ex., un enfant perdu) et les incidents dont le lieu et la nature sont connus (p. ex., une bagarre). Ces incidents varient en fonction des renseignements fournis aux participants et permettent de vérifier si la stratégie de gestion d’affichage des caméras a un impact sur leur temps et leur taux de détection.

Défis cognitifs en surveillance

La surveillance proactive demande une attention visuelle constante dans le but de détecter des incidents rares (p. ex., attentat) ou qui se produisent à une fréquence effrénée (p. ex., actes violents et de vandalisme lors d’une émeute). Il est attendu des opérateurs qu’ils détectent le plus rapidement possible tout incident pouvant mettre en danger la sécurité du public. Toutefois, certaines études suggèrent que l’efficacité des opérateurs n’est pas optimale. Par exemple, l’étude de cas effectué par Gill, Little et leurs collaborateurs (2005), révèle que dans les contextes où les incidents sont peu fréquents et qu’un faible pourcentage des caméras est visible simultanément, très peu d’incidents sont détectés en temps réel. Il est

(17)

à noter que plusieurs problèmes vécus par les opérateurs sont liés aux défis cognitifs inhérents aux tâches qu’ils ont à effectuer et à l’environnement dans lequel ils travaillent. Ceux-ci doivent être pris en compte afin que les surveillants puissent atteindre un niveau d’efficacité plus optimal (van Voorthuijsen et coll., 2005).

Surcharge visuelle. L’impossibilité de concentrer son attention sur plus d’un écran à la fois amène l’opérateur à déplacer son attention d’une scène visuelle à une autre. Sachant l’impact négatif que peut avoir l’alternance de tâche sur la performance (cf. Monsell, 2003), il est fort possible que le déplacement de l’attention sur les différents écrans réduise l’efficacité de la surveillance. Malgré ces risques, le déclin du coût des systèmes de vidéosurveillance et l’amélioration des techniques de transmission d’images ont facilité la création de salles de contrôle où jusqu’à 50 écrans peuvent diffuser des images en simultané (Troscianko et coll., 2004). Quelques auteurs ont effectué des études empiriques dans le but de mieux comprendre la performance humaine en contexte de surveillance multi-écrans (cf. Stedmon, Harris & Wilson, 2011; Tickner, Poulton, Copeman & Simmonds, 1972; van Voorthuijsen et coll., 2005; Wallace, Diffley, Baines & Aldridge, 1997; Wood, 2007; Wood, Freer, Frimes & Brook-Carter, 2007). Dès 1972, Tickner et ses collaborateurs testent la performance de surveillants qui doivent observer 16 ou 24 écrans pendant une heure. Leurs résultats révèlent que le fait d’avoir un plus grand nombre d’écrans à surveiller réduit significativement le taux et la vitesse de détection des surveillants. Les résultats de Wallace, Diffley, Baines et Aldridge (1997), de van Voorthuijsen et ses collaborateurs (2005) et de Finnegan (2011) révèlent cette même tendance en comparant les taux de détection générés lorsqu’il y a entre 1 et 9 écrans à surveiller simultanément. Seuls les résultats de Wood, Freer, Grimes et Brook-Carter (2007) font exception alors que leurs participants obtiennent des taux de détection équivalents, qu’ils aient à détecter des incidents sur 4, 6, ou 12 écrans. L’analyse

(18)

de la vitesse de détection révèle tout de même une augmentation significative du temps de réponse parallèlement à l’augmentation du nombre d’écrans à surveiller. En somme, ces études indiquent que le nombre d’écrans à surveiller est un des principaux facteurs réduisant l’efficacité des opérateurs. D’ailleurs, un sondage mené par Wallace, Diffley & Aldridge (1997) révèle que plus de la moitié des opérateurs interrogés se sentaient capables de surveiller uniquement une à quatre caméras simultanément. Devant une telle pression sur le système perceptif visuel, l’opérateur humain risque de manquer des incidents qui se produisent sous ses yeux et qui dans certains cas, peuvent avoir des répercussions catastrophiques (p. ex., attentats meurtriers).

Vigilance et charge de travail. En vidéosurveillance, le concept de vigilance réfère à la capacité de surveiller plusieurs écrans de manière attentive durant de longue période de temps. La surveillance proactive, où les incidents doivent être détectés en temps réel, demande une vigilance soutenue pendant plusieurs heures. Il n’est pas rare que les opérateurs aient à effectuer des quarts de travail de 12 heures (Donald, Donald, & Thatcher, 2015; Keval & Sasse, 2008). Toutefois, Wallace et Diffley (1998a) rapportent que les opérateurs se sentent capables de surveiller efficacement un maximum de deux heures. En fait, certains auteurs affirment qu’après 10 minutes de surveillance active, le taux de détection des opérateurs diminue drastiquement (Meuter & Lacherez, 2016).

Stearman et Durso (2016) explorent l’influence de la charge cognitive induite par la complexité des consignes sur la vigilance à l’aide d’un micromonde qui simule le travail d’opérateurs dans le domaine du contrôle du trafic aérien. Ces auteurs ont créé une condition expérimentale dans laquelle les participants doivent gérer des évènements spécifiques (échecs des systèmes de pilotage automatique), par le biais de plusieurs interventions (rediriger et modifier l’altitude des aéronefs) qui varient en fonctions des deux corridors de

(19)

vol à sécuriser. Leurs analyses révèlent que la charge cognitive qui découle de la complexité de la tâche réduit significativement le niveau de vigilance de leurs participants. Donald (2001) souligne également l’influence de la charge de travail dans la diminution du niveau de vigilance. Lorsque l’opérateur est submergé d’informations visuelles et qu’il doit composer avec une forte pression temporelle (charge de travail élevée), son niveau de vigilance et la performance qui en découle diminuent. Toutefois, une charge de travail trop faible risque de générer un manque de stimulation qui rend le travail à effectuer ennuyeux et provoque un désengagement envers l’activité en cours. Lorsque l’opérateur fait face à une surcharge de travail, celui-ci peut gérer la situation en effectuant une priorisation de certaines scènes visuelles à surveiller. Cependant, la concentration de l’attention sur certaines zones à surveiller peut réduire le niveau de vigilance alloué à d’autres scènes qui doivent également être surveillées. Sur le terrain, les opérateurs de radars de l’étude de Mackie, Wylie et Smith (1985) jugent que la monotonie, la fatigue et la surcharge de travail sont des facteurs qui réduisent substantiellement leur niveau de vigilance et leur efficacité générale.

Conscience de la situation. L’interprétation et la détection en temps opportun d’incidents potentiels lors de tâches de surveillance dynamiques nécessitent un haut niveau de conscience de la situation (cf. Endsley, 1995). Les opérateurs doivent dans un premier temps percevoir toute information provenant de l’environnement de surveillance (écrans multiples, messages radio); comprendre la situation, via un modèle mental généré suite à l’intégration des informations qui leur parviennent; puis finalement, prévoir les incidents potentiels qui peuvent découler de la scène se produisant sous leurs yeux (p. ex., les comportements de foule qui précédent une émeute).

Les processus impliqués dans l’attention et la mémoire de travail jouent un rôle essentiel dans l’acquisition, le maintien et l’interprétation des informations provenant d’une

(20)

scène visuelle dynamique et par le fait même, participent à la formation d’une conscience de la situation optimale (Carretta, Perry, & Ree 1996). En surveillance multi-écrans, les informations qui représentent la situation en cours sont distribuées sur plusieurs scènes visuelles qui ne sont pas toujours affichées sur les écrans disponibles et dans lesquelles d’innombrables changements peuvent se produire. À cette charge cognitive élevée peut s’ajouter d’autres facteurs nuisibles à la conscience de la situation, par exemple, le changement fréquent des sources vidéo affichées sur les multiples écrans, les interruptions et la fatigue. Ainsi, l’environnement de travail de l’opérateur en vidéosurveillance semble être défavorable au développement et au maintien d’une conscience de la situation optimale, cette situation l’empêcher de détecter des incidents critiques en temps opportun ou alors de mal les interpréter.

Cécité aux changements et cécité inattentionnelle. Il peut sembler évident que des évènements subtils et difficilement perceptibles ne soient pas toujours détectés par les surveillants. Toutefois, des changements particulièrement saillants (qu’ils soient attendus ou non) d’une scène visuelle peuvent également passer inaperçus. Ce type d’échec de la détection visuelle largement étudié fait référence aux phénomènes de cécité inattentionnelle (CI, voir, Mack & Rock, 1998; Most, Scholl, Clifford, & Simons, 2005) et de cécité aux changements (CaC, voir, Rensink, O’Regan, & Clark, 1997). Dans les paradigmes expérimentaux utilisés afin d’observer ces phénomènes, les changements à détecter peuvent être attendus (CaC) ou inattendus (CI). Une distinction similaire existe aussi dans le domaine de la surveillance. En effet, le lieu et la nature des incidents à détecter peuvent être connus (p. ex., l’obstruction d’un passage à niveau), ou inconnus (bris d’infrastructure, incendie).

Afin d’étudier le phénomène de CaC, Rensink, O’Regan et Clark (1997) utilisent le paradigme du clignotement, dans lequel on demande aux participants de chercher activement

(21)

un changement entre deux images présentées en alternance. Lorsque rien ne sépare les deux images, la différence est détectée rapidement. Toutefois, lorsqu’une image vide est insérée entre les deux images, les participants prennent significativement plus de temps pour détecter le changement que lorsque l’écran vide séparant les deux images est absent. Par exemple, ces auteurs démontrent que le clignotement rend difficile la détection du changement de la hauteur d’un mur situé derrière une statue. Cette technique bloque la réception automatique par le système visuel du signal de transition que produit un objet lorsqu’il subit un changement (Rensink, 2002). En vidéosurveillance, les opérateurs sont vulnérables à une forme de clignotement similaire lorsque les caméras affichées sur les écrans changent fréquemment (Pethick & Wood 1989). De plus, cette situation risque d’être aggravée par le fait que les scènes visuelles à surveiller sont complexes et dynamiques, contrairement aux images statiques présentées dans les paradigmes de CaC. En effet, les signaux de transition sont plus difficiles à détecter lorsqu’ils se produisent à l’intérieur d’une scène qui évolue continuellement et qui contient des distracteurs interférant avec les changements pertinents à la tâche (Boot, Kramer, Becic, Wiegmann, & Kubose, 2006). Par ailleurs, la surveillance de l’opérateur s’effectue sur plusieurs écrans et nécessite l’alternance de l’affichage de plusieurs flux vidéo de manière continue. L’étude de Vachon, Vallières, Jones et Tremblay (2012) révèle que l’échec de détection en situation complexe et dynamique n’est pas uniquement un phénomène perceptif. En effet, la surveillance de plusieurs sources d’information en évolution constante risque de surcharger les processus attentionnels automatiques impliqués dans la détection consciente de changements.

Afin d’étudier le phénomène de CI, Drew, Võ et Wolfe (2013) ont demandés à des radiologistes d’effectuer une tâche de détection de nodule sur des radiographies de poumons. Les résultats indiquent que 83 % des participants ne rapportent pas avoir vu une image de

(22)

gorille insérée dans une radiographie, et ce, même si la plupart l’ont regardé. Selon ces auteurs, les évènements saillants sont manqués, car l’individu est occupé à une autre tâche de recherche visuelle. De plus, il a été démontré que la CI a plus de chances de se produire lorsque les demandes attentionnelles de la tâche à effectuer sont grandes (Simons & Chabris, 1999) et lorsque la probabilité d’apparition d’évènements est faible (Steelman, McCarley & Wickens, 2013). Ces conditions sont remplies dans le domaine de la vidéosurveillance. D’une part, il est attendu de l’opérateur qu’il détecte plusieurs incidents sur différents écrans. Par conséquent, celui-ci doit composer avec une charge attentionnelle élevée. D’autre part, la probabilité d’occurrence des incidents peut être très faible et beaucoup de temps peut s’écouler entre ceux-ci. Par exemple, dans une étude observationnelle du travail de vidéosurveillance sur un campus universitaire, Smith (2004) mentionne qu’aucun incident n’est détecté sur une période de trois semaines sur les 11 caméras pourtant surveillées en continu. Néanmoins, le nombre élevé d’incidents qui se produisent lors d’une émeute risque également de détériorer la capacité de détection de l’opérateur. En effet, des écrits rapportent que la CI peut être exacerbée lorsque des évènements se produisent à un rythme élevé et qu’il y a des demandes visuelles concurrentes (Nikolic & Starter, 2001; Starter & Woods, 1994). Une augmentation de la CI est également observée lorsque des informations de nature visuospatiale doivent être maintenues en mémoire (Todd, Fougnie, & Marois, 2005), ce qui est particulièrement le cas lorsque l’on suit l’évolution d’évènements suspects sur plusieurs écrans. De plus, il a été démontré que la CI augmente en fonction de la charge en mémoire de travail (Fougnie & Marois, 2007). En somme, les écrits relevés à propos des phénomènes de CaC et de CI révèlent la vulnérabilité des opérateurs en surveillance de sécurité face à l’échec de détection.

(23)

Stratégies de gestion de l’affichage des caméras disponibles

Dans une tentative de gérer la surcharge visuelle des opérateurs, on retrouve dans certaines salles de contrôle une technologie qui automatise de la gestion de l’affichage des caméras. Celle-ci vise à simplifier l’utilisation du système et à maximiser le nombre de caméras présentées à l’opérateur (Somorin, 2015). Par exemple, à l’aide d’un commutateur (« switcher », voir Kruelgle, 2006), chaque caméra à surveiller peut être affichée séquentiellement sur un seul écran pendant quelques secondes (p. ex., 2-3 secondes). Toutefois, les écrans configurés pour alterner l’affichage de plusieurs caméras ne permettent aucun contrôle de la part du surveillant. Avec ce type de système, il est impossible de stopper l’alternance des images. Un cycle complet doit s’effectuer avant que l’opérateur puisse à nouveau inspecter une caméra spécifique. Ce type de gestion d’affichage automatique et séquentielle vise à optimiser le temps d’affichage de chaque caméra en imposant une répartition égale de l’affichage des zones à surveiller dans le temps. Étant donné qu’un poids égal (c.-à-d. un temps d’affichage égal) est attribué à chacune des caméras, cette stratégie de gestion de l’affichage des caméras semble particulièrement adaptée à la détection d’incidents dans les zones où la surveillance tend à être négligée (p. ex., Gill, Allen et coll., 2005).

Néanmoins, certains auteurs recommandent de ne pas utiliser ce type de technologie puisque les changements fréquents de scènes visuelles augmentent le risque que l’opérateur manque les signaux de transitions nécessaires à la détection de changements (Pethick & Wood, 1989). De plus, l’alternance rapide des caméras rend les changements qui s’y produisent sur une longue période de temps ainsi que les changements subtils de comportement plus difficiles à détecter (p. ex., l’anticipation de comportements violents dans une cour de prison). Selon Pethick et Wood (1989), les changements d’images automatiques sont particulièrement distrayants lorsqu’ils se produisent en vision périphérique. Malgré les

(24)

inconvénients liés à ce type de technologie, elle est présente dans plusieurs salles de contrôle (p. ex., Luff & Heath, 2001). Lorsque ce type de technologie y est absent, le défi que représente la surveillance de plusieurs caméras à l’aide d’un nombre restreint d’écrans demeure. C’est pourquoi il est possible que les surveillants tentent de répartir l’affichage de chaque caméra de manière égale. Toutefois, à ma connaissance, aucun écrit ne fait mention de ce type de comportement.

Un deuxième type de gestion des caméras émerge des écrits du domaine de la surveillance. Lorsque la gestion de l’affichage des caméras est laissée aux soins de l’opérateur, certains auteurs recommandent aux surveillants de choisir judicieusement les scènes visuelles à surveiller. Selon Wallace et Diffley (1998a), structurer les informations affichées sur les écrans de surveillance permet aux opérateurs de surveiller et d’évaluer les images plus efficacement. De plus, ces auteurs avancent que les images affichées sur un mur vidéo doivent présenter les zones les plus à risques. Toujours selon ces auteurs, une priorisation de certaines caméras est préférable à une surveillance aléatoire qui est jugée démotivante et moins efficace. Le guide de formation créé par Wallace et Diffley (1998b) énumère différentes compétences attendues chez l’opérateur. Par exemple, celui-ci doit être capable d’utiliser les renseignements fournis par le service de police afin d’identifier les zones à surveiller ou à ignorer. En somme, Wallace et Diffley (1998a, 1998b) recommandent aux opérateurs d’orienter leur surveillance en fonction des informations qu’ils reçoivent à propos du lieu et de la nature des incidents qui sont les plus probables de survenir.

Ces comportements de priorisation de l’affichage de certaines caméras sont également rapportés dans certains écrits. Dans leur étude, Stainer, Scott-Brown et Tatler (2013) observent deux opérateurs dans une salle de contrôle lors de trois quarts de travail (matin, après-midi et soir). Ces auteurs soulèvent le fait que la sélection de caméras varie

(25)

selon l’heure de la journée. En effet, certaines caméras placées devant des boîtes de nuit n’étaient pas du tout surveillées le matin et l’après-midi, alors qu’elles étaient largement inspectées lors de la surveillance nocturne. Ce type de comportement suggère que la sélection des scènes visuelles effectuée par les opérateurs repose entre autres sur leurs connaissances de la zone à surveiller et sur les probabilités d’occurrence d’incidents en fonction du moment de la journée. Stainer et ses collaborateurs identifient quatre sources d’où peuvent provenir la surveillance stratégique : les facteurs sociaux (zones associées au crime), le renforcement (biais spatial pour des zones où des incidents ont préalablement été détectés), l’activité (p. ex., mouvements de foules, trafic) et les instructions (p. ex., formations, renseignements).

Dans leur étude, Luff et Heath (2001) observent le travail des superviseurs du métro de Londres. Parmi les tâches qu’ils doivent effectuer, ces superviseurs doivent assurer une surveillance des différentes stations de métro à l’aide de plusieurs écrans. Différentes problématiques peuvent émerger telles la congestion des plateformes, les comportements violents de certains passagers et les évacuations suite à des feux ou à la présence de colis suspects. Dans la salle de contrôle, les superviseurs sélectionnent les images à afficher sur les écrans selon une configuration géographique, en fonction des responsabilités et des tâches qu’ils accomplissent. Par exemple, l’entrée des lignes de métro est un lieu où des incidents violents peuvent se produire (p. ex., les conflits à propos des billets non valides). La priorisation de l’affichage de certaines zones de la station de métro permet à l’équipe de surveillance de vérifier l’occurrence d’incidents dont la nature et le lieu sont connus. Dans un tel contexte, le type d’incident à détecter semble influencer grandement la gestion de l’affichage des caméras.

En bref, la gestion de l’affichage des caméras est une tâche centrale au travail de l’opérateur en surveillance qui risque d’avoir une incidence importante sur la performance

(26)

de détection des différents types d’incidents. Les écrits rapportés suggèrent qu’une plus grande importance devrait être attachée à certaines caméras dans le but d’augmenter la probabilité de détection des incidents pour lesquels l’opérateur détient des informations sur leurs lieux et leurs natures. Toutefois, l’adoption d’une stratégie de priorisation implique que certaines caméras sont moins surveillées. D’ailleurs, Gill, Allen et leurs collaborateurs (2005) rapportent que dans les salles de contrôle observées, la priorité accordée aux centres-villes fait en sorte que les incidents se produisant dans les zones résidentielles sont moins souvent surveillés. Il semble donc possible que les incidents inattendus (c.-à-d., pour lesquels l’opérateur ne détient pas d’information précise), qui par définition peuvent se produire sur n’importe quelle caméra, soient détectés moins souvent.

Objectifs et approche méthodologique

Pour faire face aux multiples défis présents en vidéosurveillance, l’opérateur humain doit allouer ses ressources cognitives limitées de manière optimale. Les technologies d’automatisation de l’affichage visent à supporter l’opérateur en favorisant une présentation paritaire, c’est-à-dire une distribution égale de l’affichage des caméras dans le temps. Lorsque ce type d’outil est absent, les surveillants doivent effectuer eux même la sélection des caméras. Il est donc possible que ceux-ci tentent de reproduire manuellement cette approche de gestion des caméras. D’autre part, les écrits révèlent qu’une priorisation dans l’affichage de certains flux vidéo est observée dans les salles de contrôle (Gill, Allen et coll., 2005) et recommandé par certains auteurs (Wallace & Diffley, 1998b). Le premier objectif de la présente étude est donc de vérifier dans quelle mesure les stratégies paritaire ou prioritaire sont utilisées naturellement par les surveillants.

Ces deux stratégies semblent être avantageuses sur le plan de la détection de différents types d’incidents. En effet, avec l’approche prioritaire, il est attendu des surveillants qu’ils

(27)

affichent plus longtemps certaines caméras sur la base de renseignements qui leur sont fournis à propos des incidents qui peuvent s’y produire (Wallace & Diffley, 1998b). Cette stratégie risque d’avantager la détection du type d’incident dont le lieu et la nature sont connus (p. ex., une intrusion dans une zone sécurisée). Néanmoins, cette stratégie implique un certain désengagement envers la surveillance de certaines caméras. Ainsi, les incidents qui se produisent dans les zones négligées risquent de passer inaperçus. L’approche de surveillance paritaire, quant à elle, en cherchant à accorder un temps d’affichage égal à chaque caméra, vise à ce qu’aucune des zones à surveiller ne soit négligée. Il est donc possible que cette stratégie avantage la détection des incidents plus inattendus. C’est-à-dire, les incidents pour lesquels le lieu est inconnu et la nature est connue (p. ex., les individus recherchés) ainsi que les incidents pour lesquels le lieu et la nature sont inconnus (p. ex., les actes de vandalisme). Le deuxième objectif de la présente étude est donc de tester empiriquement l’effet de ces deux stratégies de gestion de l’affichage des caméras sur la performance des surveillants en fonction des trois types d’incidents retrouvés en surveillance. Pour ce faire, la présente étude utilise un micromonde qui simule de manière hautement réaliste une salle de contrôle de surveillance. Des surveillants non-experts jouent le rôle d’opérateurs en surveillance de sécurité lors d’un festival extérieur et doivent surveiller huit flux vidéo dans le but de détecter et de rapporter les incidents qui peuvent s’y produire. L’interface ne permet toutefois d’afficher que six écrans à la fois, ce qui force les sujets à effectuer une gestion de l’affichage des caméras. Cette caractéristique n’est pas banale puisqu’elle permet de reproduire un contexte où l’opérateur doit surveiller et afficher manuellement plus de caméras qu’il y a d’écrans disponibles. Il est à noter qu’au moment où la présente étude est rédigée, les ouvrages empiriques qui s’intéressent à la performance en vidéosurveillance multi-écrans utilisent des micromondes qui ne permettent généralement

(28)

pas aux surveillants d’effectuer une gestion manuelle de l’affichage des caméras (cf. Stedmon, Harris & Wilson, 2011; van Voorthuijsen et coll., 2005; Wood, 2007; Wood, Freer, Frimes & Brook-Carter, 2007). Une deuxième caractéristique novatrice du micromonde utilisé dans la présente étude fait référence à l’utilisation de flux vidéo informatisés (3D) qui rendent possible la création de scénarios représentant des scènes complexes (p. ex., comportements de foule) qui permettent un haut niveau de contrôle expérimental. Dans ces scénarios sont réparties les trois types d’incidents fictifs à détecter, c’est-à-dire : les incidents dont le lieu et la nature sont connus, les incidents dont le lieu est inconnu, mais dont la nature est connue et les incidents dont le lieu et la nature sont connus.

Suite à la tâche de surveillance principale, les participants doivent décrire subjectivement les patrons de gestion des caméras utilisée. Afin de vérifier dans quelle mesure les participants priorisent l’affichage de certaines caméras (stratégie paritaire) ou tendent à les répartir de manière égale dans le temps (stratégie paritaire), une analyse des temps d’affichage de chacune des huit caméras à surveiller est effectuée (Objectif 1). Par la suite, une classification objective des participants dans l’une ou l’autre de ces stratégies permet la création de deux groupes dont on peut comparer les taux et les temps de détection d’incidents, ainsi que le nombre de fausses alarmes. Ces résultats permettront d’évaluer l’impact d’une gestion paritaire ou prioritaire de l’affichage des caméras sur la performance de surveillance (Objectif 2).

(29)

Méthode Participants

Soixante-cinq adultes (36 femmes et 29 hommes; âge moyen : 25 ans) recrutés sur le campus de l’Université Laval prennent part à l’expérience en échange d’une compensation financière de 30$. Les critères d’exclusion comprennent l’atteinte organique ou fonctionnelle du système nerveux central, l’utilisation de médicaments psychotropes (antidépresseur, anxiolytique, neuroleptique) ainsi que les atteintes visuelles non corrigées.

Le micromonde CSSS

L’environnement CSSS a été conçu pour simuler une tâche de surveillance multi-écrans générique où un surveillant doit détecter, puis rapporter des incidents critiques. En particulier, CSSS permet de simuler un contexte typique de surveillance où il y a plus de caméras que d’écran disponible pour les afficher (voir Atrey, El Saddik, & Kankanhalli, 2011). Cette simulation est lancée à partir du logiciel de gestion de crise SYnRGY (Thales Canada) muni d’une extension de surveillance développée au laboratoire Co-DOT. Afin de détecter et rapporter des évènements suspect et/ou dangereux, le participant doit effectuer une rotation des huit caméras qui peuvent être affichées dans seulement six écrans. Pour ce faire, la sélection et la désélection de chacune des caméras doit être effectuée à partir d’une liste des caméras.

Une réplique de salle de contrôle de vidéosurveillance est aménagée en laboratoire. Elle se compose d’un poste de travail équipé d’un ordinateur connecté à deux écrans de type ACL placés devant un mur vidéo (voir Figure 1). Le mur vidéo (approximativement 408 cm de largeur × 122 cm de hauteur) est un système d’affichage MicroTiles (www.christiedigital.com) composé de 40 « tuiles », disposées pour créer système d’affichage de 10 tuiles de largeur et de 4 tuiles de hauteur. Ce mur permet à la fois

(30)

l’affichage simultané d’une réplique des caméras de surveillance visibles sur l’écran de droite, d’une carte de la zone à surveiller et de deux répliques de chaînes télévisées d’information en continu (voir Figure 1). Une interface de surveillance maison où la plupart des actions de l’opérateur s’effectuent se compose : i) d’une liste des caméras qui indique les caméras disponibles pour affichage (Figure 2, Région 1), ii) une zone d’affichage des caméras (Figure 2, Région 2), iii) une section d’envoi au répartiteur, permettant de rapporter des incidents détectés par le biais de la sélection d’une estimation de la sévérité et du type d’incident (p. ex., intrusion, incendie, bagarre; Figure 2, Région 3), iv) une section « Log », qui fait la liste des incidents rapportés par d’autres opérateurs en surveillance (fictifs) qui surveillent d’autres territoires (Figure 2, Région 4), v) un bouton « Rappel », qui peut être utilisée pour accéder à un panneau (Figure 3) qui présente les éléments clés de la mission (Figure 2, Région 5), et vi) un bouton « Renseignements », qui rend disponible des descriptions à propos des individus disparus ou recherchés à détecter qui sont fournies par le service de police local (Figure 2, Région 6, et Figure 4). Afin de familiariser les participants avec les fonctionnalités de l’interface (p. ex., la sélection de caméras, le rapport d’incident), un tutoriel interactif est créé.

(31)

Figure 1. Micromonde CSSS

Figure 2. Interface de surveillance. Six zones y sont délimitées : 1) liste des caméras, 2) affichage des caméras, 3) envoi d’un nouvel incident, 4) section LOG, 5) bouton rappel, 6) bouton renseignements

(32)

Figure 3. Capture d’écran du panneau Rappel accessible via le bouton rappel

Figure 4. Capture d’écran du panneau Renseignements accessible via le bouton renseignements

Stimuli. Les stimuli présentés sont huit sources vidéo (images virtuelles 3D, voir Figure 5) provenant de caméras de vidéosurveillance dans lesquels des incidents peuvent se produire à tout moment. Les huit scènes visuelles représentent différents points de vue d’un

(33)

quartier animé où se déroule un festival. Les différentes sources vidéo sont conçues afin de faire varier la nature, la distribution, et la durée des 21 incidents à détecter. Les stimuli réalistes générés par ordinateur sont créés par la compagnie Graph Synergie (www.graphsynergie.com) et sont une reproduction de lieux réels de la ville de Québec. Chaque source vidéo est composée d’une représentation de l’espace urbain à surveiller (c.-à-d., les bâtiments, les rues et zones publiques) et intègre des personnages animés effectuant des actions typiques (p. ex., marcher, se tenir en groupe, discuter). Les incidents fictifs à détecter lors de la simulation sont liés aux différentes tâches que doit effectuer l’opérateur en surveillance. Par exemple, l’opérateur peut avoir à utiliser des informations qui lui sont fournies (p. ex., lors d’une formation) afin de guider sa recherche d’incidents spécifiques. Toutefois, il arrive qu’on demande à l’opérateur de détecter des incidents pour lesquels il ne détient pas d’informations précises (c.-à-d. tout évènement suspect ou dangereux). C’est pourquoi trois types d’incidents ont été intégrés à la présente simulation. Le premier type d’incident renvoie aux évènements définis par la mission de surveillance et dont le lieu et la nature sont connus. Par exemple, le participant doit détecter une intrusion dans le parlement (Figure 6, Image 1), une manifestation devant parlement ou une intrusion à l’intérieur d’une zone clôturée. Le deuxième type d’incident réfère aux évènements définis par les renseignements dont le lieu est inconnu, mais dont la nature est connue. Par exemple, l’apparition d’un gang de rue (Figure 6, Image 2), d’un suspect et d’un enfant recherchés par la police. Le troisième type d’incident réfère à tout autre incident non spécifié dont ni le lieu ni la nature ne sont connus. Par exemple, une bagarre, un graffiti ou un incendie (Figure 6, Image 3).

(34)
(35)

Figure 6. Exemples des trois types d’incidents. 1) lieu et nature connus, 2) lieu inconnu, nature connue, 3) lieu inconnu, nature inconnue.

Procédure

Chaque participant est assis à 60 cm des deux écrans ACL et à 255 cm du mur vidéo. Après avoir donné un consentement libre et éclairé (voir Annexe A), les participants complètent le tutoriel interactif d’une durée 20 minutes qui s’affiche sur le mur vidéo. Lors de cette formation, les participants reçoivent les informations nécessaires à l’utilisation de l’interface de surveillance et effectuent des exercices qui valident leur compréhension. À la fin du tutoriel, une capsule vidéo montre un acteur jouant le rôle d’un officier du Service de police de la ville de Québec. Celui-ci explique le contexte dans lequel s’insère la mission du participant et donne des instructions à propos des types d’incidents à surveiller. Cette mise en contexte est conçue afin de générer un maximum d’engagement envers les tâches de surveillance. Une fois le tutoriel terminé, la hauteur de la chaise du participant est ajustée,

(36)

puis une calibration du système de suivi oculaire est effectuée. Ensuite, l’interface de surveillance s’affiche sur le poste de travail du participant et les fonctions énumérées précédemment sont rendues disponibles.

Pendant l’expérience, le participant effectue un balayage visuel des différentes caméras à la recherche d’incidents et fait alterner manuellement l’affichage des différents flux vidéo. Pour ce faire, le participant doit sélectionner un des flux vidéo de la liste des caméras. La caméra sélectionnée s’affiche alors dans la première cellule libre de la zone d’affichage des caméras. Lorsqu’un incident est détecté, le participant doit sélectionner la caméra sur laquelle se produit l’incident à l’aide du bouton qui lui correspondant dans la section rapport d’incident. Par la suite, le participant doit sélectionner un degré de sévérité. Il s’agit d’une mesure subjective de la gravité de l’incident. Le participant peut ensuite sélectionner l’item dans la liste « Nature de l’incident » qui correspond le mieux à l’incident qui se déroule sous ses yeux. Pour achever le rapport d’incident, le participant doit cliquer sur le bouton « Envoyer au répartiteur ». La simulation prend fin au bout de 32 minutes. Une fois l’expérience terminée, chaque participant répond à un questionnaire d’identification de la stratégie de gestion de l’affichage utilisée puis effectue un test de Cécité Inattentionnelle (voir Näsholm, Rohlfing, & Sauer, 2014). Préalablement à ce test, le participant doit prendre conscience des instructions qui lui sont liées. Il apprend alors qu’il doit porter une attention particulière à tout comportement agressif et/ou suspect présentant une menace pour la sécurité publique. De plus, il doit compter tous les échanges d’objets de main à main qui peuvent se produire dans la scène visuelle. Une fois que le participant confirme avoir intégré les instructions, un flux vidéo d’une durée d’une minute cinquante secondes est affiché sur l’écran de gauche du poste de travail et présente le point de vue d’une caméra de sécurité située dans une ruelle. À partir de la soixantième seconde du vidéo, quatre individus portant

(37)

des vêtements foncés entrent dans la scène, manifestent des comportements suspects (p. ex., bousculades, emprunt de vélo) puis effectuent plusieurs échanges qui ressemblent à des transactions de drogue. Trente secondes plus tard, une femme portant des vêtements pâles se présente en arrière-plan et dépose un colis suspect au sol, se redresse, regarde en direction de la caméra (pendant une seconde), puis quitte la scène.

Dans la présente étude, le critère de CI réfère au fait de rapporter ou de ne pas rapporter avoir vu les stimuli saillants inattendus. Autrement dit, le phénomène de CI est considéré absent lorsque la femme portant des vêtements pâles et le colis qu’elle dépose en arrière-plan sont rapportés. Une fois l’extrait terminé, le participant remplit un questionnaire qui évalue son niveau de conscience à propos des évènements qui se sont produits dans l’extrait.

Mesures

Afin de déterminer dans quelle mesure les stratégies de priorisation ou de répartition égale des caméras sont naturellement employées, les participants peuvent être classifiés de manière objective ou subjective. Dans la présente étude, un index mathématique basé sur les temps d’affichage de chaque caméra est calculé pour chaque participant. Cette mesure objective permet d’évaluer à quel point un surveillant s’écarte d’un patron de gestion de l’affichage des caméras parfaitement égalitaire. De plus, deux questionnaires post-expérimentaux sont utilisés et permettent aux participants de décrire la stratégie de sélection des caméras qu’ils ont utilisée. Ensemble, ces mesures permettent également d’évaluer la calibration des participants, c’est-à-dire si la stratégie employée correspond à la stratégie rapportée.

Classification subjective. Vingt participants pilotes ont décrit la stratégie de surveillance qu’ils ont employée grâce à une première version du questionnaire

(38)

d’identification de la stratégie de gestion des caméras utilisée (voir Annexe B). L’analyse des réponses à la troisième question de ce questionnaire (« Avez-vous effectué votre surveillance de façon aléatoire ? Si non, veuillez expliquer votre démarche. ») a permis de découvrir l’existence de quatre patrons différents de sélection des caméras. Selon le premier patron, la sélection des caméras s’effectue en fonction de l’ordre déterminé par l’interface (p. ex, les Caméras 1 à 6 sont sélectionnées puis laissées affichées en tout temps, les Caméras 7 et 8 sont affichées occasionnellement). Le deuxième patron identifié représente une sélection des caméras où l’on priorise les caméras qui sont spécifiquement mentionnées dans le panneau Rappel (c.-à-d., 1, 2, 5 et 8; voir Figure 3). Le troisième patron fait référence à une sélection des caméras systématique, où le surveillant cherche à afficher toutes les caméras de façon égale. Le dernier patron désigne un affichage des caméras aléatoire, où la sélection des caméras ne semble pas être basée sur une règle particulière.

Un deuxième questionnaire d’identification de la stratégie de gestion des caméras utilisée (voir Annexe C) a été construit en fonction des patrons d’affichage des caméras identifiés à l’aide du questionnaire préliminaire (voir Annexe B). Ces patrons ont été intégrés au deuxième questionnaire (Question 4, Annexe C), et servent à classifier la principale stratégie de gestion des caméras employée par les participants. Plus particulièrement, le participant doit faire un choix parmi cinq options différentes. La première option réfère à la sélection des caméras selon leur ordre dans l’interface où une alternance d’affichage des Caméras 5, 6, 7, 8 est effectuée. La deuxième option réfère à une sélection des caméras correspondant aux zones mentionnées dans le panneau Rappel, c’est-à-dire que les Caméras 1, 2, 5 et 8, sont affichées la plupart du temps et une alternance de l’affichage entre les Caméras 3, 4 et 6, 7 est effectuée. La troisième option fait référence à une sélection et désélection de manière systématique, où le surveillant cherche à afficher les différentes

(39)

caméras de façon égale. La quatrième option reflète une sélection et désélection des caméras qui n’est pas basée sur une règle particulière. Lorsqu’un participant considère avoir effectué un patron de sélection des caméras différent des quatre options précédentes, il peut alors sélectionner l’option « Aucun des patrons précédents » et décrire la technique d’affichage des caméras qu’il a principalement utilisée.

À l’analyse des données, les participants ayant sélectionné les Patrons 1 et 2 sont regroupés afin de former un groupe dit prioritaire, étant donné que ces deux patrons impliquent une priorisation de l’affichage de certaines caméras (en fonction de l’interface ou des objectifs de la mission). Les Patrons 3 et 4 ont également été regroupés afin de former un groupe dit paritaire, puisqu’une répartition égale de l’affichage des caméras y est favorisée. Lorsque le participant considère qu’aucun des quatre patrons ne se rapproche de la sélection de caméras qu’il a effectuée, il est alors invité à décrire la technique qu’il a employée à l’écrit (Question 5, voir Annexe B). À l’analyse des résultats, les réponses des sujets qui complètent cette question sont interprétées afin de déterminer si leur gestion des caméras est prioritaire ou paritaire.

Classification objective. Un index mathématique de la stratégie de sélection des caméras est également calculé pour chaque sujet. Premièrement, le temps d’affichage théorique qui réfère à une répartition parfaitement égale tout au long de la surveillance de chacune des caméras a été calculé à l’aide de la formule suivante :

(40)

Dans le présent contexte expérimental, cela représente un affichage de chaque caméra pendant exactement 1440 secondes : (6/8) × 1920 = 1440. Ensuite, un index est généré à partir de la sommation des écarts absolus entre le temps d’affichage théorique et le temps d’affichage observé de chacune des huit caméras :

(2)

En d’autres termes, l’index généré par cette formule permet de quantifier l’écart entre la distribution parfaitement égale dans le temps de l’affichage de chaque caméra (telle que générée par un système de surveillance automatisé) et la distribution observée des temps d’affichage d’un surveillant. Un index de 0 calculé à l’aide de la Formule 2, représente donc une répartition parfaitement égale de l’affichage des huit caméras dans le temps.

Dans la présente étude, on considère que le fait de se distancier d’un patron d’affichage parfaitement égal des caméras dans le temps reflète une tendance à prioriser l’affichage de certaines caméras par rapport à d’autres. De plus, un participant est classifié dans la stratégie prioritaire lorsqu’au moins une des caméras est priorisée par rapport aux autres. Cependant, la négligence d’une caméra peut aussi être considérée comme une forme de priorisation. C’est-à-dire que, par définition, les caméras non négligées sont affichées plus longtemps que les caméras négligées. Ainsi, la négligence de certaines caméras tend également à faire augmenter l’indice d’affichage.

Dans le but de tenir compte de ces deux formes de priorisation, une moyenne entre un index de priorisation et de négligence théorique est calculée. Toutefois, avant de pouvoir calculer l’index de priorisation théorique, il faut d’abord calculer le temps d’affichage

(41)

théorique des sept caméras qui sont affichées de manière parfaitement égale lorsqu’une seule caméra est priorisée (c.-à-d. affichée 100% du temps) à l’aide de la Formule 3 :

(3) La valeur obtenue (1371,4 secondes, voir Tableau 1) permet alors le calcul de l’index de priorisation théorique grâce à la Formule 2 (150). Le même principe s’applique pour le calcul de l’index de négligence. C’est-à-dire qu’il faut d’abord calculer le temps d’affichage théorique des sept caméras qui sont affichées de manière parfaitement égale lorsqu’une seule caméra est négligée (c.-à-d. affichée 0% du temps) à l’aide de la Formule 4 :

(4)

La valeur obtenue (1645,7 secondes, voir Tableau 2) permet alors le calcul de l’index de priorisation théorique grâce à la Formule 2 (50). La moyenne entre ces deux valeurs (i.e. 100) est utilisée afin de rendre compte autant de la négligence que de l’affichage.

En somme, lorsqu’une caméra est affichée pendant la durée totale de l’expérience et que les sept autres sont réparties de façon parfaitement égale, l’index d’affichage est de 150. Lorsqu’une caméra n’est jamais affichée et que les sept autres sont réparties de manière parfaitement égale, l’index d’affichage est de 50. On considère alors que la moyenne de ces deux indices, 100, est l’index d’affichage après lequel l’affichage de certaines caméras est priorisé. Ainsi, un participant qui obtient un index d’affichage entre 0 et 99,999 est classifié comme ayant utilisé une stratégie paritaire, alors qu’un sujet qui obtient un index de 100 et plus est classifié comme ayant utilisé une stratégie prioritaire.

(42)

Tableau 1

Répartition théorique du temps d’affichage des huit caméras lorsqu’une caméra est affichée pendant la durée totale de l’expérience

Caméras 1 2 3 4 5 6 7 8 Proportion du temps d’affichage 100% 71% 71% 71% 71% 71% 71% 71% Temps d’affichage (s) 1920 1371,4 1371,4 1371,4 1371,4 1371,4 1371,4 1371,4 Tableau 2

Répartition théorique du temps d’affichage des huit caméras lorsqu’une caméra n’est jamais affichée Caméras 1 2 3 4 5 6 7 8 Proportion du temps d’affichage 0% 86% 86% 86% 86% 86% 86% 86% Temps d’affichage (s) 0 1645,7 1645,7 1645,7 1645,7 1645,7 1645,7 1645,7

Calibration. Dans la présente étude, le mot calibration réfère à la cohérence entre la stratégie rapportée subjectivement à l’aide du questionnaire et la stratégie déterminée objectivement à l’aide de l’index mathématique basé sur les temps d’affichage de chacune des caméras. L’étude de la répartition des participants dans chacune des stratégies permet de déterminer si les participants qui emploient une certaine stratégie ont également tendance à la rapporter par le biais du questionnaire. Ainsi, un test de khi-carré est effectué afin de vérifier s’il existe un lien entre la stratégie utilisée et son type d’évaluation.

Taux de détection. Cette mesure de performance correspond au nombre d’incidents correctement rapportés sur le nombre total d’incidents. Trois critères doivent être remplis pour qu’un incident soit considéré comme détecté. Premièrement, la caméra sur laquelle l’incident se produit doit être sélectionnée à l’aide du bouton qui lui correspond dans la section rapport d’incident pendant que l’incident est en cours. Cette mesure permet (a posteriori) d’associer les incidents rapportés aux incidents scénarisés. Deuxièmement, une description appropriée doit être sélectionnée dans la liste « Nature de l’incident ». Étant donné que pour certains incidents plusieurs interprétations sont plausibles, jusqu’à trois

(43)

classifications par incident sont acceptées (cf. Annexe D). Enfin, le bouton « Envoyer au RÉPARTITEUR » doit être cliqué.

La performance globale est déterminée à partir de 16 incidents au lieu du nombre total d’incidents (21), puisque cinq de ceux-ci ont été détectés par aucun ou un seul participant. Plus précisément, parmi les cinq incidents qui ont été détectés moins de deux fois, un est de type lieu et nature connus, un est de type lieu inconnu, nature connue et deux sont de type lieu et nature inconnus. Des taux de détection pour chaque type d’incident (lieu et nature connus; lieu inconnu, nature connue et lieu et nature inconnus) sont également calculés.

Temps de détection. Le micromonde utilisé permet de sauvegarder les temps où se produisent différentes interactions du participant avec l’interface de surveillance. Ainsi, il est possible de connaître la vitesse de détection des participants. Le temps de détection correspond à la différence entre le temps de début d’un incident et le temps de sélection de la caméra où il se produit, lorsque celui-ci a été correctement rapporté. Les temps de détection globaux et par type d’incident sont générés pour chaque sujet.

Fausses alarmes. Cette troisième mesure de performance fait référence à tous les incidents rapportés par les participants qui ne sont pas des détections correctes. Spécifiquement, une fausse alarme correspond à tout incident rapporté par le participant qui n’a pas été scénarisé.

Cécité inattentionnelle. Après la simulation, les participants passent un test de Cécité Inattentionnelle (CI). Celui-ci est créé par Näsholm, Rohlfin et Sauer (2014). Des deux vidéos utilisés par ces auteurs, seul un est employé dans la présente étude (le vidéo nommé « parcel ») étant donné qu’il est directement relié à la surveillance en sécurité.

À la différence de la tâche de surveillance principale de la présente étude dans laquelle les participants doivent surveiller plusieurs écrans, le test de CI post expérimental utilise une

Figure

Figure 1. Micromonde CSSS
Figure 3. Capture d’écran du panneau Rappel accessible via le bouton rappel
Figure 5. Capture d’écran des huit flux vidéo.
Figure 6. Exemples des trois types d’incidents. 1) lieu et nature connus, 2) lieu inconnu,  nature connue, 3) lieu inconnu, nature inconnue
+3

Références

Documents relatifs

La polysémie du terme « comportement » impose de préciser tout de suite qu’il s’agit de son acception éthologique réservée au départ à la « manière adaptée d’être

Q3 - Vos budgets publicitaires 2017 consacrés à la publicité extérieure étaient-ils:... Q4 - Selon vous, la

L'idée n'est pas nouvelle, mais les piles zinc-air donnent enfin la possibi- lité de réaliser des unités de sauve- garde de la mémoire, car leur densité

• Si l’employeur a réalisé seul l’évaluation du maintien de l’équité salariale : les recours et les délais pour les exercer (c’est-à-dire le droit pour une personne

Bien que ne l'ayant pas testé nous-même avec un ampli, nous pensons qu'il présente, par sa réalisation, tous les gages de sérieux pour l'amateur qui voudrait lui

Un explorateur intra permet aux candidats de visualiser les éléments de barème issus des lignes directrices de gestion académiques, selon leur situation individuelle,

La ou le gestionnaire doit produire, dans un délai de trois mois à compter de l’entrée en vigueur du présent cadre de gestion, une déclaration de fichier de renseignements

L.300 x H.200 mm D SCOP5209 Consignes de sécurité établissements de soins - lot de 50.. SSI et moyens