• Aucun résultat trouvé

La reconnaissance et l’apprentissage des événements chauds dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés

N/A
N/A
Protected

Academic year: 2021

Partager "La reconnaissance et l’apprentissage des événements chauds dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés"

Copied!
114
0
0

Texte intégral

(1)

THESE

pour obtenir le grade de :Docteur en Sciences Appliquées Spécialité : Informatique

Préparée au sein de l’UFR : Systèmes d’Information Métiers, Multimédia et Mobile à l’Ecole Nationale Supérieure d’Informatique et d’Analyse

des Systèmes

Préparée par :

Rajae El Ouazzani

Titre :

La reconnaissance et l’apprentissage des

événements chauds dans la vidéo de

matches de football en utilisant les

Modèles de Markov Cachés

Soutenue le 18/12/2010 devant le jury composé de:

– Pr. Driss Aboutajdine, PES à la Faculté des Sciences de Rabat: Président. – Pr. Azedine Boulmakoul, PES à la FST de Mohammadia: Rapporteur. – Pr. Ahmed Tamtaoui, PES à l’INPT: Rapporteur.

– Pr. Mohammed Rziza, PH à la Faculté des Sciences de Rabat: Rapporteur. – Pr. Bouchaib Bounabat, PES à l’ENSIAS: Examinateur.

(2)

Dans le cadre de cette thèse, nous proposons des techniques pour reconnaitre les événe-ments importants dans la vidéo de matches de football en utilisant les Modèles de Markov Cachés (MMC). Un événement important est tout événement qui peut intéresser le pu-blic tels que : les buts, les fautes directes, les penalties, les cartons jaunes/rouges, les changements de joueurs et les tentatives pour marquer un but. Lors de la modélisation des séquences vidéos correspondantes aux événements importants précédents, nous avons utilisé les MMCs qui traitent de manière efficace les structures spatiaux temporelles qui caractérisent les vidéos de football.

Dans la première partie de cette thèse, nous avons présenté les caractéristiques de la vidéo de matches de football à savoir les descripteurs visuels, audio et textuels. Aussi, nous avons présenté quelques unités sémantiques qui distinguent la vidéo de matches de football. Puis et lors d’un survol de la littérature, nous avons exposé quelques tech-niques de classification des plans (images) de la vidéo de football et quelques techtech-niques de reconnaissance des événements importants dans la vidéo de matches de football. Fi-nalement, nous avons présenté les MMCs, leurs paramètres et les algorithmes qui les accompagnent.

Dans la deuxième partie, nous avons présenté quatre contributions pour reconnaitre les événements importants dans la vidéo de matches de football avec les MMCs. Dans la première contribution, nous employons un MMC des événements importants. Par la suite et dans la deuxième contribution, nous employons deux MMCs, un MMC d’événements importants et un MMC d’événements non importants en conjonction avec le théorème de Bayes. L’inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en utilisant des distributions a priori issues des bases d’apprentissage. Dans la troisième contribution, nous employons les MMCs et la loi de Gauss et dans la quatrième contribution, nous exploitons les MMCs et les Modèles de Mélanges de Gaussiennes avec deux, six et dix gaussiennes pour reconnaitre les événements importants dans la vidéo de matches de football.

(3)

Je tiens à exprimer tout d’abord mes remerciements aux membres du jury, qui ont accepté d’évaluer mon travail de thèse.

Je remercie le Professeur Driss Aboutajdine de m’avoir fait l’honneur de présider mon jury. Le Professeur Aboutajdine est le responsable du "Laboratoire de Recherche en Informatique et Télécommunication" (LRIT) à la Faculté des Sciences de Rabat (FSR) où j’ai fait mes premiers pas vers le domaine de la recherche. Aussi, il est le responsable de l’UFR "Informatique et Télécommunication" à la FSR. Ainsi, je remercie le Professeur Aboutajdine pour son sérieux et son travail continu pour orienter ses étudiants vers la recherche scientifique en vue de l’évoluer au Maroc.

Je remercie aussi le Professeur Azedine Boulmakoul qui a accepté de rapporter mon tra-vail. Le Professeur Boulmakoul est le responsable de la filière "MST Génie informatique" à la Faculté des Sciences et Technique de Mohammedia. Il est aussi le responsable de l’UFR "Systèmes d’Informations Réactifs et Ingénierie des Systèmes Intelligents".

Après, je remercie le Professeur Ahmed Tamtaoui qui a accepté de rapporter mon travail de thèse. Le Professeur Tamtaoui est un Enseignant chercheur à INPT à Rabat. Il est aussi le Directeur Adjoint de Recherche dans le même établissement.

Ensuite, je remercie le Professeur Mohammed Rziza, Professeur Habilité à la Faculté des Sciences de rabat, qui a accepté de rapporter mon travail.

Puis, je remercie le Professeur Bouchaib Bounabat d’avoir examiné mon travail. Le Pro-fesseur Bouchaib Bounabat est un ProPro-fesseur de l’Enseignement Supérieur à l’Ecole Na-tionale Supérieure d’Informatique et d’Analyse des systèmes.

Après, je remercie le Professeur Rachid Oulad Haj Thami d’avoir accepté de supervi-ser mon travail de thèse. Le Professeur Rachid Oulad Haj Thami est un Professeur de l’Enseignement Supérieur à l’Ecole Nationale Supérieure d’Informatique et d’Analyse des systèmes.

Finalement, je tiens à remercier tous mes collègues de l’équipe WiM avec lesquels j’ai eu le plaisir de travailler durant cette thèse.

(4)

Résumé ii

Remerciements iii

Liste des Figures viii

Liste des Tableaux x

Abréviations xi Symboles xiii 1 Introduction générale 1 1.1 Contexte de la thèse . . . 1 1.2 Contributions . . . 2 1.3 Organisation de la thèse . . . 2 2 La vidéo de football 4 2.1 Introduction . . . 4

2.2 Analyse de la vidéo de football . . . 5

2.2.1 Les descripteurs de bas niveau . . . 5

2.2.1.1 Les descripteurs visuels . . . 5

2.2.1.2 Les descripteurs audio . . . 5

2.2.1.3 Les descripteurs textuels . . . 6

2.2.2 Les descripteurs visuels . . . 7

2.2.2.1 La couleur dominante . . . 7

2.2.2.2 Le logo . . . 7

2.2.2.3 Les bords . . . 8

2.2.2.4 La texture . . . 8

2.2.2.5 La zone de la tête . . . 8

2.2.2.6 La taille des objets . . . 8

2.2.3 Les unités sémantiques de niveau moyen . . . 9

2.2.3.1 Unité ralenti . . . 9

2.2.3.2 Unité cadre du goal . . . 9

2.2.3.3 Unité légende . . . 10

(5)

2.2.3.4 Unité plan proche et public . . . 10

2.2.3.5 Unité plan proche et légende . . . 11

2.2.3.6 Décomposition de la vidéo en unités sémantiques . . . 11

2.2.4 Les événements importants de haut niveau. . . 12

2.3 Techniques de classification des plans . . . 15

2.3.1 Classification des plans avec la carte de blocs du terrain . . . 15

2.3.2 Classification des plans avec un arbre de décision . . . 16

2.3.3 Classification des plans avec les SVMs . . . 17

2.3.4 Classification des plans avec les SVMs et les histogrammes de pro-jection . . . 18

2.3.5 Classification des plans par la détection des lignes du terrain . . . 19

2.3.6 Classification des plans avec la règle du Golden Section Spatial Composition . . . 20

2.3.7 Classification des plans avec la méthode haut-bas . . . 21

2.3.8 Résumé . . . 22

2.4 Conclusion. . . 23

3 Modélisation des séquences vidéos de matches de football 25 3.1 Classes d’approches de modélisation des séquences vidéos . . . 25

3.1.1 Approches basées sur les règles . . . 26

3.1.2 Approches statistiques . . . 26

3.1.2.1 Les Machines à Vecteurs de Supports (SVMs). . . 26

3.1.2.2 Les réseaux de neurones (RNs) . . . 27

3.1.2.3 Les Modèles de Markov Cachés (MMCs). . . 27

3.1.2.4 Autres algorithmes . . . 27

3.2 Les Modèles de Markov Cachés . . . 27

3.2.1 Les paramètres du MMC . . . 28

3.2.2 Les inférences du MMC . . . 29

3.2.2.1 Les inférences en ligne . . . 29

3.2.2.2 Les inférences hors ligne . . . 29

3.2.3 Les algorithmes de manipulation des paramètres du MMC . . . 30

3.2.3.1 L’algorithme Forward-Backward . . . 30

3.2.3.2 L’algorithme Viterbi . . . 32

3.2.4 L’apprentissage des paramètres du MMC . . . 33

3.2.4.1 L’apprentissage avec le critère MV . . . 34

3.2.4.2 L’apprentissage avec le critère MAP . . . 35

3.2.5 La structure du MMC . . . 35

3.3 Techniques de reconnaissance des événements importants dans la vidéo de matches de football . . . 36

3.3.1 Reconnaissance des événements importants avec les Réseaux Baye-siens/Réseaux Bayesiens Dynamiques (BNs/DBNs) . . . 37

3.3.2 Reconnaissance des événements importants avec une représenta-tion de niveau intermédiaire : mid − level . . . 38

3.3.3 Reconnaissance des événements importants avec l’unité sémantique de base et les réseaux de Pétri (BSUCPN) . . . 38

3.3.4 Reconnaissance des événements importants avec les segments play et break . . . 38

(6)

3.3.5 Reconnaissance des événements importants avec les MMCs et les

positions des joueurs sur le terrain de jeu . . . 39

3.3.6 Reconnaissance des événements importants avec les mots clés et les MMCs . . . 40

3.3.7 Résumé . . . 41

3.4 Conclusion. . . 42

4 Reconnaissance des événements importants dans la vidéo de football avec les MMCs et le théorème de Bayes 44 4.1 Contribution 1 : Reconnaissance des événements importants dans la vidéo de football avec un seul MMC . . . 45

4.1.1 Classification visuelle des plans . . . 45

4.1.2 Modélisation et reconnaissance des événements importants avec un MMC . . . 47

4.1.3 Résultats expérimentaux . . . 50

4.1.4 Conclusion . . . 52

4.2 Contribution 2 : Reconnaissance des événements importants avec deux MMCs et le théorème de Bayes . . . 53

4.2.1 Modélisation des séquences vidéos avec deux MMCs . . . 53

4.2.2 Utilisation du théorème de Bayes dans la reconnaissance des évé-nements importants . . . 55

4.2.3 Résultats expérimentaux . . . 56

4.2.4 Conclusion . . . 58

4.3 Discussion . . . 59

5 Hypothèses gaussiennes pour reconnaitre les événements importants dans la vidéo de football 60 5.1 Contribution 3 : Reconnaissance des événements importants avec les MMCs et le modèle gaussien . . . 60

5.1.1 Modélisation des événements de football avec deux MMCs . . . 61

5.1.2 Utilisation du modèle gaussien pour la reconnaissance des événe-ments importants dans la vidéo de football . . . 62

5.1.3 Résultats expérimentaux . . . 63

5.1.4 Conclusion . . . 65

5.2 Contribution 4 : Reconnaissance des événements importants avec les MMCs et les MMGs . . . 66

5.2.1 Schéma général de l’étude . . . 66

5.2.2 Analyse des propriétés de la vidéo de football . . . 67

5.2.3 Modélisation des événements de football avec les MMCs . . . 67

5.2.4 Modélisation des événements de football avec les MMGs . . . 67

5.2.4.1 Paramètres des MMGs . . . 68

5.2.4.2 Apprentissage des paramètres du MMG avec l’algorithme EM . . . 68

5.2.5 La reconnaissance des événements importants dans la vidéo de football avec les MMCs et les MMGs . . . 72

5.2.6 Résultats expérimentaux . . . 74

5.2.6.1 Résultats de reconnaissance des événements importants avec un mélange de deux gaussiennes . . . 75

(7)

5.2.6.2 Résultats de reconnaissance des événements importants avec un mélange de six gaussiennes. . . 78

5.2.6.3 Résultats de reconnaissance des événements importants avec un mélange de dix gaussiennes . . . 81

5.2.6.4 Comparaison des résultats de reconnaissance des événe-ments importants avec différents mélanges de gaussiennes 83

5.2.7 Conclusion . . . 85

5.3 Discussion . . . 85

6 Conclusions et perspéctives 86

6.1 Objectifs et domaines d’exploitation de la thèse . . . 86

6.2 Contributions majeures . . . 86

6.3 Travaux en cours et perspectives . . . 88

A Publications 90

(8)

2.1 Schéma pour la reconnaissance des événements importants dans la vidéo

de matches de football. . . 5

2.2 Un arbre de décision pour la classification des plans en utilisant le couleur de l’herbe et le contraste de la texture [1, 2].. . . 11

2.3 La représentation des unités sémantiques sur une séquence vidéo [2]. . . . 12

2.4 Une série de plans lors d’un but. . . 13

2.5 Une série de plans lors d’un penalty. . . 13

2.6 Une série de plans lors d’un corner. . . 14

2.7 Une série de plans lors d’une faute directe. . . 14

2.8 Une série de plans lors d’un carton jaune. . . 14

2.9 Une série de plans lors d’un changement de joueurs.. . . 15

2.10 Un arbre de décision pour la classification des plans en utilisant des des-cripteurs visuels [3]. . . 17

2.11 Système de classification des plans avec les SVMs [4]. . . 18

2.12 Une structure pour la classification des plans avec les SVMs et les histo-grammes de projection [5]. . . 19

2.13 Algorithme de classification de plans par la détection des lignes du terrain [6]. . . 20

2.14 Les neuf portions d’un plan [7]. . . 21

2.15 Un framework pour la classification des plans avec la méthode haut-bas [8]. 22 3.1 Représentation d’un MMC par un réseau bayesien. . . 28

3.2 Exemples de deux structures des MMCs [9]. . . 36

3.3 Exemples de BN et de DBN de l’événement corner [10]. . . 37

3.4 Les séquences play − break dans une vidéo de football [11]. . . 39

3.5 A gauche, un schéma qui montre les positions des joueurs sur le terrain et à droite, les qualifieurs fuzzy qui sont utilisés dans le calcul des descripteurs des zones f1, f2 et f3 [12]. . . 40

3.6 Diagramme pour la reconnaissance des événements importants avec les mots clés et les MMCs [13]. . . 41

4.1 Les trois classes de plans et l’application de la GSSC sur leur correspon-dants en binaire. . . 46

4.2 Processus de segmentation de la vidéo de football et la classification des images clés en utilisant la GSSC. . . 47

4.3 Les états et les probabilités de transitions de λ1 des événements importants. 48 4.4 La courbe de ROC des résultats de classifcation des séquences vidéo avec λ1. . . 52

4.5 Les états et les probabilités de transitions de λ2. . . 54

(9)

4.6 Schéma pour reconnaître les événements importants avec les MMCs et le théorème de Bayes. . . 55

4.7 La courbe de ROC des résultats de classification des séquences vidéo avec deux MMCs et le théorème de Bayes.. . . 58

5.1 Schéma de reconnaissance des événements importants avec les MMCs et la loi de Gauss. . . 61

5.2 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et le théorème de Gauss.. . . 65

5.3 Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football avec trois types de descripteurs. . . 66

5.4 Schéma de reconnaissance des événements importants avec les MMCs et les MMGs.. . . 72

5.5 Représentation des données de la base d’apprentissage d’événements im-portants avec une distribution en deux gaussiennes. . . 75

5.6 Représentation des données de la base d’apprentissage d’événements non importants avec une distribution en deux gaussiennes. . . 76

5.7 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec deux gaussiennes. . . 77

5.8 Représentation des données de la base d’apprentissage des événements importants avec une distribution en six gaussiennes. . . 78

5.9 Représentation des données de la base d’apprentissage des événements non importants avec une distribution en six gaussiennes. . . 78

5.10 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec six gaussiennes. . . 80

5.11 Représentation des données de la base d’apprentissage des événements importants avec une distribution en dix gaussiennes. . . 81

5.12 Représentation des données de la base d’apprentissage des événements non importants avec une distribution en dix gaussiennes. . . 81

5.13 La courbe de ROC des résultats de classification des séquences vidéos avec deux MMCs et deux MMGs avec dix gaussiennes. . . 83

5.14 La courbe de ROC de classification des séquences vidéos avec l’utilisation de deux MMCs et deux MMGs avec deux, six et dix gaussiennes. . . 84

6.1 Processus de classification d’une séquence vidéo O avec quatre techniques utilisant les MMCs.. . . 87

6.2 La courbe de ROC des résultats de classification des séquences vidéos avec six techniques de reconnaissance des événements importants avec les MMCs. 88

(10)

2.1 Les événements importants dans la vidéo de football et les unités séman-tiques qui les accompagnent.. . . 12

2.2 Sommaire des techniques de classification des plans. . . 23

3.1 Sommaire des techniques de reconnaissance des événements importants. . 43

4.1 Résultats de classification des séquences vidéos avec λ1 d’événements im-portants.. . . 51

4.2 Résultats de reconnaissance des événements importants avec λ1. Ils sont classés par type d’événement. . . 52

4.3 Résultats de classification des séquences vidéo avec deux MMCs et le théo-rème de Bayes. . . 57

4.4 Résultats de classification des événements importants avec les MMCs et le théorème de Bayes, classés par type d’événement. . . 58

5.1 Résultats de classification des séquences vidéos avec les MMCs et le théo-rème de Gauss. . . 64

5.2 Résultats de classification des séquences vidéos avec les MMCs et le théo-rème de Gauss classés par catégorie de l’événement important.. . . 65

5.3 Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes.. . . 76

5.4 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de deux gaussiennes. . . 77

5.5 Résultats de classification des séquences vidéos en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. . . 79

5.6 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de six gaussiennes. . . 80

5.7 Résultats de classification des séquences vidéos en utilisant les MMCs et deux MMGs avec un mélange de dix gaussiennes. . . 82

5.8 Résultats de classification des séquences vidéos importantes en utilisant deux MMCs et deux MMGs avec un mélange de dix gaussiennes. . . 83

5.9 Résultats de classification de divers types d’événements importants en utilisant les MMCs et les MMGs. . . 84

6.1 Comparaison des résultats de classification des événements de football avec les MMCs. . . 88

(11)

MMC Modèle de Markov Caché

HMM Hidden Markov Model

HSV Hue Saturation Value

GLCM Gray Level Co-occurrence Matrix MFCC Mel Frequency Cepstral Coefficients MPEG Moving Picture Expert Group CSR Coarse Spatial Representation

GBM Ground Block Map

TBD Temporal Block Difference

SVM Support Vector Machines

BN Bayesian Network

RB Réseau Bayesien

DBN Dynamic Bayesian Network

RBD Réseau Bayesien Dynamique

RN Réseaux de Neurones

HSI Hue Saturation Intensity

GMM Gaussian Mixture Model

MMG Modèle de Mélanges de Gaussiennes

EM Expectation Maximization

MSE Mean Square Error

FCPMT Field Color Probability Map Tracker ROC Receiver Operating Characteristic OCR Optical Character Recognition

SSU Shot Segment Unit

SR Segmentation Rate

(12)

BSUCPN Basic Semantic Unit Composite Petri Net LPC Linear Prediction Coefficients

LPCC Linear Prediction Cepstral Coefficients FPMT Field Probability Map Tracking

MV Maximum de Vraissemblance

MAP Maximum a posteriori

IPS In Play Segment

OPS Out of Play Segment

OFS Out of Field Segment

CloseFB Close with Field Background CloseNFB Close Non Field Background

(13)

Hmean moyenne de la teinte

Smean moyenne de la saturation

p, P probabilité

N nombre d’états du MMC

O séquence vidéo

O1:T séquence d’observation complète

T nombre d’observations dans la séquence vidéo O

s état du MMC

S l’ensemble des états du MMC

q état observé du MMC

A matrice de transitions du MMC

aij probabilité de transition de l’état i à j

V l’ensemble des observations possibles ot symbole observé à l’instant t

B matrice de probabilités d’observations bj probabilité d’observation

M M C1 MMC des événements importants M M C2 MMC des événements non importants M M G1 MMG des événements importants M M G2 MMG des événements non importants

EImp événement important

¬EImp événement non important

N EImp nombre d’événements importants dans la base d’apprentissage

N ¬EImp nombre d’événements non importants dans la base d’apprentissage

P (EImp) probabilité d’avoir un événement important

(14)

P (¬EImp) probabilité d’avoir un événement non important

P (O/EImp) probabilité d’avoir O sachant un événement important

P (O/¬EImp) probabilité d’avoir O sachant un non événement important

P (EImp/O) probabilité d’avoir un événement important sachant O

P (¬EImp/O) probabilité d’avoir un événement non important sachant O

pr vecteur des probabilités a priori d’un MMG ΣImp variance des événements importants

¬ΣImp variance des événements non importants

µImp moyenne des événements importants

¬µImp moyenne des événements non importants

ΣM M GImp matrice de covariance du M M G1

µM M GImp vecteur de la moyenne du M M G1

prImp vecteur des probabilités a priori des mélanges du M M G1

¬ΣM M GImp matrice de covariance du M M G2

µM M GImp vecteur de la moyenne du M M G2

¬prImp vecteur des probabilités a priori des mélanges du M M G2

µ vecteur moyen

Σ matrice de covariance

π vecteur de probabilités initiales du MMC

λ Modèle de Markov Caché

α probabilités Forward

β probabilité Backward

ω valeur pour régulariser les matrices de covariances

Θ seuil de comparaison

(15)
(16)

Introduction générale

1.1

Contexte de la thèse

La recherche de l’information utile dans une vidéo est importante. Diverses recherches ont été entreprises dans le domaine de traitement des données multimédia en vue de faciliter l’accès aux données importantes. Nous citons la détection des séquences d’in-formations intéressantes, la création des résumés et le filtrage du contenu. Un document vidéo est une production de l’activité humaine d’où la nécessité de développer certains outils pour faciliter son traitement. Les données multimédia sont composées de données audio, visuelles et textuelles synchronisées. Par conséquent, le traitement de la vidéo est réalisé par des outils spécifiques qui respectent sa structure spatio-temporelle.

Dans cette thèse, nous abordons le problème de la classification des séquences vidéo de matches de football. Le but de notre étude est la reconnaissance des événements importants dans ce type de vidéo. Un événement important correspond à une séquence vidéo qui peut intéresser les téléspectateurs telle qu’ : un but, un corner, une faute directe, un penalty ou une tentative pour marquer un but. Ainsi, le traitement de la vidéo de football permet de reconnaître les segments vidéo intéressants qui occupent une petite partie dans la vidéo du match de football. De plus, l’analyse de la vidéo de football peut être appréhendé, en effet, dans ce contexte le domaine sémantique est limité. Les études réalisées dans ce cadre peuvent être classifiées en deux catégories [14] : des études basées sur les règles [15, 16] et des études statistiques [10–13, 17, 18] telles que les SVMs, les RNs et les MMCs.

Les travaux réalisés dans ce rapport se focalisent sur la modélisation des événements im-portants de football en utilisant l’approche statistique basée sur les MMCs. Les MMCs sont connus par leur capacité à modéliser les structures spatio-temporelles. Ainsi, la

(17)

reconnaissance des événements importants dans la vidéo de football avec les MMCs nécessite une opération d’apprentissage des paramètres des MMCs. L’opération d’ap-prentissage utilise des bases de séquences vidéo issues de différents matches de football où les séquences vidéo sont représentées par des vecteurs de plans grâce à la classification de leurs images clés en plans : loin, médium et proche en se basant sur les techniques de réalisation télévisuelles dans les matches de football. Plusieurs études ont été réalisées dans le cadre de la classification de plans [5–8,19–21]. La reconnaissance des événements importants dans la vidéo de football est réalisée par les MMCs dont les paramètres sont calculer par les algorithmes : Baum-Welch, Forward-Backward et Viterbi et des bases d’apprentissage de séquences vidéo.

1.2

Contributions

Les contributions proposées dans cette thèse permettent de savoir si une séquence vidéo dans un match de football correspond à un événement important. Nous avons développé quatre applications pour réaliser l’opération de classification. Les applications proposées utilisent toutes les MMCs.

La première contribution permet de reconnaître les événements importants en utilisant un seul MMC d’événements importants. Ensuite, nous utilisons, dans la deuxième contri-bution, le théorème de Bayes en plus des MMCs pour reconnaître les événements im-portants. L’inférence bayesienne calcule la distribution a posteriori sur une séquence vidéo en exploitant des distributions a priori issues des bases d’apprentissage. La troi-sième contribution emploie le théorème de Gauss en conjonction avec les MMCs. La loi de Gauss est une distribution qui suit la loi normale. Finalement et dans la quatrième contribution, nous utilisons les Modèles de Mélanges de Gaussiennes et les MMCs pour reconnaitre les événements importants.

1.3

Organisation de la thèse

Ce document est organisé de la manière suivante :

Le chapitre 2 présente quelques techniques d’analyse de la vidéo de football et de clas-sification des images clés des séquences de football en types de plans. L’analyse de la vidéo de football montre trois types de caractéristiques dans la vidéo de football : 1) les descripteurs de bas niveau, 2) les unités sémantiques et 3) les événements importants. Nous avons présenté aussi un ensemble de techniques de classification de plans en loin, médium, proche, etc.

(18)

Le chapitre 3 propose, dans une première section, les classes d’approches de modélisa-tion des séquences vidéo. Dans la deuxième secmodélisa-tion, nous présentons les MMCs, leurs paramètres, les algorithmes d’estimation de leurs paramètres et quelques structures des MMCs. Dans la dernière section, nous montrons quelques techniques de reconnaissance des événements importants dans la vidéo de matches de football.

Le chapitre4expose les deux premières contributions proposées dans cette thèse. La pre-mière contribution permet de reconnaitre les événements importants de football avec un seul MMC d’événements importants et dans la deuxième contribution, nous employons deux MMCs et le théorème de Bayes pour reconnaitre ces événements importants. Le premier MMC concerne les événements importants et le deuxième, les événements non im-portants. De plus, nous présentons les résultats expérimentaux associés aux deux contri-butions proposées.

Le chapitre 5 présente deux autres contributions pour reconnaitre les événements im-portants dans la vidéo de football. Ces deux contributions utilisent la loi gaussienne pour reconnaitre ces événements spéciaux. Nous employons, dans la troisième contribu-tion, deux MMCs d’événements imortants et d’événements non importants et la loi de Gauss. Ensuite, nous présentons dans la quatrième contribution qui utilise deux MMCs et deux MMGs. Ainsi, nous présentons les résultats expérimentaux des deux hypothèses gaussiennes précédentes.

Finalement, le chapitre6présente des conclusions, discute quelques frontières de la recon-naissance des événements importants dans la vidéo de football et donne des perspectives.

(19)

La vidéo de football

2.1

Introduction

Dans ce chapitre, nous allons nous focaliser sur la reconnaissance des événements impor-tants dans la vidéo de matches de football. Cette opération est réalisée par l’utilisation et l’analyse de certaines caractéristiques des événements de football. Nous pouvons distin-guer trois types de caractéristiques classées par niveaux et illustrés sur la figure 2.1. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts, les penalties, les corners, les fautes directes, les cartons jaunes/rouges et les tentatives pour marquer un but. Ces événements importants sont caractérisés, en cours de diffusion de la vidéo, par l’apparition de certaines unités sémantiques. Une unité sémantique est composée d’une suite de plans du même événement. De manière générale, un événement est constitué de plusieurs unités sémantiques et la présence de certaines unités sémantiques spécifiques indique la présence d’un événement important particu-lier. Par exemple, l’événement important "but" est représenté par les unités sémantiques suivantes : la zone de penalty, le cadre du goal, l’arbitre, le public et le plan proche. Par ailleurs, le domaine de connaissance montre qu’il y’a neuf unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes, les plans proches, le public, l’arbitre et les plans proches avec légende. L’analyse de ces unités sémantiques nous a permis de définir les caractéristiques ou les descripteurs de bas niveau. Les descripteurs de bas niveau concernent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets qui sont extraits de certains plans de la vidéo de manière visuelle. En effet, le plan et sa structure joue un rôle important dans la réalisation des matches télévisuels pour montrer et mettre en évidence certaines actions dans un match. Dans ce même chapitre, nous allons présenter quelques méthodes de classification de plans en : loin, médium, proche et hors du terrain.

(20)

Niveau 2 Evénements importants

Niveau 1 Unités sémantiques

Niveau 0 Descripteurs de bas niveau

Vidéo de football

Fig. 2.1:Schéma pour la reconnaissance des événements importants dans la vidéo de matches de football.

2.2

Analyse de la vidéo de football

La reconnaissance des segments ayant une sémantique dans la vidéo de football est possible à réaliser en comparaison avec d’autres types de vidéo du genre commercial ou films. Ceci est dû à l’existence d’une structure de contenu qui est bien définie et aux règles des jeux sportifs en générale. Par exemple, un match de football est présenté en deux parties et dans chacune d’elle, nous trouvons les bordures du terrain, la légende, les ralentis, etc.

2.2.1 Les descripteurs de bas niveau

2.2.1.1 Les descripteurs visuels

Les descripteurs visuels regroupent la couleur, la texture, les bords, le logo, la zone de la tête et la taille des objets. Ils constituent les éléments de la couche inférieure du schéma 2.1. Les transitions de logo sont utilisées dans l’analyse du mouvement parce que les séquences vidéo importantes sont suivies par des ralentis [2]. Or, les ralentis sont entourés de transitions du logo. Nous allons parler en détails des descripteurs visuels dans la sous section 2.2.2.

2.2.1.2 Les descripteurs audio

Dans certains jeux spécifiques, les signaux audio tels que les applaudissements et les sifflements sont des indicateurs d’événements importants. Quelques chercheurs ont utilisé

(21)

les données audio pour reconnaitre les événements importants de haut niveau. K. Wan et al. [22,23], par exemple, ont extrait le descripteur audio pour localiser les segments intéressants dans la vidéo de football et de tennis. Et Z. Xiong et al. [24] ont comparé les performances de classification de la vidéo de sport en utilisant les descripteurs Mel-Fréquence de Coefficients Cepstraux (MFCC) [25] et les descripteurs audio MPEG7 [26].

En raison de l’écart sémantique qui existe entre les descripteurs de bas niveau et les événements importants de haut niveau, quelques chercheurs n’ont pas utilisé directement les descripteurs de bas niveau mais ils ont créé une représentation audio de niveau moyen. L’élément du niveau moyen est appelé événement sonore [27] ou mot clé audio [28] et il est utilisé dans l’analyse des événements de football. Par exemple, D. Zhang et al. [27] ont utilisé la méthode de fusion à base de règles sur les MFCC, les coefficients de prédiction linéaire (LPC) et les descripteurs d’énergie normalisés pour détecter les événements sonores de haut niveau dans la vidéo de basketball. Par ailleurs, M. Xu et al. [28] ont utilisé les Machines à Vecteurs de Support (SVMs) avec les MFCC et les descripteurs de prédiction linéaire des coefficients cepstraux (LPCC) pour classifier les segments audio. Ces segments vidéo sont représentés par des mots clés audio différents tels que le bruit de le public et le discours du commentateur et ils sont utilisés pour reconnaitre les événements importants dans la vidéo de football, de tennis et de basketball.

2.2.1.3 Les descripteurs textuels

A côté des descripteurs visuels et audio, des informations textuelles peuvent être exami-nées. Dans certains cas, l’information textuelle peut bien servir dans la reconnaissance des événements importants parce que le texte contient des sémantiques riches. Le texte dans une vidéo peut être divisé en 2 classes [29] : le texte des scènes est le texte qu’on trouve sur les panneaux d’affichage et sur les vêtements des joueurs. Le deuxième type est le texte sur les légendes qui sont superposées aux plans de la vidéo. Ce dernier type complète les contenus visuels et audio. Plusieurs recherches ont été proposées pour dé-tecter et reconnaître le texte sur la légende. Nous citons l’étude de D. Chen et al. [30] qui ont utilisé les SVMs pour identifier les lignes du texte et la méthode de Reconnaissance Optique des Caractères (OCR) pour reconnaitre les caractères. Et, H.-C. Shih et al. [31] qui ont introduit une méthode robuste pour reconnaitre la légende, l’extraire, la localiser et enfin développer une méthode d’interprétation pour comprendre le score du jeu et même le nom de l’équipe.

(22)

2.2.2 Les descripteurs visuels

2.2.2.1 La couleur dominante

La couleur verte du terrain joue un rôle important dans l’analyse de la vidéo de football parce qu’elle joue un rôle intéressant dans la classification des plans. Cependant, cette couleur varie d’un terrain à l’autre d’où l’utilité de réduire l’effet de l’illumination en utilisant l’espace de couleur HSV. Les études réalisées dans ce domaine [1,19] montrent que les composantes de la teinte et de la saturation sont suffisantes pour segmenter le terrain. Hmean et Smean sont respectivement les composantes de la teinte et de la

saturation de la couleur dominante du terrain, c-à-d les valeurs de pic des histogrammes de la teinte et de la saturation d’un plan loin [19]. Ces valeurs peuvent être obtenues à partir des statistiques faites au début de la période de jeu. La distance entre le pixel f (i, j) et les valeurs de la couleur dominante est définie par l’équation (2.1) [1] :

dhsv =

p

S2(i, j) + S2

mean− 2S(i, j)SmeanCos(θ) (2.1)

Avec θ =| H(i, j) − Hmean|. H(i, j) et S(i, j) sont respectivement les composantes de la

teinte et de la saturation du pixel f (i, j). Donc, si la distance dhsv est plus petite qu’un

certain seuil alors ce pixel appartient au terrain.

2.2.2.2 Le logo

Le logo est un descripteur de bas niveau, largement utilisé dans la détection des répé-titions dans une vidéo de football. Au cours de la diffusion de la vidéo de football, les segments de répétition sont délimités par l’apparition du logo. Ainsi, la détection des répétitions consiste d’abord à détecter les transitions du logo, puis à extraire sa template et enfin à détecter les autres logos à travers une correspondance de templates [20].

Les transitions du logo

Les transitions du logo sont détectées par le déplacement de ce dernier entre des plans consécutifs. Le déplacement concerne la valeur de l’intensité. Cette valeur est calculée par le déplacement quadratique moyen de l’intensité (MSD) [20].

L’extraction du template du logo

L’extraction du template du logo commence par son dégagement de l’arrière plan de l’image. En général, le logo est superposé aux plans. La procédure d’extraction du tem-plate de logo est expliquée dans [20].

(23)

L’étape de détection des autres logos sera détaillée dans la sous section2.2.3.1.

2.2.2.3 Les bords

Le bord est un descripteur utilisé dans la détection du cadre du goal, de la légende et des joueurs. Un grand nombre d’opérateurs permettent la détection des bords, nous citons le filtre gradient [32], le filtre de Robert [33], le fitre de Sobel [33] et le filtre de Canny [34]. Ce dernier filtre atteint un meilleur équilibre entre la diminution du bruit et la détection de bord par l’utilisation de la fonction différentielle de Gauss du premier ordre [4].

2.2.2.4 La texture

La texture est utilisée pour distinguer les plans du public des plans proches. La des-cription de la texture est effectuée par la matrice de co-occurrence de niveaux de gris (GLCM) en raison de sa capacité de classification des textures stochastiques [20]. La GLCM permet de calculer le contraste qui mesure l’écart entre les valeurs de la matrice et la variation des pixels dans leur voisinage local [2].

2.2.2.5 La zone de la tête

La détection de la zone de la tête permet de reconnaitre les plans proches qui contiennent une tête de grande taille. La détection de la tête est réalisée via l’analyse de la couleur de la peau [20]. La détection de la peau peut être effectuée par le modèle gaussien, bayesien [35] ou autres.

2.2.2.6 La taille des objets

La taille des objets sur le terrain est utilisée pour séparer les plans loin des plans mé-dium. La taille des objets exprime la distance entre la caméra et les objets. L’estimation de la taille des objets est réalisée en trois étapes [20] : a) la segmentation du terrain, b) l’extraction du contour convexe du terrain, qui implique la zone de remplissage, la connexion des régions voisines et le suivi du contour convexe et c) la segmentation d’ob-jets et l’estimation de l’échelle. Supposant que la hauteur moyenne des obd’ob-jets est H0

et la hauteur du terrain dans l’image est Hf, alors la taille des objets est calculée par

(24)

2.2.3 Les unités sémantiques de niveau moyen

Une unité sémantique est un segment vidéo composé de plans continus qui représentent un seul et même événement. L’unité proche par exemple est constituée de plusieurs plans proches [2]. De même, l’unité légende est composée d’un ensemble de plans consécutifs qui contiennent des légendes [2]. Ainsi, la détection de certains descripteurs de bas niveau permet de reconnaitre les unités sémantiques qui se trouvent dans le segment vidéo. Et la présence d’unités sémantiques particulières indique un événement important spécial. X.-F. Tong et al. [2] ont défini neuf unités sémantiques : la répétition, le cadre du goal, la zone de penalty, le coin du terrain, la légende, le plan proche, le public, l’arbitre et le plan proche avec légende. L’événement but par exemple est accompagné des unités : ralentis, cadre du goal, zone de penalty, l’arbitre, plans proches avec l’excitation du public et une apparence du tableau des scores en cas de résultat favorable.

Nous allons présenter dans ce qui suit les caractéristiques des neuf unités sémantiques du niveau intermédiaire du schéma 2.1.

2.2.3.1 Unité ralenti

Un ralenti est une manière spéciale d’édition de la vidéo. Il permet de souligner un événement important pour une ou plusieurs fois avec des transitions du logo au début et à la fin du ralenti. La détection des répétitions se fait via la détection du logo [1]. Ainsi, X.-F. Tong et al. [1] utilisent une fenêtre coulissante locale w pour examiner les 2 ∗ w + 1 déplacements du logo dans des plans consécutifs. Si fi, i = 1, 2, ..., N est la séquence de

plans et Di= d(fLT, fi) est la distance entre le template du logo fLT et le plan fi, alors

Di, i = 1, 2, ..., N − 1 est la séquence de distances entre le logo et un plan fl si [20] :

– Dl est la distance minimale au sein d’une fenêtre coulissante locale de taille 2 ∗ w + 1,

c à d : Dl ≤ Dj avec j = 1 − w, ..., l − 1, l, l + 1, ..., 1 + w, et

– Dl est plus petite qu’un certain seuil θ fixé et

– La distance entre les plans fl et le template du logo est très petite.

Donc, une scène bornée par une paire de logos est un ralenti si sa longueur est plus petite qu’un seuil prédéfini.

2.2.3.2 Unité cadre du goal

Le cadre du goal est un descripteur intéressant lors de la détection des événements importants qui contiennent l’unité cadre du goal. Cette unité sémantique est détectée dans les plans loins où l’intensité du gris est élevée [1,2].

(25)

2.2.3.3 Unité légende

La légende apparaît lors de l’affichage du score, d’un carton jaune/rouge, de statistiques techniques et pendant le changement de joueurs. Une unité légende est un segment où les plans contiennent une légende. Cependant, il est difficile de reconnaître le texte sur cette dernière mais son apparence indique habituellement un événement spécial [1].

La légende peut être détectée par la méthode du gradient cumulé localement [2,36]. Cette méthode consiste à traiter la zone de la légende comme une zone de texture spéciale, alignée avec des traits verticaux. Aussi, les gradients des voisins locaux sont plus grands et plus uniformes que d’autres traits dans d’autres régions. La recherche de la légende se fait dans la partie basse des plans parce que la légende apparaît souvent en bas de l’image.

2.2.3.4 Unité plan proche et public

Un plan proche sert à focaliser un joueur qui a réalisé un événement important. Tandis que le plan public est affiché en général après les événements importants pour reporter les célébrations des supportaires. Une méthode de recherche des plans proche et public est proposée par X.-F. Tong et al. [1,2]. Ils classifient les images en loin, médium, proche et public en utilisant l’arbre de décision illustré sur la figure2.2. X.-F. Tong et al. détectent les noeuds de l’arbre via le calcul du ratio de la couleur dominante et de la valeur du contraste de la texture. Au fait, un plan loin contient un grand ratio d’herbe, par contre les plans proche et public ont le ratio d’herbe le plus faible.

(26)

Ratio de la couleur de l’herbe > T h1

Plan loin Oui

Ratio de la couleur de l’herbe > T h2 Non Plan médium Oui Contraste de la texture > T h3 Non Plan public Oui Plan proche Non

Fig. 2.2: Un arbre de décision pour la classification des plans en utilisant le couleur de l’herbe et le contraste de la texture [1,2].

T h1, T h2 et T h3 sont des seuils de comparaison.

2.2.3.5 Unité plan proche et légende

Une unité plan proche et légende est caractérisée par la superposition d’un plan proche et d’un plan légende. Ce type d’unité est utilisé lors d’une faute grave qui nécessite un carton jaune/rouge ou bien aux moments de changements de joueurs [1,2].

2.2.3.6 Décomposition de la vidéo en unités sémantiques

Nous remarquons que la vidéo de football est composée de plusieurs unités sémantiques. Et la présence de certaines unités sémantiques spécifiques indique un événement impor-tant spécial. La figure 2.3présente des unités sémantiques sur une séquence vidéo d’un match de football [2].

(27)

Fig. 2.3:La représentation des unités sémantiques sur une séquence vidéo [2].

Avec L : plan loin, M : plan médium, U : plan proche, S : unité ralenti, G : unité cadre du goal, C : unité légende et A : unité public.

Cette séquence vidéo est composée, dans l’ordre, de : six plans loins, deux unités cadres du goal, un plan médium, trois plans proches, une unité public, douze unités ralentis, quatre plans proches, trois plans loins, trois unités légendes et trois plans loins.

2.2.4 Les événements importants de haut niveau

Les unités sémantiques du niveau moyen jouent un rôle primordial dans la reconnaissance des événements importants dans la vidéo de football. Le tableau2.1montre un ensemble d’événements importants et les unités sémantiques qui les accompagnent.

Unités sémantiques/ Ralenti Cadre du Zone de Coin du Arbitre Plan public Tableau Evénement important goal penalty terrain proche d’état

But X X X X X X Penalty X X X X X X Corner X X X X X X X Faute directe X X X X X X Carton jaune/rouge X X X X Changement de joueurs X X X X

Tab. 2.1:Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent.

(28)

Les figures2.4,2.5,2.6,2.7,2.8et2.9montrent, dans l’ordre, les séries de plans des événe-ments importants : but, penalty, corner, faute directe, carton jaune/rouge et changement de joueurs.

(a) Zone de penalty (b) Zone de penalty (c) Cadre du goal (d) L’arbitre

(e) Le public (f) Plan proche (g) Le public (h) Plan proche

Fig. 2.4: Une série de plans lors d’un but.

(a) Zone de penalty et cadre du goal

(b) Zone de penalty et cadre du goal

(c) Zone de penalty et cadre du goal

(d) Zone de penalty et cadre du goal

(e) Plan proche (f) Plan proche (g) Le public (h) Le public

(29)

(a) Zone de penalty, cadre du goal et coin du terrain

(b) Zone de penalty et cadre du goal et coin du terrain

(c) Zone de penalty et cadre du goal et coin du terrain

(d) Plan proche

Fig. 2.6:Une série de plans lors d’un corner.

(a) Zone de penalty et cadre du goal

(b) Zone de penalty et cadre du goal

(c) Zone de penalty et cadre du goal

(d) Zone de penalty et cadre du goal

(e) Plan proche (f) Plan proche (g) Plan proche (h) Plan proche

Fig. 2.7: Une série de plans lors d’une faute directe.

(a) L’arbitre (b) Plan proche (c) Tableau d’état (d) Tableau d’état

(30)

(a) L’arbitre (b) Plan proche (c) Tableau d’état (d) Tableau d’état

Fig. 2.9:Une série de plans lors d’un changement de joueurs.

2.3

Techniques de classification des plans

On a vu précédemment que la reconnaissance des événements importants dans la vidéo de football nécessite une opération de classification de plans. Ainsi, le traitement de la vidéo commence par la segmentation du flux multimédia. Ensuite, les segments résultants subissent une opération d’extraction des images clés ou images représentatives. Puis, nous classifions ces dernières en types de plans. Nous distinguons les types : loin, médium, proche et hors du terrain. La classification des plans est une étape primordiale dans le processus de reconnaissance des événements importants. En outre, le domaine de connaissance à montrer qu’un événement important commence toujours par l’affichage de plusieurs plans loin, suivis par quelques plans médiums et à la fin, plusieurs plans proches sont diffusés.

Plusieurs recherches ont été effectuées dans le domaine de la classification des plans. Nous citons les techniques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l’apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la classification des plans haut-bas [8].

2.3.1 Classification des plans avec la carte de blocs du terrain

Ahn et al. [19] ont proposé une méthode pour classifier les plans en quatre types : loin, médium, proche avec le terrain en arrière plan (CloseFB) et proche sans terrain en arrière plan (CloseNFB). Leur méthode traite la quantité et la localisation des régions vertes du terrain sur les plans. Les plans loin sont des images capturées d’une longue distance. Par conséquent, la plupart des parties du plan ont tendance à être occupées par le terrain. Dans les plans médium, les parties basses du plan sont souvent remplies d’herbe. Ensuite, Ahn et al. divisent les plans proches en deux groupes : proche avec du terrain et proche sans terrain. L’approche d’Ahn et al. [19] consiste alors à construire une carte de blocs du

(31)

terrain et à détecter les frontières des plans pour classifier les images clés. Le traitement est réalisé selon le processus suivant :

1) Partitionner le plan en question en blocs de 16*16 pour générer une carte de blocs de terrain (GBM) du plan. Un bloc de terrain est caractérisé par un grand nombre de pixels verts.

2) Détecter les bordures de plans en utilisant la différence temporelle entre les blocs TBD dans les GBMs.

3) Séparer les plans loin des autres par la recherche du plus long segment vidéo qui contient des pixels verts à la iime colonne du bloc (LGS

i). Si la longueur du LGSi est

supérieure à un certain seuil alors le plan est loin sinon il est non loin. Ensuite, les plans non loin sont classifiés en : plans qui contiennent une partie du terrain, plans qui visualisent la moitié du terrain et les plans qui affichent tout le terrain. Ahn et al. [19] distinguent les trois types de plans non loin par le calcul du nombre de blocs de terrain localisés sur la moitié supérieure et la ligne basse du plan.

2.3.2 Classification des plans avec un arbre de décision

Tong et al. [20] définissent cinq types de plans : répétition, loin, médium, CloseFB, CloseNFB et hors du terrain. Tong et al. utilisent la méthode proposée par Duda et al. [3] qui ont construit l’arbre de décision illustrée sur la figure 2.10. La classification des plans est réalisée via l’analyse d’un ensemble de descripteurs visuels.

(32)

La paire de logo ? Répétition Oui Terrain > T 1 Non Tête ? Oui CloseFB Oui Taille > T 3 Non Médium Oui Loin Non Texture > T 2 Non Hors du terrain Oui CloseNFB Non

Fig. 2.10: Un arbre de décision pour la classification des plans en utilisant des des-cripteurs visuels [3].

T 1, T 2 et T 3 sont des seuils de comparaison.

Au niveau 0, X. Tong et al. partitionnent la vidéo en plans de répétition et de non répétition par la détection des transitions du logo. Ensuite, les segments de non répétition sont classifiés en plans loin, médium, proche et hors du terrain. Puis, X. Tong et al. [20] étiquettent tous les plans et ils les classifient en utilisant un schéma de vote. Au niveau 1, ils détectent le terrain en arrière plan pour séparer les plans closeF B, loin et médium des plans hors du terrain et closeN F B. Dans la branche gauche du niveau 2, X. Tong et al. exploitent les caractéristiques de la zone de la tête pour distinguer les plans closeF B des plans médium et loin. Dans la branche droite, X. Tong et al. utilisent le descripteur de la texture de la matrice de co-occurrence de niveau de gris (GLCM) pour différencier les plans hors du terrain des plans closeN F B. Et au niveau 3, X. Tong et al. emploient la taille des objets sur le terrain pour distinguer les plans médiums des plans loins.

2.3.3 Classification des plans avec les SVMs

Y-H Zhou et al. [4] proposent une méthode de classification des plans qui utilise la couleur dominante, les bords et la longueur des plans. L’analyse du contenu de la vidéo commence par la détection des bordures des plans. Ensuite, Y-H Zhou et al. extraient la couleur dominante, les bords et la longueur des plans. Les trois descripteurs précédents seront appris à l’aide de trois SVMs. La figure 2.11 illustre le système de classification des plans avec les SVMs :

(33)

Fig. 2.11:Système de classification des plans avec les SVMs [4].

Y.-H. Zhou et al. [4] utilisent un Modèle de Mélange de Gaussiennes (MMG) pour re-connaitre les pixels de couleur verte. Bien que la couleur peut caractériser les principaux types de plans mais elle reste sensible à la lumière au moment de l’enregistrement de la vidéo et aux conditions du terrain de jeu. En outre, si le terrain est ombré, il y aurait beaucoup d’erreurs lors de l’utilisation de la couleur et par conséquent, le terrain ne sera pas détecté complètement. Pour cela, Y.-H. Zhou et al. utilisent les bords dans la classification des plans. En effet, les bords sont moins influencés par l’ombre et ils sont détectés par le filtre de Canny.

La couleur et le bord sont des descripteurs structurels d’un plan. Cependant, ces descrip-teurs ne représentent pas le caractère temporel des plans. En fait, la durée de diffusion des différents types de plans est différente. Par exemple, le plan loin qui reflète le dé-roulement du jeu a une durée de diffusion qui est longue. Tandis que le plan médium qui présente un joueur entrain de courir après un ballon a une courte durée de diffusion. De même, un plan proche est affiché pendant un petit moment pour présenter un joueur après une séquence vidéo d’un événement important d’habitude. De là, la longueur de plans peut être utilisée aussi dans la classification des plans. Enfin, Y.-H. Zhou et al. [4] utilisent les SVMs pour classifier les plans.

2.3.4 Classification des plans avec les SVMs et les histogrammes de projection

N. Nan et al. [5] proposent une méthode de classification de plans qui utilise les SVMs, les histogrammes de projection et quelques descripteurs visuels de bas niveau tels que

(34)

la couleur dominante, les bords et la texture. Le schéma 2.12 illustre le système de classification des plans en : loin, médium, proche et public.

Fig. 2.12: Une structure pour la classification des plans avec les SVMs et les histo-grammes de projection [5].

2.3.5 Classification des plans par la détection des lignes du terrain

A. Ekin et al. [6] classifient les plans de la vidéo de football en : 1) loin, 2) médium et 3) hors du terrain ou proche. D’abord, ils identifient les plans en loin et médium en utilisant la taille des objets et leur nombre dans chaque plan. Un plan loin est caractérisé par un ratio élevé de pixels colorés en vert et par plusieurs joueurs sur le terrain. Ainsi, A. Ekin et al. calculent le ratio R de pixels verts et déduisent que c’est un plan loin si R > Tmax

sans calculer d’autres descripteurs. Tmax est le ratio de pixels verts dans un plan loin.

Aussi, un plan médium est caractérisé par un ratio élevé de pixels verts et par un certain nombre d’objets sur le terrain. Un objet est défini par des pixels non colorés en vert sur l’arrière plan. Tandis que les plans hors du terrain et proche sont caractérisés par un petit ratio de pixels verts.

De plus, A. Ekin et al. [6] proposent l’utilisation d’une technique de correspondance entre les lignes détectées sur le terrain et leur cartographie sur un modèle de terrain. Or, O. Yow et al. [37] proposent une technique pour détecter la zone du goal. Cette zone est représentée par deux lignes horizontales très proches et une autre ligne horizontale à une distance plus loin. Cette technique est caractérisée par sa robustesse devant le bruit. Donc, la détection des plans loin est réduite à la détection de trois lignes horizontales parallèles (ou bien deux lignes horizontales en cas d’effacement de la ligne de penalty). La

(35)

détection des lignes est réalisée par la transformée de Hough [38]. La figure2.13 montre l’algorithme de classification de plans par la détection des lignes.

Fig. 2.13:Algorithme de classification de plans par la détection des lignes du terrain [6].

2.3.6 Classification des plans avec la règle du Golden Section Spatial Composition

A l’instar de leur premier article (traité dans la sous section 2.3.5), A. Ekin et al. [7] définissent trois types de plans dans la vidéo de football. Ils utilisent la règle du Golden Section Spatial Composition qui divise l’image en 3 :5 :3 proportions dans les deux directions comme illustré sur le figure 2.14. Cette règle analyse le positionnement des objets sur les neuf parties du plan.

(36)

Fig. 2.14:Les neuf portions d’un plan [7].

A. Ekin et al. ont défini huit descripteurs pour mesurer la distribution des pixels de l’herbe sur les plans médium et loin et, ils distinguent deux descripteurs importants :

1- GR2 : le ratio de pixels de l’herbe de la portion 2 sur la figure2.14.

2- Gdif f : la valeur moyenne de la différence absolue des pixels verts entre R1 et R2, et

entre R2 et R3. Cette valeur est calculée par l’équation (2.2) :

Rdif f =

1

2(|GR1− GR2| + |GR2− GR3|) (2.2) R1, R2 et R3 sont les portions 1, 2 et 3 de la figure 2.14.

Ensuite, ils utilisent un classifieur bayesien avec les deux descripteurs précédents. Le classifieur bayesien attribue un vecteur de descripteurs x, qui est supposé avoir une dis-tribution de Gauss, à la classe qui maximise une fonction discriminante g(x) quelconque.

2.3.7 Classification des plans avec la méthode haut-bas

L.-Y. Duan et al. [8] utilisent une méthode de classification des plans appelée haut-bas. Cette approche utilise un modèle de domaine pour définir les trois classes de plans : loin, médium et proche. Le modèle de domaine proposé par L.-Y. Duan et al. [8] traitent les quatre éléments suivants : 1) la relation spatiale entre le terrain de jeu, les joueurs et le public, 2) la relation sémantique entre les mouvements de la caméra et l’objectif du caméraman, 3) la relation sémantique entre l’apparition du marqueur et les événements potentiels et 4) les descripteurs visuels calculés lors de l’analyse des éléments ci-dessus.

La figure 2.15 montre que la classification des plans est réalisée en deux phases : l’ap-prentissage et la classification. La phase d’apl’ap-prentissage permet de collecter les règles de décision nécessaires pour classifier les plans. Cette phase utilise une base d’apprentissage constituée de plusieurs images de classes différentes. Ensuite, L.-Y. Duan et al. réalisent la phase de classification de plans en quatre opérations. Premièrement, ils extraient les descripteurs de bas niveau : la couleur, la texture et le vecteur de mouvement sur le

(37)

terrain à partir des images clés de la séquence vidéo [8]. Deuxièmement, ils exploitent les descripteurs de bas niveau pour produire d’autres descripteurs, de niveau moyen, comme le mouvement dominant, le mouvement indépendant et les régions homogènes. Troisième-ment, L.-Y. Duan et al. utilisent les descripteurs du niveau moyen et les règles de décision collectées de la phase d’apprentissage pour analyser les séquences vidéo. Cette opération crée une carte de descripteurs de niveau moyen et elle leur attribue des sémantiques de haut niveau. Finalement, la classification des plans est réalisée via les sémantiques de haut niveau et les règles de décision précédentes [8].

Fig. 2.15:Un framework pour la classification des plans avec la méthode haut-bas [8].

2.3.8 Résumé

Le tableau2.2présente un sommaire des recherches réalisées dans le cadre de la classifi-cation des plans.

(38)

Références Classes de plans Descripteurs utilisés Classifieurs/Algorithmes X. Tong et al. [20] Loin, médium, closeFB Logo, ratio du terrain, Arbre de décision

closeNFB, hors du zone de la tête, texture terrain, répétition taille des objets

K. Wan et al. [39] Loin, médium, proche Taille du terrain, taille Algorithme des objets, bords personnalisé L. Xie et al. [40] Play, break ratio du terrain, MMC

intensité du mouvement

L. Wang et al. [41] Loin, hors du terrain, couleur MMG proche

Y.-L. Kang et al. [42] Loin, médium, proche coulour, bordures, SVM taille des objets,

position des joueurs sur le terrain, texture

I. Ahn et al. [19] Loin, médium, Ratio de la couleur Carte de bolcs closeFB, closeNFB de terrain Y.-H. Zhou et al. [4] Loin, médium, proche Couleur, bord SVM

longueur du plan

N. Nan et al. [5] Loin, médium, proche, Couleur, détection SVM et histogrammes public des bords, la texture de projection A. Ekin et al. [6] Loin, médium, proche Taille des objets, ratio Détection des lignes

et hors du terrain du vert, nombre d’objets du terrain (hough) A. Ekin et al. [7] Loin, médium, proche Couleur du terrain Golden Section

Spatial Composition L.-Y. Duan et al. [8] Loin, médium, proche Vecteur de mouvement Technique Haut-bas

sur le terrain, texture, couleur

Y. Yang et al. [21] Loin, médium, proche Couleur, mouvement MMC Tab. 2.2:Sommaire des techniques de classification des plans.

2.4

Conclusion

Dans ce deuxième chapitre, nous avons effectué un état de l’art de la vidéo de football pour reconnaitre les événements importants. Cet état de l’art nous a permis de distinguer trois types de caractéristiques de la vidéo classées par niveaux. Les caractéristiques de haut niveau sont les événements importants dans la vidéo de football tels que : les buts,

(39)

les penalties, les corners, les fautes, les cartons jaune/rouge et les tentatives pour mar-quer un but. Ces événements importants sont caractérisés par l’apparition de certaines unités sémantiques. Une unité sémantique est composée d’une suite de plans du même événement. En fait, un événement est constitué de plusieurs unités sémantiques et la présence de certaines unités sémantiques spécifiques indique l’existence d’un événement important particulier. A ce propos, le domaine de connaissance montre qu’il y’a neuf unités sémantiques [2] : les ralentis, les cadres du goal, les zones de penalty, les coins du terrain, les légendes, les plans proches, le public, l’arbitre et les plans proches avec légende. Le traitement de ces unités sémantiques est réalisé via un ensemble de descrip-teurs de bas niveau comme la couleur, la texture, les bords, le logo, la zone de la tête, la taille des objets, etc.

Ainsi, l’étude des unités sémantiques du niveau intermédiaire se focalise sur la classifi-cation de plans. Cette opération est intéressante dans la reconnaissance des événements importants dans la vidéo de football. En effet, les séquences vidéo importantes se com-posent d’images clés de classes différentes : loin, médium et proche et elles sont ordonnées de façon particulière. Pour cette raison la classification des images clés ou plans est une technique critique dans l’analyse de la vidéo. A ce sujet, un grand nombre d’algorithmes de classification des plans a été proposé. Nous avons présenté dans ce chapitre les tech-niques qui utilisent : 1) la carte de blocs du terrain [19], 2) l’arbre de décision [20], 3) les SVMs [4], 4) les SVMs et les histogrammes de projections [5], 5) l’apparition les lignes du terrain [6], 6) la règle de la Golden Section Spatial Composition [7] et 7) la méthode haut-bas [8].

(40)

Modélisation des séquences vidéos

de matches de football

Dans le chapitre 2, nous avons effectué une analyse de la vidéo de football. L’analyse de la vidéo de football est une étape très importante dans la reconnaissance des événements importants. A ce propos, nous avons présenté les différents types de descripteurs dans la vidéo de football. De plus, nous avons exposé un ensemble d’outils de classification de plans. Cette opération permet de classifier les images clés des séquences vidéos. Le chapitre courant parle de la modélisation des séquences vidéos de football afin de re-connaitre les événements importants. Ainsi, nous présentons dans la première section les deux grandes classes d’approches pour modéliser les événements importants dans la vidéo de football. Ensuite, nous exposons les MMCs dans la deuxième section. Ils repré-sentent un bon outil de modélisation des événements de football grâce à leur habilité à modéliser les événements spatiaux temporels. Et dans la troisième et dernière section, nous proposons un ensemble de techniques de reconnaissance des événements importants dans la vidéo de matches de football, que nous avons trouvé dans la littérature.

3.1

Classes d’approches de modélisation des séquences

vi-déos

La reconnaissance des événements importants nécessite la modélisation des séquences vidéo. Dans la littérature, nous trouvons deux grandes classes d’approches pour modéliser les séquences vidéos de football [14] : les approches basées sur les règles et les approches statistiques.

(41)

3.1.1 Approches basées sur les règles

Les approches basées sur les règles utilisent le domaine de connaissance pour définir un ensemble de règles de classification sémantique des séquences vidéos [15,16]. A ce sujet, Xu et al. [15] ont défini des règles heuristiques pour étudier les transitions d’images dans les séquences vidéos en vue d’en extraire des informations dites de structure. Ces informations de structure permettent de définir les états de jeu play et break. L’état play correspond à un segment vidéo où le jeu est en cours tandis que l’état break répond à un segment où le jeu est arrêté. Encore, Duan et al. [16] ont défini des règles pour tracer une carte de caractéristiques visuelles et audio des séquences vidéos. Au fait, les approches basées sur les règles sont distinguées par la facilité de gestion des règles c-à-d en cas d’ajout d’une nouvelle règle, de suppression et de modification des règles existantes. Cependant, quand le type de la vidéo traité change, les règles doivent être refaites manuellement.

3.1.2 Approches statistiques

Les approches statistiques représentent la deuxième classe d’approches de modélisation des séquences de football. Ces approches utilisent des méthodes d’apprentissage pour classifier les séquences de la vidéo de sport [43]. Nous citons dans ce qui suit quelques techniques trouvées dans la littérature.

3.1.2.1 Les Machines à Vecteurs de Supports (SVMs)

Les SVMs ont été annoncés dans les années 1990 par V ladimir V apnik qui a développé une théorie statistique d’apprentissage appelée la Théorie de Vapnik-Chervonenkis. Les SVMs ont rapidement été adoptés pour leur capacité à manipuler des données de grandes dimensions et à leur propriété de généralisation des résultats de la classification des don-nées multimédia. A ce propos, plusieurs études ont été réalisées pour analyser la vidéo de sports avec les SVMs. Nous citons l’étude de Y. Ma et al. [44] qui ont utilisé les SVMs pour modéliser les caractéristiques du mouvement dans la vidéo afin de distinguer les différents types de clips. Et dans [16,45], L.-Y. Duan et al. et M. Xu et al. ont exploité les SVMs pour créer des mid − level sports audio keywords. En liaison avec les SVMs, l’extension SVMs hiérarchiques est développée pour traiter le cas où un simple SVM ne peut pas distinguer toutes les classes requises en une seule étape [45]. De manière géné-rale, les SVMs peuvent être utilisés dans la résolution des problèmes de discrimination pour décider à quelle classe appartient un échantillon. De même, les SVMs traitent des problèmes de régression pour prédire la valeur numérique d’une variable.

(42)

3.1.2.2 Les réseaux de neurones (RNs)

Les réseaux de neurones représentent une deuxième approche statistique pour classifier les événements de la vidéo de football. Les RNs sont utilisés dans divers domaines tels que le traitement du signal, le traitement d’image et de la parole, la robotique, etc. Les réseaux de neurones utilisent l’algorithme perceptron multicouche, développé en 1985 [46]. L’algorithme perception multicouche est un algorithme de rétro propagation du gra-dient. Ce dernier détermine l’erreur commise par chaque neurone du réseau lors de la phase d’apprentissage et il modifie la valeur du poids de chaque neurone pour minimi-ser cette erreur. Les rétro propagations sont itérées jusqu’à ce que l’erreur quadratique moyenne devienne inférieure à un certain seuil. Diverses études sur le traitement de la vidéo de sport avec les réseaux de neurones ont été réalisés. J. Assfalg et al. [12] ont utilisé deux RNs pour classifier les plans de la vidéo de football. Les RNs permettent la reconnaissance des bords du terrain et de la couleur verte. Aussi, V. Kobla et al. [47] ont employé les réseaux de neurones pour segmenter la région du texte dans la vidéo de sport.

3.1.2.3 Les Modèles de Markov Cachés (MMCs)

D’autres approches statistiques de modélisation des séquences vidéos reposent sur les MMCs. Les MMCs sont utilisés lors de l’apprentissage et la reconnaissance des événe-ments importants dans la vidéo de football. Leur popularité est due à leur habilité à modéliser les motifs spatiaux temporels dans les séquences vidéos. Les MMCs seront détaillés à la section3.2.

3.1.2.4 Autres algorithmes

En plus des algorithmes déjà cités, il y’a d’autres approches statistiques telles que les Chaînes de Markov Contrôlées [48], le maximum d’entropie [49], le classifieur bayesien naïf [50] et le réseau de confiance bayesien [51].

3.2

Les Modèles de Markov Cachés

La manipulation des données avec les MMCs entre dans le cadre de la programmation dynamique, introduite par Bellman en 1960 [52]. La programmation dynamique permet de résoudre une catégorie particulière de problèmes d’optimisation sous contraintes. La plupart des systèmes de reconnaissance automatique des événements importants dans

(43)

la vidéo de football utilisent la théorie des MMCs. Dans un MMC, et contrairement aux Modèles de Markov Discrets [52], les observations ne sont pas reliées à une seule classe bien déterminée mais à des fonctions statistiques liées aux classes du modèle. Les modèles de Markov sont dits "cachés" parce que les classes du MMC ne sont pas observées directement. Ces observations sont produites par les états du MMC à travers une fonction statistique différente pour chaque classe du modèle [52].

3.2.1 Les paramètres du MMC

Un MMC est défini par [53,54] :

– N états d’entrée réunis dans un vecteur d’états S = (s1, s2, ..., sN). On note qt(qtS),

l’état observé à l’instant t ;

– Un vecteur de symboles observés dans chaque état du modèle. L’ensemble des obser-vations possibles est noté par O = (o1, o2, ..., oT). Avec ot(otO) le symbole observé à

l’instant t et T correspond au nombre d’observations dans la séquence O. – Une matrice de transitions a. Elle est calculée par l’équation (3.1) :

aij = P (st+1= j/st= i) (3.1)

pour 1 ≤ i, j ≤ N et 1 ≤ t ≤ T avec PNj=1aij = 1 et aij ≥ 0.

La matrice a est de taille N ∗ N . L’élément aij représente la probabilité d’atteindre

l’état j dans la prochaine transition sachant que le système est à l’état i.

L’équation (3.1) montre que l’état observé à l’instant t + 1 ne dépend que de son passé immédiat, c-à-d de l’état st;

La figure 3.1illustre ce phénomène :

Figure

Tab. 2.1: Les événements importants dans la vidéo de football et les unités sémantiques qui les accompagnent.
Fig. 2.5: Une série de plans lors d’un penalty.
Fig. 2.6: Une série de plans lors d’un corner.
Fig. 2.9: Une série de plans lors d’un changement de joueurs.
+7

Références

Documents relatifs

Keywords: Glass, Transcription factor, Drosophila, Schmidtea, Platynereis, Photoreceptor development, Rhabdomeric photoreceptors, Eye development, Evolutionary conservation.. ©

The key component in the proposed kinetic model is a given

We analyze the spectral properties for three-body Schr¨ odinger op- erators at the threshold zero and give some results on the asymptotics of resol- vent under the condition that

Le système polyfonte est ensuite adapté successivement à chacune des 30 polices de test en utilisant les deux méthodes différentes : une adaptation des Gaussiennes

Ces modes d’acquisition de l’information (avec leur corollaire, les procédures de protection du secret, d’intoxication ou de déception des décideurs adverses,

Ces élèves sont, a priori, capables de lire, dans l’acception technique du terme, mais présentent de sérieuses difficultés pour comprendre et apprendre à partir de leur

7KLV WHVW SHUIRUPHG IURP EORRG FXOWXUHV PD\ KDYH WKH VDPH OLPLWDWLRQ DV WKH 5DSLG. 3RO\P\[LQ 13 WHVW SHUIRUPHG IURP EDFWHULDO FRORQLHV   LH WKH ODFN

Anlässlich der Jubiläen der Gründung des Internationalen Komitees vom Roten Kreuz in 1863 und dem 1864 unterzeichneten ersten Genfer Abkommen veranstalten die Musées