Reconnaissance automatique des visages

Top PDF Reconnaissance automatique des visages:

Un modèle basé template matching/ réseau de neurones pour la reconnaissance des visages

Un modèle basé template matching/ réseau de neurones pour la reconnaissance des visages

Dans cette thèse, on proposera un modèle pour la reconnaissance automatique des visages, en combinant entre deux approches de l’Intelligence Artificielle. Les images utilisées sons représentées en forme d’intensité de pixel, avec une vue frontale des visages. Chaque visage sera décrit par un vecteur de caractéristiques représentant les trois principales composantes du visage qui sont : les yeux, le nez et la bouche. On utilisera pour la description de ces caractéristiques la théorie des moments invariants, et plus particulièrement, les invariants de Hu. Ces moments vont construire l’ensemble des vecteurs de caractéristiques utilisés comme entrées pour l’apprentissage et le test du réseau de neurones, en fin le réseau établira son identification et sa décision finales.
En savoir plus

116 En savoir plus

La Reconnaissance Automatique Des Individus Basée Sur L’Iris En Utilisant L’algorithme De KNN

La Reconnaissance Automatique Des Individus Basée Sur L’Iris En Utilisant L’algorithme De KNN

La reconnaissance basée sur le visage vérifie l’identité, en comparant les données caractéristiques extraites des visages de différentes personnes à partir de vidéos ou d’images fixes ( FigureI-8 ).La fabrication des caméras connaît actuellement d’énormes développements, on est capable de prendre des photos de personnes distantes sans qu’ils ne sachent qu’ils sont observés. C’est pour cette raison que la reconnaissance de visages est trop utilisée dans les applications de contrôle de frontières, dans la sécurité des établissements, des zones urbaines et dans l’identification des conducteurs. C’est une technique commune, populaire, simple et qui a beaucoup d’avantages à savoir : l’utilisation des visages qui sont des données publiques, la possibilité de s’intégrer aux systèmes de surveillances existants et elle ne nécessite pas des équipements chers. Cependant, des éléments externes comme l’éclairage, le bruit, l’expression facile et la posture dégradent les taux de reconnaissance [1; 2]
En savoir plus

98 En savoir plus

2012 — Réalisation de classificateurs neuroniques pour la reconnaissance à basse puissance de visages dans des séquences vidéo

2012 — Réalisation de classificateurs neuroniques pour la reconnaissance à basse puissance de visages dans des séquences vidéo

CONCLUSION Comme il a été possible de voir dans cet ouvrage, la biométrie permet d’augmenter le niveau de sécurité en utilisant quelque chose d’intrinsèque à la personne au lieu de quelque chose qu’elle possède ou qu’elle connaît pour identifier un individu. Parmi les différents traits biométriques qu’un système d’identification automatique peut utiliser, la reconnaissance du visage se démarque par l’aisance d’acquisition et son acceptabilité sociale, mais elle n’est pas aussi discriminante que d’autres traits biométriques. L’analyse par composantes principales, ou ACP, permets de réduire la dimensionnalité des régions d’intérêt avant de les soumettre sous forme de motifs d’entrée tout en gardant le maximum d’informations pertinentes. Le classificateur neuronique fuzzy ARTMAP utilisé est un algorithme polyvalent qui offre un bon taux de classification et de compression tout en restant algorithmiquement simple dû à l’utilisation d’une distance L 1 et en remplaçant la multiplication par un opérateur fuzzy min
En savoir plus

113 En savoir plus

Traitement automatique d’images de visages algorithmes et architecture

Traitement automatique d’images de visages algorithmes et architecture

𝑖 0 (𝑟) , 1 < 𝑟 < 𝑅 0 (2.15) 2.4.5.2 Filtre de Gabor Le filtre de Gabor[ 2 ], nommé d'aprè s Dennis Gabor physicien anglais d’origine, est un filtre liné aire largement utilisé dans le domaine de traitement d’image pour l’analyse de texture, dont la ré ponse impulsionnelle est une sinusoï de modulé e par une fonction gaussienne (é galement appelé e ondelette de Gabor). Le filtre de Gabor est utilisé dans de nombreuses applications d'analyse d'images, y compris la dé tection des contours, la segmentation de texture, l'extraction de caracté ristiques, la classification, la reconnaissance d’objets dans une image, la reconnaissance de l'alphabet, l’enregistrement d'image, l’orientation et le mouvement. Ils sont des classes spé ciales de filtres passe-bande, qui autorisent une certaine « bande» de fré quences et en rejettent les autres. Un filtre de Gabor peut ê tre considé ré comme un signal sinusoï dal de fréquence et d’orientations particulières, modulé par une onde gaussienne. Les filtres de Gabor sont des filtres bidimensionnels, dé finis dans les domaines spatial et fré quentiel. Il analyse s'il y a un contenu de fré quence spé cifique dans l'image dans des directions spé cifiques dans une ré gion localisé e autour du point ou de la ré gion. Le filtre de Gabor est similaire à la transformé e en ondelette, suit une distribution gaussienne. Par consé quent, cette transformation est optimale dans le domaine fré quentiel [ 2 ]. L'ondelette de Gabor est une transformation optimale pour minimiser l'incertitude bidimensionnelle associé e à l'emplacement et les domaines de fré quence . Cette ondelette peut ê tre utilisé e comme dé tecteurs d'é chelle directionnels et comparables pour dé limiter les frontiè res et les bords d’images [ 123 ]. De plus, les proprié té s statistiques de cette transformation peuvent ê tre utilisé es pour dé terminer la structure et le contenu visuel des images. De nombreux scientifiques contemporains de la vision confirment que les repré sentations de fré quence et d'orientation des filtres de Gabor sont similaires à celles du systè me visuel humain. Ils se sont avé ré s ê tre particuliè rement approprié s pour la repré sentation et la discrimination de texture.
En savoir plus

178 En savoir plus

Reconnaissance automatique de la parole en milieu réel bruité par fusion audiovisuelle

Reconnaissance automatique de la parole en milieu réel bruité par fusion audiovisuelle

Figure. 2.5 – Localisation de différentes régions de visage (a) automatiquement (b) en utilisant l'approche « template matching », d’après (Brunelli and Poggio 1993). Dans ce travail nous nous n’intéressons pas à la mise au point d'un système de localisation et de suivi de visages. Cette étude bibliographique avait pour but de déterminer la faisabilité, d'une part de la localisation approximative de la zone contenant la bouche (bas du visage), et d'autre part du suivi en temps réel d'un locuteur préalablement localisé. Une recherche bibliographique montre qu’on peut presque supposer qu'il est envisageable d'obtenir des images où la bouche du locuteur est toujours cadrée de manière identique, même si le locuteur bouge. Toutefois, si un certain nombre des techniques précédemment exposées sont utilisables dans le cadre que nous souhaitons étudier où le locuteur n'est pas préparé, le fond non obligatoirement uniforme, l'éclairage naturel et les problèmes d'ombre, les performances que l'on est susceptible d’atteindre risquent de diminuer. En effet, les approches par éléments peuvent être sensibles à un fond non-uniforme qui pourra créer de nombreux faux candidats. Les approches couleur peuvent également voir leurs performances diminuer si l'on ne contrôle pas l'éclairement comme l'explique Hunke (1994).
En savoir plus

158 En savoir plus

2008 — Reconnaissance automatique des émotions à partir du signal acoustique

2008 — Reconnaissance automatique des émotions à partir du signal acoustique

sélectionnées d'après l'étude de Banse & Scherer selon l'expression émotionnelle vocale en allemand (Banse et Scherer, 1996). Le texte utilisé pour simuler les classes d'émotion e[r]

141 En savoir plus

Reconnaissance automatique des crépitants et des sibilants dans les sons acoustiques respiratoires

Reconnaissance automatique des crépitants et des sibilants dans les sons acoustiques respiratoires

Pour répondre à cette problématique, un projet de recherche a été l ancé au département de mathématiques, d'informatique et d e génie (DIMG) de l 'Université du Québ ec à R[r]

121 En savoir plus

Répertoire des Notaires parisiens Segmentation automatique et reconnaissance d'écriture

Répertoire des Notaires parisiens Segmentation automatique et reconnaissance d'écriture

Résumé—Les répertoires des notaires de Paris conservés aux Archives nationales sont parmi les fonds les plus consultés par le public, mais s’ils sont numérisés et disponibles sur la Salle des Inventaires Virtuelle, pour les exploiter les lecteurs doivent toujours en passer par un dépouillement méthodique car ces répertoires ne sont pas transcrits et on ne peut donc pas y effectuer de recherche en plein texte. Afin de les rendre plus aisément utilisables comme inventaires des minutes des notaires, et d’en permettre des exploitations nouvelles, appliquer les techniques de reconnaissance automatique d’écriture à ce volumineux corpus semble particulièrement opportun. La struc- ture régulière des documents, et une certaine prévisibilité de leurs contenus constituent des atouts, tandis que la multiplicité des écritures rencontrées dans les répertoires est une difficulté qui ne peut pas être ignorée. Une phase d’expérimentation a produit des résultats encourageants quant aux performances de la reconnaissance automatique d’écriture sur ces documents, et offert des pistes quant aux moyens de les améliorer au cours d’un projet plus long et plus ambitieux.
En savoir plus

12 En savoir plus

Conception de nouveaux algorithmes pour la reconnaissance des visages

Conception de nouveaux algorithmes pour la reconnaissance des visages

général, ces méthodes sont combinées avec les méthodes de réduction de dimensions et de discrimination présentées au cours du chapitre 1. Le quatrième chapitre permettra dans un premier temps de mettre en évidence les limitations de l’analyse discriminante linéaire. En particulier, la singularité des ma- trices de dispersion et la sensibilité aux données aberrantes. Nous proposerons un al- gorithme (RWLDA/QR) qui résoudra ces deux problèmes en s’appuyant sur la dé- composition QR et en intégrant une fonction de pondération pour limiter l’effet des données anormales qui peuvent surgir dans les images de visages. Puis, nous propo- serons un deuxième algorithme (KRWDA) qui se base sur la théorie des noyaux pour rendre l’algorithme RWLDA/QR non linéaire. A ce stade, nous introduisons aussi deux nouvelles fonctions noyaux qui n’ont pas été utilisées pour la reconnaissance du visage. Ces deux fonctions ont l’avantage d’être plus rapides que les noyaux conventionnels. Enfin, et pour évaluer nos méthodes nous avons effectué une série de tests sur des bases de données standards. Les résultats que nous avons obtenus sont concluants et les taux de reconnaissances se sont nettement améliorés par rapport à ceux des méthodes existantes.
En savoir plus

138 En savoir plus

Reconnaissance automatique de sons de <i>human beatbox</i>

Reconnaissance automatique de sons de <i>human beatbox</i>

Une autre source de difficultés est la variabilité inter et intra-locuteur. L’accent régional, les différences morphologiques dues à l’âge, à un handicap ou au sexe sont autant de sources de variabilités dans la parole. Chez les enfants notamment, le tractus vocal et les cordes vocales sont moins longs que chez les adultes, ce qui donne des caractéristiques acoustiques spécifiques comme une fréquence fondamentale et une fréquence de formants plus hautes [Elenius et al., 2004]. La reconnaissance de parole de voix d’enfants est d’autant plus compliquée qu’une variabilité importante peut exister dans une même tranche d’âge, du fait que l’enfant est en évolution constante et tous les enfants n’apprennent pas au même rythme. La même chose se produit chez les personnes âgés pour qui le contrôle des articulateurs devient de moins en moins précis au cours du temps, la respiration moins bonne, la voix moins forte [Le Grand, 2012]...
En savoir plus

113 En savoir plus

Des images au texte : LECTAUREP, un projet de reconnaissance automatique d'écriture

Des images au texte : LECTAUREP, un projet de reconnaissance automatique d'écriture

Il s’agit de rendre un patrimoine commun accessible, appropriable et “enrichissable” par de nouveaux publics grâce au traitement des numérisations de la collection de répertoires. L’interprétation de ces images fait intervenir en premier lieu des technologies de reconnaissance automatique d’écriture (REM) et d’extraction de structure logique (ESL). Ce travail implique en outre nécessairement l’établissement d’une chaîne de traitement des données ainsi que leur modélisation.

5 En savoir plus

Simulation d'erreurs de reconnaissance automatique dans un cadre de compréhension de la parole

Simulation d'erreurs de reconnaissance automatique dans un cadre de compréhension de la parole

Cette partie décrit le protocole expérimental inspiré d’une étude précédente (Simonnet et al., 2017). 3.1 Le corpus MEDIA Le corpus utilisé est le corpus MEDIA, collecté dans le projet français Media/Evalda (Bonneau- Maynard et al., 2005). Il contient trois ensembles de dialogues téléphoniques humain/ordinateur liés au tourisme, à savoir : un ensemble d’apprentissage (APP) avec environ 17,7k phrases, un ensemble de développement (DEV) avec 1,3k phrases et un ensemble d’évaluation (TEST) contenant 3,5k phrases. Le corpus a été annoté manuellement avec des concepts sémantiques caractérisés par une étiquette et sa valeur. Les évaluations sont effectuées avec les ensembles DEV et TEST et rapportent les taux d’erreur CER (concept error rate) pour les étiquettes de concepts seulement et les taux d’erreur CVER (concept-value error rate) pour les paires étiquette-valeur. Il est à noter que le nombre de concepts annotés dans une phrase a une grande variabilité et peut inclure plus de 30 concepts annotés. Pour ces expériences, une variante du SRAP développé par le LIUM est utilisée. Elle a remporté la dernière campagne d’évaluation sur la langue française (Rousseau et al., 2014). Ce système est basé sur la boîte à outils de reconnaissance vocale Kaldi (Povey et al., 2011). Une description détaillée du SRAP est donnée dans (Simonnet et al., 2017). Les taux d’erreur mot pour les corpus APP, DEV et TEST sont respectivement de 23,7%, 23,4% et 23,6%.
En savoir plus

10 En savoir plus

Reconnaissance automatique de la parole arabe par CMU SPHINX 4

Reconnaissance automatique de la parole arabe par CMU SPHINX 4

Cependant, si le système de reconnaissance idéal n‟existe pas encore, des applications concrètes émergent petit à petit. La reconnaissance automatique de la parole commence à équiper certains téléphones ou GPS qui, en identifiant certains mots clefs, permettent d‟effectuer les tâches demandées. Les systèmes de reconnaissance sont également utilisés pour indexer de grandes bases de données audiovisuelles, pour rechercher des termes dans des flux audio ou encore comme interface de dialogue homme-machine. Dans la pratique, quand les conditions d‟utilisation sont correctes, ces systèmes s‟avèrent efficaces. Néanmoins, les principales limites des systèmes actuels sont relatives à leur robustesse : les conditions d‟utilisation doivent être similaires à celles utilisées pour entraîner le système, l‟environnement sonore peu bruité, les locuteurs ne peuvent pas parler simultanément. Souvent, l‟utilisateur a dû s‟adapter pour utiliser les logiciels.
En savoir plus

91 En savoir plus

La plateforme Bubbles : un outil d'investigation des différences individuelles de stratégies de reconnaissance de l'identité des visages

La plateforme Bubbles : un outil d'investigation des différences individuelles de stratégies de reconnaissance de l'identité des visages

Pour chaque essai, Bubbles enregistre les masques appliqués à chaque bande de fréquences spatiales et la réponse des sujets correspondante à la tâche de reconnaissance. Les masques ayant permis une bonne reconnaissance sont affectés d’un poids positif alors que ceux ayant mené à de mauvaises réponses sont affectés d’un poids négatif. La somme des masques pondérés est effectuée. Cette série d’opération est à peu près équivalente à une régression linéaire multiple entre les masques de bulles et l’exactitude des réponses pour chaque participant. Elle permet de déterminer, pour chaque échelle de fréquence, quelles régions du visage permettent une bonne reconnaissance (Fiset & Gosselin, 2009). Le plan des coefficients de régression généré par cette opération est appelé une image de classification. Ces images de classification sont ensuite sommées pour chacun des essais et pour chacun des participants, afin d’obtenir une image de classification par bande de fréquences spatiales et pour l’ensemble des visages de célébrités. Les coefficients de régression sont sommés à travers les bandes de fréquences, transformés en scores z et l’image de classification est lissée en utilisant une fenêtre gaussienne avec un FWHM de 23,5482 pixels (Chauvin et al., 2005). Le Pixel Test permet de déterminer si l’information visuelle est significativement corrélée avec l’exactitude des réponses (p<.05 bilatéral; z crit = +/- 3,7568 ; Sr = 21749 pixels).
En savoir plus

41 En savoir plus

Traitements analytique[s] et configural dans la reconnaissance des visages : étude électrophysiologique chez le sujet normal

Traitements analytique[s] et configural dans la reconnaissance des visages : étude électrophysiologique chez le sujet normal

Dans l’ensemble, les résultats ont révélé que les parties de visage isolées étaient traitées plus efficacement que les parties en contexte lorsque la tâche favorisait une stratégie d’enc[r]

189 En savoir plus

Suivi de chansons par reconnaissance automatique de parole et alignement temporel

Suivi de chansons par reconnaissance automatique de parole et alignement temporel

Ainsi, le système embarqué doit posséder en mémoire une référence de la chanson qui est chantée, sous forme de partition musicale ou d'enregistrement sonore, pour déterminer en temps r[r]

92 En savoir plus

Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert

Vers plus de robustesse en reconnaissance d'objets et de visages pour l'analyse d'images issues de vidéos de concert

Pallier ` a la limitation du nombre d’exemples d’apprentissage et aux variations de la pose R´ ecemment, il a ´ et´ e mis en ´ evidence qu’une distinction selon la pose des individus contri- buait ` a am´ eliorer l’apprentissage de distance en cosinus. Cette remarque est particuli` erement pertinente dans le cadre de notre travail puisque les individus apparaissant dans des vid´ eos de concert sont en mouvement constant. Ainsi, il est important de disposer d’un classifi- cateur robuste pour les visages vus de face, mais aussi vus de profil. Or, si l’on comprend que l’apprentissage d’une m´ etrique revient (grossi` erement) ` a s´ electionner les pixels pertinents pour la comparaison de deux individus, il est naturel de songer qu’une distinction selon la pose serait profitable. De plus, du fait de la quantit´ e limit´ ee d’images d’apprentissage dispo- nibles, il est n´ ecessaire de tirer profit de chaque exemplaire. Aussi, souhaite-t-on maximiser la comparaison visage vue-de-profil et visage vue-de-face par exemple.
En savoir plus

127 En savoir plus

2015 — Reconnaissance automatique des émotions spontanées à partir du signal de parole

2015 — Reconnaissance automatique des émotions spontanées à partir du signal de parole

4.2 Approche basée sur la similarité 4.2.1 Motivation La méthodologie proposée pour réduire la confusion entre classes et ainsi améliorer les performances des systèmes de RAE repose sur une approche basée sur la similarité. Cette approche est motivée en premier lieu par les connaissances a priori sur les modèles théoriques des émotions du domaine de la psychologie où principalement deux modèles traditionnels sont en compétition pour la représentation des émotions et ayant chacun ses propres avantages et inconvénients à savoir le modèle discret et le modèle dimensionnel. L’idée est de reconnaitre les émotions catégoriques (modèle discret) en utilisant un espace continu (modèle dimensionnel), combinant ainsi les deux modèles au moyen d’une approche basée sur la similarité. La méthodologie basée sur la similarité représente une approche naturelle pour aborder le problème de la reconnaissance de l'émotion car le concept de proximité entre classes est bien présent et illustré dans la cartographie des émotions catégoriques dans l'espace bi- ou tridimensionnel des émotions. Ainsi, dans cet espace, chaque classe d'émotion peut être considérée comme proche (similaire) ou lointaine (dissimilaire) par rapport à d'autres catégories selon la dimension considérée. La notion de proximité et sa nature possède donc une existence conceptuelle propre en psychologie indépendamment de la configuration expérimentale des systèmes de RAE (tel que les types des traits acoustique extraits). Le deuxième concept que nous pouvons relever du modèle dimensionnel est l’existence de dimensions théoriques telles que les dimensions valence,
En savoir plus

271 En savoir plus

Clustering de visages : vers la construction automatique d'un album photo à partir d'une s equence vidé o

Clustering de visages : vers la construction automatique d'un album photo à partir d'une s equence vidé o

Les d´etecteurs de visages sur images statiques sont de plus en plus courant et performants, cependant, pour leur application aux s´equences de vid´eosurveillance, il est n´ecessaire d’ajouter une phase de labellisa- tion. En effet, regrouper les d´etections de visages pr´e- sente un grand int´erˆet pour l’analyse en vid´eosur- veillance, notamment lors de fouilles d’archives vid´eos. Par exemple, il serait int´eressant d’avoir une m´ethode qui extrait automatiquement un album photo des pas- sants d’une s´equence de vid´eosurveillance.

9 En savoir plus

Reconnaissance automatique des entités nommées arabes et leur traduction vers le français

Reconnaissance automatique des entités nommées arabes et leur traduction vers le français

3.1. Expérimentation de la phase de reconnaissance Pour évaluer la phase de reconnaissance, nous avons appliqué notre outil sur un corpus différent de celui utilisé lors de l'étude des EN. Ce corpus est formé de 4000 textes du domaine du sport environ 94,5Mo collectés des différents journaux quotidiens (ex., assabah, alanwar, el chourou9, al ahram) et de wikipédia. Le corpus contient 180000 EN appartenant aux différentes catégories du domaine du sport (ex., nom de joueur, nom de sport, terme sportif). De ces EN, il y a 40000 EN appartenant à la catégorie Nom de lieu (c.-à-d., stade, salle, cité, piscine et complexe). Ces EN sont recensées manuellement et à l’aide des requêtes NooJ. Nous estimons que cette taille de corpus est assez représentative du domaine eu égard à la diversité géographique des sources et la diversité des spécialités. Le corpus obtenu est ensuite nettoyé en éliminant en particulier les images qu’il peut contenir. Cela permet d’alléger notre corpus et rendre son chargement en mémoire plus rapide pour les différents tests.
En savoir plus

147 En savoir plus

Show all 1693 documents...