Analyse sonore pour la reconnaissance des situations problématiques et des

36 Chapitre 2. État de l’art des applications en maintien à domicile

2.3. Analyse sonore pour la reconnaissance des situations problématiques et des chutes 37

dé-38 Chapitre 2. État de l’art des applications en maintien à domicile

Analyse sonore pour la reconnaissance des situations problématiques et des

2.3 Analyse sonore pour la reconnaissance des situations

problématiques et des chutes

Dans le cadre du maintien à domicile des personnes âgées, la prévention et la détection

des situations problématiques est un enjeu majeur pour la sécurité des personnes âgées. La

chute d’une personne âgée et les conséquences sur sa santé (fractures) et sur ses émotions

(peur que cela ne se reproduise) est souvent le facteur déclenchant pour sa mise en

institu-tion. Les systèmes de détection de chutes et de situations problématiques sont donc d’une

part des systèmes rassurant à la fois pour les personnes âgées et pour les proches,

favori-sant de ce fait le maintien à domicile, et d’autre part permettent de sauver des vies grâce au

déclenchement immédiat d’une alerte à destination des secours lors de l’occurrence d’un

accident.

La parole est un moyen de communication naturelle pouvant être utilisée comme moyen

d’interaction avec les outils technologiques. La reconnaissance automatique de la parole

(RAP) est un moyen d’interaction avec l’habitat, et permet ainsi de réaliser des commandes

vocales et de détecter des situations problématiques. La reconnaissance des sons de la vie

courante pourrait apporter des éléments d’information pour assurer un suivi des activités

quotidiennes de l’habitant.

Les travaux que nous décrivons dans cette thèse portent sur la détection des situations

de détresse des personnes âgées grâce à des capteurs sonores. Nous allons donc présenter

un bref état de l’art concernant cette détection selon 2 axes : la reconnaissance des sons, et

la reconnaissance automatique de la parole.

2.3.1 Reconnaissance des sons dans le cadre de la détection des situations

de détresse

Nous allons présenter quelques projets et systèmes utilisant la reconnaissance des sons

dans la détection des situations de détresse.

L’analyse sonore s’appuie principalement sur des techniques utilisant des modèles

pro-babilistes et des méthodes de l’intelligence artificielle (réseaux de Markov cachés, réseaux

de neurones...).

Istrate et coll.(2006) présentent un système d’analyse sonore dont le but est de détecter

les accidents sérieux tels qu’une chute ou un malaise, grâce à la reconnaissance en temps

réel des sons de la vie quotidienne, en vue de déclencher une alarme. Le corpus utilisé pour

l’apprentissage des modèles et les tests est composé de sons enregistrés par les auteurs (15%)

et de sons issus de CD commerciaux utilisés pour le bruitage de films (85%). Les auteurs

obtiennent comme résultat un taux d’erreur de classification de 26,82% sur des signaux

ar-tificiellement bruités selon un rapport signal sur bruit égal à +10dB. Un système plus

com-plet, AuditHIS, permet cette fois de reconnaître aussi les paroles prononcées (Glasson,2008).

mination son/parole détermine s’il s’agit d’un son de la vie courante ou de parole grâce à

un algorithme de classification à base de GMM (Gaussian Mixture Model) utilisant des

pa-ramètres LFCC (Linear Frequency Cepstral Coefficient). Le taux d’erreur de la discrimination

est de 5,1% à +10dB de RSB (Rapport Signal sur Bruit) (Fleury et coll.,2008). Puis une

classifi-cation des sons produits lors de l’activité de la personne est réalisée avec une méthode GMM

(Istrate et coll.,2006) ou HMM (Hidden Markov Model) (Vacher et coll.,2006). Le résultat de

la classification est un taux d’erreur de 21,3% à 10 dB de RSB avec des modèles GMM (Fleury

et coll.,2008). Ces performances ont été toutes deux évaluées sur des corpus de test.

Le système AuditHIS a été utilisé pour des expérimentations dans l’appartement de test

de la Faculté de Médecine de Grenoble mettant en jeux une quinzaine de participants jouant

des scénarios de la vie quotidienne (AVQ) incluant des appels d’urgence (Vacher et coll.,

2011). Les auteurs ont observé une extrême variété des sons enregistrés dans l’appartement

aussi bien produits à l’intérieur de l’appartement par le participant lui-même (sons non

lan-gagiers...), par des objets qu’il manipule (vêtements, papier, téléphone portable, appareillage

électroménager...), ou à l’extérieur de l’appartement (hélicoptère, ascenseur, tonnerre,

pel-leteuse...). Pour beaucoup de ces sons, seuls un très petit nombre de données ont pu être

enregistrées. Sur cet aspect, les auteurs en concluent que les méthodes purement

statis-tiques ne sont pas adaptées à la reconnaissance de ces sons en milieu réel et préconisent

des méthodes de classification hiérarchiques exploitant les caractéristiques physiques du

si-gnal enregistré (enveloppe temporelle et durée, caractéristiques spectrales, périodicité/non

périodicité, etc.).

Le système PATSH (Vacher et coll.,2013b), permettant la détection d’ordres domotiques

et d’appels de détresse, utilise également une discrimination son de la vie

quotidienne/-parole par une classification utilisant des GMM. Lors de l’évaluation du système dans un

appartement de test avec des participants jouant des scénarios de la vie quotidienne et

uti-lisant une commande vocale de la domotique, les auteurs ont trouvé que 23,4% des signaux

paroles étaient classifiés comme étant des sons de la vie quotidienne, et que 3,1% des sons

de la vie quotidienne étaient classifiés comme étant de la parole, ce qui reste insuffisant pour

un utilisation en milieu réel.

Dans les systèmes temps réel de commandes domotiques ou de détection d’appels de

détresse, la discrimination son de la vie quotidienne/parole est une étape importante car

elle permet de filtrer les signaux à envoyer au système de RAP (Reconnaissance

Automa-tique de la Parole). Il est en effet indispensable que les sons de la vie courantes ne soient

pas envoyés au système de RAP, auquel cas des phrases indésirables pourraient être

recon-nue par le décodeur. Les résultats obtenus sont bons mais devront être améliorés avant de

pouvoir envisager une utilisation en réel. Par contre, la classification des sons eux-mêmes ne

semble pas assez précise pour être utilisée pour une détection de détresse, sauf à combiner

cette information avec d’autres de nature différente (par exemple de nature vidéo).

D’autres travaux visent à la détection de chutes par une analyse incluant la prise en

compte de paramètres sonores.

des angles de la pièce dans le cadre d’un projet visant à détecter les chutes des personnes

âgées, avec une classification capable de discriminer un évènement provoqué par une chute

de la personne par rapport aux autres évènements. Leur classification se fait à partir de