• Aucun résultat trouvé

Analyse sonore pour la reconnaissance des situations problématiques et des

2.3 Analyse sonore pour la reconnaissance des situations

problématiques et des chutes

Dans le cadre du maintien à domicile des personnes âgées, la prévention et la détection

des situations problématiques est un enjeu majeur pour la sécurité des personnes âgées. La

chute d’une personne âgée et les conséquences sur sa santé (fractures) et sur ses émotions

(peur que cela ne se reproduise) est souvent le facteur déclenchant pour sa mise en

institu-tion. Les systèmes de détection de chutes et de situations problématiques sont donc d’une

part des systèmes rassurant à la fois pour les personnes âgées et pour les proches,

favori-sant de ce fait le maintien à domicile, et d’autre part permettent de sauver des vies grâce au

déclenchement immédiat d’une alerte à destination des secours lors de l’occurrence d’un

accident.

La parole est un moyen de communication naturelle pouvant être utilisée comme moyen

d’interaction avec les outils technologiques. La reconnaissance automatique de la parole

(RAP) est un moyen d’interaction avec l’habitat, et permet ainsi de réaliser des commandes

vocales et de détecter des situations problématiques. La reconnaissance des sons de la vie

courante pourrait apporter des éléments d’information pour assurer un suivi des activités

quotidiennes de l’habitant.

Les travaux que nous décrivons dans cette thèse portent sur la détection des situations

de détresse des personnes âgées grâce à des capteurs sonores. Nous allons donc présenter

un bref état de l’art concernant cette détection selon 2 axes : la reconnaissance des sons, et

la reconnaissance automatique de la parole.

2.3.1 Reconnaissance des sons dans le cadre de la détection des situations

de détresse

Nous allons présenter quelques projets et systèmes utilisant la reconnaissance des sons

dans la détection des situations de détresse.

L’analyse sonore s’appuie principalement sur des techniques utilisant des modèles

pro-babilistes et des méthodes de l’intelligence artificielle (réseaux de Markov cachés, réseaux

de neurones...).

Istrate et coll.(2006) présentent un système d’analyse sonore dont le but est de détecter

les accidents sérieux tels qu’une chute ou un malaise, grâce à la reconnaissance en temps

réel des sons de la vie quotidienne, en vue de déclencher une alarme. Le corpus utilisé pour

l’apprentissage des modèles et les tests est composé de sons enregistrés par les auteurs (15%)

et de sons issus de CD commerciaux utilisés pour le bruitage de films (85%). Les auteurs

obtiennent comme résultat un taux d’erreur de classification de 26,82% sur des signaux

ar-tificiellement bruités selon un rapport signal sur bruit égal à +10dB. Un système plus

com-plet, AuditHIS, permet cette fois de reconnaître aussi les paroles prononcées (Glasson,2008).

36 Chapitre 2. État de l’art des applications en maintien à domicile

mination son/parole détermine s’il s’agit d’un son de la vie courante ou de parole grâce à

un algorithme de classification à base de GMM (Gaussian Mixture Model) utilisant des

pa-ramètres LFCC (Linear Frequency Cepstral Coefficient). Le taux d’erreur de la discrimination

est de 5,1% à +10dB de RSB (Rapport Signal sur Bruit) (Fleury et coll.,2008). Puis une

classifi-cation des sons produits lors de l’activité de la personne est réalisée avec une méthode GMM

(Istrate et coll.,2006) ou HMM (Hidden Markov Model) (Vacher et coll.,2006). Le résultat de

la classification est un taux d’erreur de 21,3% à 10 dB de RSB avec des modèles GMM (Fleury

et coll.,2008). Ces performances ont été toutes deux évaluées sur des corpus de test.

Le système AuditHIS a été utilisé pour des expérimentations dans l’appartement de test

de la Faculté de Médecine de Grenoble mettant en jeux une quinzaine de participants jouant

des scénarios de la vie quotidienne (AVQ) incluant des appels d’urgence (Vacher et coll.,

2011). Les auteurs ont observé une extrême variété des sons enregistrés dans l’appartement

aussi bien produits à l’intérieur de l’appartement par le participant lui-même (sons non

lan-gagiers...), par des objets qu’il manipule (vêtements, papier, téléphone portable, appareillage

électroménager...), ou à l’extérieur de l’appartement (hélicoptère, ascenseur, tonnerre,

pel-leteuse...). Pour beaucoup de ces sons, seuls un très petit nombre de données ont pu être

enregistrées. Sur cet aspect, les auteurs en concluent que les méthodes purement

statis-tiques ne sont pas adaptées à la reconnaissance de ces sons en milieu réel et préconisent

des méthodes de classification hiérarchiques exploitant les caractéristiques physiques du

si-gnal enregistré (enveloppe temporelle et durée, caractéristiques spectrales, périodicité/non

périodicité, etc.).

Le système PATSH (Vacher et coll.,2013b), permettant la détection d’ordres domotiques

et d’appels de détresse, utilise également une discrimination son de la vie

quotidienne/-parole par une classification utilisant des GMM. Lors de l’évaluation du système dans un

appartement de test avec des participants jouant des scénarios de la vie quotidienne et

uti-lisant une commande vocale de la domotique, les auteurs ont trouvé que 23,4% des signaux

paroles étaient classifiés comme étant des sons de la vie quotidienne, et que 3,1% des sons

de la vie quotidienne étaient classifiés comme étant de la parole, ce qui reste insuffisant pour

un utilisation en milieu réel.

Dans les systèmes temps réel de commandes domotiques ou de détection d’appels de

détresse, la discrimination son de la vie quotidienne/parole est une étape importante car

elle permet de filtrer les signaux à envoyer au système de RAP (Reconnaissance

Automa-tique de la Parole). Il est en effet indispensable que les sons de la vie courantes ne soient

pas envoyés au système de RAP, auquel cas des phrases indésirables pourraient être

recon-nue par le décodeur. Les résultats obtenus sont bons mais devront être améliorés avant de

pouvoir envisager une utilisation en réel. Par contre, la classification des sons eux-mêmes ne

semble pas assez précise pour être utilisée pour une détection de détresse, sauf à combiner

cette information avec d’autres de nature différente (par exemple de nature vidéo).

D’autres travaux visent à la détection de chutes par une analyse incluant la prise en

compte de paramètres sonores.

2.3. Analyse sonore pour la reconnaissance des situations problématiques et des chutes 37

des angles de la pièce dans le cadre d’un projet visant à détecter les chutes des personnes

âgées, avec une classification capable de discriminer un évènement provoqué par une chute

de la personne par rapport aux autres évènements. Leur classification se fait à partir de

clas-sifieurs utilisant des modèles basés sur une combinaison d’arbres de décisions, de kNN (

k-Nearest Neighbors) et de SVM (Support Vector Machine) à partir de coefficients extraits pour

le son grâce à une analyse cepstrale, et pour les vibrations de paramètres spectraux de

ré-ponse au choc et de la longueur d’onde de vibration. Le système proposé a été testé avec le

mannequin articulé « Rescue Randy », les tests ont montré que ce système permet une

détec-tion des chutes de personnes avec une sensibilité de 95% et une spécificité de 95%.Popescu

et coll. (2008) détectent les chutes grâce à deux microphones placés verticalement l’un au

ras du sol et l’autre à environ 1,22m de haut. L’utilisation de ces 2 microphones permet de

déterminer si le son a bien été émis au niveau du sol. Si c’est bien le cas et lorsque le niveau

sonore est jugé suffisamment important, les auteurs utilisent un algorithme de

reconnais-sance utilisant les kNN sur des coefficients MFCC. Les auteurs ont montré grâce à des

expé-rimentations impliquant un utilisateur chutant sur un tapis que l’utilisation du paramètre

« hauteur » d’émission du signal est essentiel pour réduire le taux de fausses détections à 5%,

la classification sonore conduisant à un taux très élevé de fausses alarmes.

Certains projets basés sur la reconnaissance des sons portent sur l’analyse des activités

de la vie quotidienne. Par exemple, dans le cadre d’un projet visant à détecter le

comporte-ment des personnes souffrant de troubles cognitifs,Chen et coll.(2005) ont effectué le suivi

de l’hygiène personnelle de celles-ci. Ils ont développé un système capable de reconnaître et

classifier les activités se déroulant dans une salle de bain en se basant sur les sons. La

classi-fication est effectuée à partir de HMM utilisant des coefficients MFCC, et les tests présentent

un taux de bonne classification de 84%. Ceci permet ensuite d’émettre un compte-rendu

journalier au personnel soignant ou au médecin traitant pour faciliter son diagnostic.

Les développements actuels concernent surtout l’analyse de scènes sonores comme en

témoigne le challenge IEEE ASP « Detection and classification of acoustic scenes and events »

organisé en 2013 (Giannoulis et coll.,2013). L’analyse de scènes sonores y est fondée sur une

approche à base de GMM et MFCC (Vuegen et coll., 2013), ou sur un modèle basé sur la

perception humaine de la reconnaissance des sons (cochléogramme) (Krijnders et Gineke,

2013).

2.3.2 Reconnaissance automatique de la parole dans le cadre de la

détec-tion des situadétec-tions de détresse

La reconnaissance automatique de la parole (RAP) est très étudiée et il existe de

nom-breuses applications grand public (Dragon NaturallySpeaking, Siri, etc.), mais, actuellement,

très peu d’études portent sur son application à la détection des situations de détresse et de

risque.

dé-38 Chapitre 2. État de l’art des applications en maintien à domicile

sonne. Le problème de la parole distante et du bruit complique fortement le reconnaissance

par le système de RAP (Woelfel et McDonough,2009).

Dans le système d’analyse sonore temps réelAuditHIS, si le signal sonore est reconnu

comme étant de la parole suite à la discrimination son de la vie quotidienne/parole, une

re-connaissance automatique de la parole utilisant le système Raphael (Vacher et coll.,2009a)

permet de détecter l’occurrence de phrases de détresse parmi des phrases de la vie

quoti-dienne. Les auteurs ont évalué le système sur la détection d’appels de détresse, prononcés

par 10 personnes non âgées, avec comme résultat un taux de fausses alarmes de 4% et un

taux d’alarmes manquées de 30%.

Vacher et coll.(2012a) utilisent le système de RAP Speeral(Linarès et coll., 2007) pour

la reconnaissance d’ordres domotiques et d’appels de détresse à partir d’un corpus acquis

en conditions réelles en environnement bruité. Ils ont utilisé un algorithme de décodage

guidé pour améliorer les résultats à partir de la combinaison des plusieurs canaux sonores,

et obtiennent comme résultats (tests sur la voix de 23 locuteurs non âgés) pour la détection

d’ordres domotiques un taux de bonne détection de 83,5%, et pour la détection d’appels de

détresse un taux de 81,2%.

Dans le système PATSH (Vacher et coll.,2013b), le décodeurSpeeralest utilisé pour

recon-naître des ordres domotiques et des appels de détresse en temps réel et dans des situations

réelles. Lors de l’évaluation du système (Vacher et coll.,2013b) (16 locuteurs non âgés), les

auteurs ont trouvé un Domotic Error Rate (incluant les effets de toutes les étapes :

détec-tion, discrimination son/parole et décodage) de 38%. Les mêmes auteurs parviennent à un

DER=3,2% avec des méthodes plus élaborées (SGMM et décodage sur plusieurs canaux) sur

des données enregistrées par des personnes âgées ou malvoyantes (Vacher et coll.,2014c).

Principi et coll.(2013) utilisent le décodeurPocketSphinxpour décoder des ordres

do-motiques et des phrases de détresse prononcées « normalement » ou de façon criée, et en

si-tuation proche ou distante du microphone (corpus de 20 locuteurs non âgés). Ils obtiennent

pour les appels de détresse après adaptation acoustique au locuteur un taux de bonne

recon-naissance moyen de 100% pour le cas non crié/non distant, de 95,33% dans le cas crié/non

distant, 85% dans le cas non crié/distant et 72,67% dans le cas crié/distant.

Hamill et coll.(2009) présentent la phase initiale du projet de développement d’un

sys-tème de détection de situations d’urgence au domicile des personnes âgées, interfacé avec

un centre d’appels pour provoquer les secours si nécessaire. Ce projet vise à remplacer les

boutons portés en médaillon par les personnes âgées en utilisant des techniques

d’intelli-gence artificielle et de dialogue homme-machine pour reconnaître les situations à risque.

Les travaux présentés visent à montrer la possibilité d’utiliser un réseau de microphones et

un logiciel de RAP pour permettre la communication et le dialogue comme moyen

d’inter-action avec le centre d’appels. De plus, l’idée du projet est de réduire les fausses alarmes

grâce à un système de dialogue homme-machine à questions fermées (réponse de

l’utilisa-teur par « oui » ou « non ») permettant à l’utilisal’utilisa-teur de choisir s’il a réellement besoin d’aide,

et de déterminer quelle action entreprendre (appel des urgences, d’un contact pré-défini

par l’utilisateur, tel que famille, voisin ou ami, ou connexion à un opérateur). Les auteurs