2.3 Analyse sonore pour la reconnaissance des situations
problématiques et des chutes
Dans le cadre du maintien à domicile des personnes âgées, la prévention et la détection
des situations problématiques est un enjeu majeur pour la sécurité des personnes âgées. La
chute d’une personne âgée et les conséquences sur sa santé (fractures) et sur ses émotions
(peur que cela ne se reproduise) est souvent le facteur déclenchant pour sa mise en
institu-tion. Les systèmes de détection de chutes et de situations problématiques sont donc d’une
part des systèmes rassurant à la fois pour les personnes âgées et pour les proches,
favori-sant de ce fait le maintien à domicile, et d’autre part permettent de sauver des vies grâce au
déclenchement immédiat d’une alerte à destination des secours lors de l’occurrence d’un
accident.
La parole est un moyen de communication naturelle pouvant être utilisée comme moyen
d’interaction avec les outils technologiques. La reconnaissance automatique de la parole
(RAP) est un moyen d’interaction avec l’habitat, et permet ainsi de réaliser des commandes
vocales et de détecter des situations problématiques. La reconnaissance des sons de la vie
courante pourrait apporter des éléments d’information pour assurer un suivi des activités
quotidiennes de l’habitant.
Les travaux que nous décrivons dans cette thèse portent sur la détection des situations
de détresse des personnes âgées grâce à des capteurs sonores. Nous allons donc présenter
un bref état de l’art concernant cette détection selon 2 axes : la reconnaissance des sons, et
la reconnaissance automatique de la parole.
2.3.1 Reconnaissance des sons dans le cadre de la détection des situations
de détresse
Nous allons présenter quelques projets et systèmes utilisant la reconnaissance des sons
dans la détection des situations de détresse.
L’analyse sonore s’appuie principalement sur des techniques utilisant des modèles
pro-babilistes et des méthodes de l’intelligence artificielle (réseaux de Markov cachés, réseaux
de neurones...).
Istrate et coll.(2006) présentent un système d’analyse sonore dont le but est de détecter
les accidents sérieux tels qu’une chute ou un malaise, grâce à la reconnaissance en temps
réel des sons de la vie quotidienne, en vue de déclencher une alarme. Le corpus utilisé pour
l’apprentissage des modèles et les tests est composé de sons enregistrés par les auteurs (15%)
et de sons issus de CD commerciaux utilisés pour le bruitage de films (85%). Les auteurs
obtiennent comme résultat un taux d’erreur de classification de 26,82% sur des signaux
ar-tificiellement bruités selon un rapport signal sur bruit égal à +10dB. Un système plus
com-plet, AuditHIS, permet cette fois de reconnaître aussi les paroles prononcées (Glasson,2008).
36 Chapitre 2. État de l’art des applications en maintien à domicile
mination son/parole détermine s’il s’agit d’un son de la vie courante ou de parole grâce à
un algorithme de classification à base de GMM (Gaussian Mixture Model) utilisant des
pa-ramètres LFCC (Linear Frequency Cepstral Coefficient). Le taux d’erreur de la discrimination
est de 5,1% à +10dB de RSB (Rapport Signal sur Bruit) (Fleury et coll.,2008). Puis une
classifi-cation des sons produits lors de l’activité de la personne est réalisée avec une méthode GMM
(Istrate et coll.,2006) ou HMM (Hidden Markov Model) (Vacher et coll.,2006). Le résultat de
la classification est un taux d’erreur de 21,3% à 10 dB de RSB avec des modèles GMM (Fleury
et coll.,2008). Ces performances ont été toutes deux évaluées sur des corpus de test.
Le système AuditHIS a été utilisé pour des expérimentations dans l’appartement de test
de la Faculté de Médecine de Grenoble mettant en jeux une quinzaine de participants jouant
des scénarios de la vie quotidienne (AVQ) incluant des appels d’urgence (Vacher et coll.,
2011). Les auteurs ont observé une extrême variété des sons enregistrés dans l’appartement
aussi bien produits à l’intérieur de l’appartement par le participant lui-même (sons non
lan-gagiers...), par des objets qu’il manipule (vêtements, papier, téléphone portable, appareillage
électroménager...), ou à l’extérieur de l’appartement (hélicoptère, ascenseur, tonnerre,
pel-leteuse...). Pour beaucoup de ces sons, seuls un très petit nombre de données ont pu être
enregistrées. Sur cet aspect, les auteurs en concluent que les méthodes purement
statis-tiques ne sont pas adaptées à la reconnaissance de ces sons en milieu réel et préconisent
des méthodes de classification hiérarchiques exploitant les caractéristiques physiques du
si-gnal enregistré (enveloppe temporelle et durée, caractéristiques spectrales, périodicité/non
périodicité, etc.).
Le système PATSH (Vacher et coll.,2013b), permettant la détection d’ordres domotiques
et d’appels de détresse, utilise également une discrimination son de la vie
quotidienne/-parole par une classification utilisant des GMM. Lors de l’évaluation du système dans un
appartement de test avec des participants jouant des scénarios de la vie quotidienne et
uti-lisant une commande vocale de la domotique, les auteurs ont trouvé que 23,4% des signaux
paroles étaient classifiés comme étant des sons de la vie quotidienne, et que 3,1% des sons
de la vie quotidienne étaient classifiés comme étant de la parole, ce qui reste insuffisant pour
un utilisation en milieu réel.
Dans les systèmes temps réel de commandes domotiques ou de détection d’appels de
détresse, la discrimination son de la vie quotidienne/parole est une étape importante car
elle permet de filtrer les signaux à envoyer au système de RAP (Reconnaissance
Automa-tique de la Parole). Il est en effet indispensable que les sons de la vie courantes ne soient
pas envoyés au système de RAP, auquel cas des phrases indésirables pourraient être
recon-nue par le décodeur. Les résultats obtenus sont bons mais devront être améliorés avant de
pouvoir envisager une utilisation en réel. Par contre, la classification des sons eux-mêmes ne
semble pas assez précise pour être utilisée pour une détection de détresse, sauf à combiner
cette information avec d’autres de nature différente (par exemple de nature vidéo).
D’autres travaux visent à la détection de chutes par une analyse incluant la prise en
compte de paramètres sonores.
2.3. Analyse sonore pour la reconnaissance des situations problématiques et des chutes 37
des angles de la pièce dans le cadre d’un projet visant à détecter les chutes des personnes
âgées, avec une classification capable de discriminer un évènement provoqué par une chute
de la personne par rapport aux autres évènements. Leur classification se fait à partir de
clas-sifieurs utilisant des modèles basés sur une combinaison d’arbres de décisions, de kNN (
k-Nearest Neighbors) et de SVM (Support Vector Machine) à partir de coefficients extraits pour
le son grâce à une analyse cepstrale, et pour les vibrations de paramètres spectraux de
ré-ponse au choc et de la longueur d’onde de vibration. Le système proposé a été testé avec le
mannequin articulé « Rescue Randy », les tests ont montré que ce système permet une
détec-tion des chutes de personnes avec une sensibilité de 95% et une spécificité de 95%.Popescu
et coll. (2008) détectent les chutes grâce à deux microphones placés verticalement l’un au
ras du sol et l’autre à environ 1,22m de haut. L’utilisation de ces 2 microphones permet de
déterminer si le son a bien été émis au niveau du sol. Si c’est bien le cas et lorsque le niveau
sonore est jugé suffisamment important, les auteurs utilisent un algorithme de
reconnais-sance utilisant les kNN sur des coefficients MFCC. Les auteurs ont montré grâce à des
expé-rimentations impliquant un utilisateur chutant sur un tapis que l’utilisation du paramètre
« hauteur » d’émission du signal est essentiel pour réduire le taux de fausses détections à 5%,
la classification sonore conduisant à un taux très élevé de fausses alarmes.
Certains projets basés sur la reconnaissance des sons portent sur l’analyse des activités
de la vie quotidienne. Par exemple, dans le cadre d’un projet visant à détecter le
comporte-ment des personnes souffrant de troubles cognitifs,Chen et coll.(2005) ont effectué le suivi
de l’hygiène personnelle de celles-ci. Ils ont développé un système capable de reconnaître et
classifier les activités se déroulant dans une salle de bain en se basant sur les sons. La
classi-fication est effectuée à partir de HMM utilisant des coefficients MFCC, et les tests présentent
un taux de bonne classification de 84%. Ceci permet ensuite d’émettre un compte-rendu
journalier au personnel soignant ou au médecin traitant pour faciliter son diagnostic.
Les développements actuels concernent surtout l’analyse de scènes sonores comme en
témoigne le challenge IEEE ASP « Detection and classification of acoustic scenes and events »
organisé en 2013 (Giannoulis et coll.,2013). L’analyse de scènes sonores y est fondée sur une
approche à base de GMM et MFCC (Vuegen et coll., 2013), ou sur un modèle basé sur la
perception humaine de la reconnaissance des sons (cochléogramme) (Krijnders et Gineke,
2013).
2.3.2 Reconnaissance automatique de la parole dans le cadre de la
détec-tion des situadétec-tions de détresse
La reconnaissance automatique de la parole (RAP) est très étudiée et il existe de
nom-breuses applications grand public (Dragon NaturallySpeaking, Siri, etc.), mais, actuellement,
très peu d’études portent sur son application à la détection des situations de détresse et de
risque.
dé-38 Chapitre 2. État de l’art des applications en maintien à domicile
sonne. Le problème de la parole distante et du bruit complique fortement le reconnaissance
par le système de RAP (Woelfel et McDonough,2009).
Dans le système d’analyse sonore temps réelAuditHIS, si le signal sonore est reconnu
comme étant de la parole suite à la discrimination son de la vie quotidienne/parole, une
re-connaissance automatique de la parole utilisant le système Raphael (Vacher et coll.,2009a)
permet de détecter l’occurrence de phrases de détresse parmi des phrases de la vie
quoti-dienne. Les auteurs ont évalué le système sur la détection d’appels de détresse, prononcés
par 10 personnes non âgées, avec comme résultat un taux de fausses alarmes de 4% et un
taux d’alarmes manquées de 30%.
Vacher et coll.(2012a) utilisent le système de RAP Speeral(Linarès et coll., 2007) pour
la reconnaissance d’ordres domotiques et d’appels de détresse à partir d’un corpus acquis
en conditions réelles en environnement bruité. Ils ont utilisé un algorithme de décodage
guidé pour améliorer les résultats à partir de la combinaison des plusieurs canaux sonores,
et obtiennent comme résultats (tests sur la voix de 23 locuteurs non âgés) pour la détection
d’ordres domotiques un taux de bonne détection de 83,5%, et pour la détection d’appels de
détresse un taux de 81,2%.
Dans le système PATSH (Vacher et coll.,2013b), le décodeurSpeeralest utilisé pour
recon-naître des ordres domotiques et des appels de détresse en temps réel et dans des situations
réelles. Lors de l’évaluation du système (Vacher et coll.,2013b) (16 locuteurs non âgés), les
auteurs ont trouvé un Domotic Error Rate (incluant les effets de toutes les étapes :
détec-tion, discrimination son/parole et décodage) de 38%. Les mêmes auteurs parviennent à un
DER=3,2% avec des méthodes plus élaborées (SGMM et décodage sur plusieurs canaux) sur
des données enregistrées par des personnes âgées ou malvoyantes (Vacher et coll.,2014c).
Principi et coll.(2013) utilisent le décodeurPocketSphinxpour décoder des ordres
do-motiques et des phrases de détresse prononcées « normalement » ou de façon criée, et en
si-tuation proche ou distante du microphone (corpus de 20 locuteurs non âgés). Ils obtiennent
pour les appels de détresse après adaptation acoustique au locuteur un taux de bonne
recon-naissance moyen de 100% pour le cas non crié/non distant, de 95,33% dans le cas crié/non
distant, 85% dans le cas non crié/distant et 72,67% dans le cas crié/distant.
Hamill et coll.(2009) présentent la phase initiale du projet de développement d’un
sys-tème de détection de situations d’urgence au domicile des personnes âgées, interfacé avec
un centre d’appels pour provoquer les secours si nécessaire. Ce projet vise à remplacer les
boutons portés en médaillon par les personnes âgées en utilisant des techniques
d’intelli-gence artificielle et de dialogue homme-machine pour reconnaître les situations à risque.
Les travaux présentés visent à montrer la possibilité d’utiliser un réseau de microphones et
un logiciel de RAP pour permettre la communication et le dialogue comme moyen
d’inter-action avec le centre d’appels. De plus, l’idée du projet est de réduire les fausses alarmes
grâce à un système de dialogue homme-machine à questions fermées (réponse de
l’utilisa-teur par « oui » ou « non ») permettant à l’utilisal’utilisa-teur de choisir s’il a réellement besoin d’aide,
et de déterminer quelle action entreprendre (appel des urgences, d’un contact pré-défini
par l’utilisateur, tel que famille, voisin ou ami, ou connexion à un opérateur). Les auteurs
Dans le document
Reconnaissance automatique de la parole de personnes âgées pour les services d'assistance à domicile
(Page 36-40)