Home / Papers / Sign language recognition and translation

Sign language recognition and translation

88 Citations2020
Fares Ben Slimane
journal unavailable

No TL;DR found

Abstract

Outre les gestes de la main, la langue des signes utilise simultanement differents composants pour transmettre un message. A titre d’exemple, l’orientation des doigts, les mouvements des bras ou du corps ainsi que les expressions faciales. Parfois, un composant specifique peut jouer un role majeur dans la modification de la signification du signe ou peut ne pas etre requis pour interpreter un signe. Pour cela, il est primordial pour un systeme de reconnaissance de n’utiliser que les informations pertinentes pour traduire un signe. Dans ce contexte, nous avons elabore le Sign Transformer Network, un reseau attentionnel pour traiter les deux tâches de: Reconnaissance Continue de la Langue des Signes et la Traduction en Langue des Signes. Il prend en entree une sequence d’images qui designe le signe a traduire et produit une traduction textuelle coherente dans une langue parlee. Notre systeme est base sur la nouvelle architecture neuronale Transformer Network qui a la capacitee de decouvrir et d’apprendre, efficacement, les informations spatio-temporelles des donnees continues. Nous montrons qu’en utilisant simplement l’auto-attention pour la modelisation temporelle, nous surpassons presque toutes les etudes precedentes, prouvant la superiorite de l’auto-attention sur les reseaux traditionnels bases sur la recurrence. Meme si la langue des signes est multicanal (plusieurs canaux d’informations), les formes de mains representent les entites centrales dans l’interpretation des signes. Afin d’interpreter correctement la signification d’un signe, les gestes de la main doivent etre identifies dans leur contexte approprie. En tenant compte de cela, nous utilisons le mecanisme d’auto-attention pour agreger efficacement les caracteristiques de la main avec leur contexte spatio-temporel approprie pour une meilleure reconnaissance des signes. Ainsi, notre modele est capable d’identifier les composants essentiels de la langue des signes qui tournent autour de la main dominante et le visage. Nous testons notre modele en utilisant la base de donnees RWTH-PHOENIX-Weather 2014 et sa variante RWTH-PHOENIX-Weather 2014T. Nous avons obtenu des resultats competitifs sur les deux ensembles de donnees et surpassons de maniere significative la plupart des approches existantes. _____________________________________________________________________________ MOTS-CLES DE L’AUTEUR : Intelligence artificielle, Apprentissage profond, Vision par ordinateur, Reconnaissance de l’action, estimation de la pose, Reconnaissance de la langue des signes, Traduction en langue des signes, Traitement du langage naturel, Auto-attention, Reseau de transformateurs.