Résumé:
Les gestes de la main jouent un rôle crucial dans les communications verbales et non verbales, servant de langage universel qui transcende les frontières linguistiques. Ils sont un outil essentiel pour exprimer les émotions et clarifier les mots parlés. Ces dernières années, de nombreux systèmes ont été développés pour reconnaître les gestes de la main et de nombreuses bases de données ont été enregistrées. Dans ce contexte, nous proposons un système de reconnaissance de gestes de la main statiques et dynamiques basé sur neuf descripteurs individuels. Ensuite, nous étudions la combinaison de la Transformée en Ondelettes Complexes à Double Arbre (DT-CWT) avec le descripteur Histogramme des Gradients Orientés (HOG) pour améliorer la robustesse et la précision du système. Pour la classification, les performances de cinq classifieurs sont évaluées, à savoir, le Perceptron Multicouche (MLP), le Réseau de Neurones Probabiliste (PNN), le Réseau de Neurones à Base Radiale (RBNN), la Forêt de Décision Aléatoires (RDF) et les Machines à Vecteurs de Support (SVM). L’évaluation expérimentale est effectuée sur quatre bases de données composées de signes d’alphabet et de gestes dynamiques. Les résultats obtenus illustrent clairement l’efficacité des caractéristiques combinées. Pour la base de données de la Langue des Signes Américaine, le descripteur DT-CWT+HOG combiné avec le classifieur RDF a atteint des taux de reconnaissance de 97,5% et 99,17% pour les arrière-plans noir et blanc, respectivement. De même, la base de données de la Langue des Signes Arabe a atteint un taux de reconnaissance de 94,89%. De plus, concernant les gestes dynamiques, la méthode a atteint un taux de reconnaissance de 100% pour la base de données Marcel, et 81,11% pour la base de données Cambridge. Ces résultats démontrent le potentiel des caractéristiques combinées pour améliorer les performances des systèmes de reconnaissance de gestes de la main. D’autre part, nous présentons une nouvelle base de données en langue des signes arabe composée de 28 signes effectués par 20 participants différents. Toutes les séquences ont été enregistrées dans le Laboratoire de la Communication Parlée et de Traitement de Signal de manière à ce que tout le corps du participant soit capturé. De plus, nous introduisons un système de reconnaissance du langage des signes bimodal capable de combiner les gestes de la main et des lèvres pour produire un nouveau vecteur de caractéristiques robuste. Notre système est composé de trois étapes principales. Tout d’abord, le module Mediapipe est utilisé pour extraire les régions de la main et des lèvres de toutes les séquences, puis les caractéristiques spatiales des modalités séparées sont caractérisées à l’aide d’un réseau VGG-16. Enfin, les caractéristiques unimodales sont fusionnées et introduites dans le Transformer pour la classification. Le système proposé a été appliqué sur la nouvelle base de données enregistrée où un taux de reconnaissance de 99,14% a été atteint. De plus, nous avons évalué les performances du système proposé sur la base de données Cambridge, où un taux de reconnaissance de 99,66% a été obtenu.