Résumé:
Cette étude se penche sur l'évaluation de la dégradation de l'expression émotionnelle dans la parole générée par un réseau de téléphonie sans fil. Deux méthodes d'évaluation ont été développées : une méthode objective basée sur des réseaux neuronaux convolutifs, où plusieurs études ont été menées pour sélectionner le classifieur optimal, et une méthode subjective basée sur la perception humaine. L'étude a collecté des phrases expressives dans deux langues différentes : celles de locuteurs arabes novices et de locuteurs allemands professionnels. Ces énoncés ont été transmis sur un réseau 4G réel, ce qui est rare, car l'accent est généralement mis sur la réduction de la bande passante ou la compression. Notre innovation réside dans l'utilisation de l'infrastructure 4G complète, en tenant compte de toutes les altérations possibles. Les résultats obtenus montrent un impact significatif de la transmission via le réseau 4G réel sur la reconnaissance des émotions. Avant la transmission, les taux de reconnaissance les plus élevés, mesurés par la méthode objective en utilisant l'échelle de fréquence Mel, étaient de 76% pour l'arabe et de 91% pour l'allemand. Après la transmission, ces taux ont considérablement diminué, atteignant 70% pour l'arabe et 82% pour l'allemand (une dégradation de 6% et 9%), respectivement. En ce qui concerne la méthode subjective, les taux de reconnaissance étaient de 75% pour l'arabe et de 70% pour l'allemand avant la transmission, et sont tombés à 67% pour l'arabe et à 68% pour l'allemand après la transmission (une dégradation de 8% et 2%). Nos résultats ont également été comparés à ceux trouvés dans la littérature qui ont utilisé la même base de données allemande.