Contribution à l’amélioration de la reconnaissance automatique de la parole dans les réseaux de communication mobiles

Afficher la notice abrégée

dc.contributor.author Bouchakour, Lallouani
dc.date.accessioned 2024-10-23T13:52:12Z
dc.date.available 2024-10-23T13:52:12Z
dc.date.issued 2024-03-09
dc.identifier.uri http://repository.usthb.dz//xmlui/handle/123456789/9954
dc.description 110 p. : ill. ; 30 cm + (CD-Rom) en_US
dc.description.abstract Grâce à l’avancée technologique des réseaux de communication en particulier les réseaux mobiles, la Reconnaissance Automatique de la Parole (RAP) est devenue une application de service en plein essor. Cette technique offre aux utilisateurs un moyen pratique de communiquer avec leur téléphone, d'accéder à des services à distance et d'utiliser des applications sans avoir à entrer manuellement des commandes. Toutefois, il est important de souligner que la RAP dans les conditions réelles de communication, pose beaucoup de problèmes, parmi lesquels on trouve, l’effet du codeur mobile, l’effet du bruit d'environnement, problème de représentation (Front-End) etc. Cette thèse propose, dans cet objectif, trois contributions afin de réduire l’impact des problèmes qui affectent négativement la performance des systèmes de RAP dans les réseaux de communication mobile. La première contribution concerne l’analyse du signal vocal à savoir l'extraction des paramètres acoustiques. Deux méthodes de paramétrisation différentes ont été développées et évaluées. La première méthode dite bitstreams utilise les paramètres de production du signal de la parole qui sont utilisés comme paramètres d’entrée du codeur AMR-NB (Adaptive Multi-Rate Narrow-Band). La deuxième méthode se base sur les paramètres de perception, elle est inspirée du système auditif et utilise l'échelle de Mel, l'échelle de Gammatone et les filtres de Gabor. Cette méthode est appelée méthode de perception, elle utilise les paramètres MFCC (Mel Frequency Cepstral Coefficients) modifiés. Dans la deuxième contribution, nous nous sommes concentrés sur l’amélioration de la robustesse du décodage (Back-End) en se basant sur l’approche de reconnaissance. Nous avons utilisé un système de référence basé sur les modèles de Markov cachés continus (HMM) comme modèle de comparaison avec deux approches de reconnaissance différentes. Le premier système utilise la technique du Deep Learning à savoir les DNN (Deep Neural Network) tandis que le deuxième utilise une approche hybride (DNN/HMM) combinant les modèles probabilistes HMM qui ont déjà fait leurs preuves depuis des décennies et les réseaux de neurones profonds. Dans le premier système, les DNNs sont utilisés comme moteur de reconnaissance tandis que le deuxième système dit hybride combine les avantages des réseaux de neurones et ceux des modèles de Markov. Le réseau de neurone profond est utilisé pour modéliser les caractéristiques de la parole par apprentissage et les modèles HMM sont utilisés pour le décodage. Malgré une nette amélioration des taux de reconnaissance en utilisant le système hybride, une diminution de ces taux est constatée lorsque la parole est affectée par du bruit. Afin d’atténuer l’effet du bruit dû à l’environnement, nous avons développé deux techniques de débruitage qui constituent notre troisième contribution. La première technique est la factorisation matricielle non négative NMF (Non-Négative Matrix Factorisation). Cette technique a permis une amélioration du taux de reconnaissance pour les trois niveaux SNR : 0dB, 5dB et 10dB. La deuxième technique de séparation mise en œuvre est basée sur l'Analyse Computationnelle de la Scène Auditive (Computational Auditory Scene Analysis (CASA). La technique CASA utilise l’algorithme du Masque Binaire Idéal IBM (Ideal Binary Mask) pour estimer le signal de la parole bruité. Les résultats de reconnaissance montrent que la technique IBM-DNN est plus performante en termes de taux de reconnaissance pour le cas de parole transcodée bruitée. en_US
dc.language.iso fr en_US
dc.subject Reconnaissance automatique de la parole ; Réseaux neuronaux (informatique) ; Codage ; Traitement automatique de la parole ; Systèmes de communication sans fil ; Bruit en_US
dc.title Contribution à l’amélioration de la reconnaissance automatique de la parole dans les réseaux de communication mobiles en_US
dc.type Thesis en_US


Fichier(s) constituant ce document

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Chercher dans le dépôt


Parcourir

Mon compte