Résumé:
Grâce à l’avancée technologique des réseaux de communication en particulier les réseaux mobiles, la Reconnaissance Automatique de la Parole (RAP) est devenue une application de service en plein essor. Cette technique offre aux utilisateurs un moyen pratique de communiquer avec leur téléphone, d'accéder à des services à distance et d'utiliser des applications sans avoir à entrer manuellement des commandes. Toutefois, il est important de souligner que la RAP dans les conditions réelles de communication, pose beaucoup de problèmes, parmi lesquels on trouve, l’effet du codeur mobile, l’effet du bruit d'environnement, problème de représentation (Front-End) etc. Cette thèse propose, dans cet objectif, trois contributions afin de réduire l’impact des problèmes qui affectent négativement la performance des systèmes de RAP dans les réseaux de communication mobile. La première contribution concerne l’analyse du signal vocal à savoir l'extraction des paramètres acoustiques. Deux méthodes de paramétrisation différentes ont été développées et évaluées. La première méthode dite bitstreams utilise les paramètres de production du signal de la parole qui sont utilisés comme paramètres d’entrée du codeur AMR-NB (Adaptive Multi-Rate Narrow-Band). La deuxième méthode se base sur les paramètres de perception, elle est inspirée du système auditif et utilise l'échelle de Mel, l'échelle de Gammatone et les filtres de Gabor. Cette méthode est appelée méthode de perception, elle utilise les paramètres MFCC (Mel Frequency Cepstral Coefficients) modifiés. Dans la deuxième contribution, nous nous sommes concentrés sur l’amélioration de la robustesse du décodage (Back-End) en se basant sur l’approche de reconnaissance. Nous avons utilisé un système de référence basé sur les modèles de Markov cachés continus (HMM) comme modèle de comparaison avec deux approches de reconnaissance différentes. Le premier système utilise la technique du Deep Learning à savoir les DNN (Deep Neural Network) tandis que le deuxième utilise une approche hybride (DNN/HMM) combinant les modèles probabilistes HMM qui ont déjà fait leurs preuves depuis des décennies et les réseaux de neurones profonds. Dans le premier système, les DNNs sont utilisés comme moteur de reconnaissance tandis que le deuxième système dit hybride combine les avantages des réseaux de neurones et ceux des modèles de Markov. Le réseau de neurone profond est utilisé pour modéliser les caractéristiques de la parole par apprentissage et les modèles HMM sont utilisés pour le décodage. Malgré une nette amélioration des taux de reconnaissance en utilisant le système hybride, une diminution de ces taux est constatée lorsque la parole est affectée par du bruit. Afin d’atténuer l’effet du bruit dû à l’environnement, nous avons développé deux techniques de débruitage qui constituent notre troisième contribution. La première technique est la factorisation matricielle non négative NMF (Non-Négative Matrix Factorisation). Cette technique a permis une amélioration du taux de reconnaissance pour les trois niveaux SNR : 0dB, 5dB et 10dB. La deuxième technique de séparation mise en œuvre est basée sur l'Analyse Computationnelle de la Scène Auditive (Computational Auditory Scene Analysis (CASA). La technique CASA utilise l’algorithme du Masque Binaire Idéal IBM (Ideal Binary Mask) pour estimer le signal de la parole bruité. Les résultats de reconnaissance montrent que la technique IBM-DNN est plus performante en termes de taux de reconnaissance pour le cas de parole transcodée bruitée.