Résumé:
L'utilisation croissante des technologies de reconnaissance automatique de la parole (ASR) a donnée lieu à diverses applications, telles que la dictée vocale sur ordinateur et les serveurs vocaux interactifs. Cette thèse se concentre sur l'identification automatique des langues et des dialectes arabes. Les contributions incluent l'application de méthodes de machine Learning classiques et d'apprentissage profond pour étudier les classifications hiérarchiques des dialectes arabes.
L'utilisation combinée d'approches d'apprentissage par transfert permet de créer un
système performant avec des ressources limitées. L'intégration d'un module d'identification des langues/dialectes améliore également la reconnaissance des chiffres prononcés pour les langues avec peu de ressources disponibles. Les systèmes développés ont été testés sur différents corpus provenant de diverses sources de collecte de données. Une approche basée sur le transfert d'apprentissage a été utilisée pour identifier les dialectes maghrébins, qui sont plus complexes que les dialectes arabes. Deux méthodes principales ont été employées.
La première consiste à re-entraîner plusieurs modèles de transfert d'apprentissage,
tels que ResNet50, ResNet101, VGG16, VGG19, DenseNet121, DenseNet169 et MobileNet, en variant le nombre de couches.
La deuxième approche utilise la stratégie de "stacked generalization" pour fusionner efficacement les prédictions des modèles préalablement entraînés. Les résultats démontrent que cette approche en cascade a le potentiel d'améliorer les performances du système d'identification des langues/dialectes, avec une augmentation de 5% dans l'identification entre le dialecte marocain MBD et l'arabe standard algérien ASM. De plus, un score de reconnaissance des chiffres parlés atteignant 99,11% a été obtenu pour les dialectes marocain et algérien.
La deuxième contribution de cette thèse consiste a' améliorer la reconnaissance de la parole. Nous avons entraîné un système ASR hybride (combinaison d'un système d'identification de la langue (LI) et celui de ASR) en utilisant cinq classificateurs basés sur l'apprentissage automatique et deux modèles d'apprentissage profond : un modèle bas ?e sur un réseau neuronal convolutif (CNN) et un autre utilisant deux modèles pre-entraînés, à savoir Residual Deep Neural Network (Resnet50 et Resnet101). Les résultats démontrent que le modèle CNN surpasse les autres méthodes proposées et améliore les performances du système de reconnaissance des chiffres parlés de 20% pour les dialectes algériens et marocain. En général, les résultats montrent l'efficacité de l'apprentissage automatique dans la plupart des systèmes, en témoignant du bon comportement de nos systèmes lors de l'utilisation de descripteurs appropries avec le bon choix de modèle qui décrivent bien les dialectes en question.