Une technologie vocale plus humaine
Par
Ewan Dunbar
Université de Paris
Jeudi 27 février, 10:30-12:00, Salle 3195, Pavillon André-Aisenstadt
Université de Montréal, 2920 Chemin de la Tour
Résumé:
Grâce à l’application d’architectures neuronales performantes à des bases de données énormes, la technologie vocale a fait d'énormes progrès au cours des cinq dernières années (reconnaissance automatique de la parole, synthèse de la parole—tâches de traitement de la parole « superficielles » qui peuvent être effectuées avec peu ou zéro compréhension de la signification des mots). Bien que les tâches de reconnaissance et de génération de la parole ne soient pas entièrement « résolues » (i.e., donnant un résultat indiscernable de celui de l’humain), pour de nombreux cas d’usage, dans plusieurs langues, les résultats sont suffisamment impressionnants pour que les assistants numériques à commande vocale continuent à bien se vendre à des clients satisfaits. En ce qui concerne la science fondamentale, par contre, le travail ne fait que commencer. L’objectif qui motive les projets de recherche de mon groupe est de comprendre intégralement comment les humains traitent la parole. Le problème ne sera pas résolu tant que nous n'aurons pas un modèle computationnel précis de l'humain, qui, au minimum, se comportera exactement de la même manière que l'être humain—non seulement aux tâches quotidiennes, comme écouter des phrases, mais aussi aux tâches expérimentales psychoacoustiques spécifiquement construites et contrôlées pour révéler le fonctionnement des mécanismes sous-jacents. Nous cherchons donc à faire de la rétro-ingénierie de l’humain. Je présenterai des résultats expérimentaux et de modélisation montrant que nous sommes encore loin de cet objectif. Je présenterai des benchmarks et des tâches qui ont pour objectif de propulser le domaine dans cette direction—entre autres, le Zero Resource Speech Challenge, un challenge de machine learning qui cherche à réduire la dépendance de la technologie de la parole aux bases de données de parole labélisées avec du texte, afin de passer à un apprentissage plus autonome et plus semblable à celui de l’humain. De nombreuses applications pratiques seraient possibles grâce à une technologie vocale plus humaine, non seulement une amélioration de la performance à des tâches existantes dans les cas où les systèmes actuels sont encore faillibles, mais aussi à des tâches innovantes, telles que de nouvelles formes de technologie adaptative et éducative.
Biographie :
Ewan Dunbar est maître de conférences à l'Université de Paris et chercheur au sein de l'équipe Cognitive Machine Learning (CoML) de l'École Normale Supérieure/Inria. Il a obtenu son doctorat de l'Université du Maryland, College Park, en 2013, après des études de baccalauréat et de maîtrise à l'Université de Toronto. Sa recherche porte principalement sur la parole, avec des thématiques en perception, en modélisation computationnelle, et en technologie vocale.