Participez à Common Voice et Deep Speech

salle Mozilla Paris Une quarantaine de personnes se sont retrouvées dans les locaux de Mozilla Paris pour écouter et parler des projets « voix » de Mozilla, ce vendredi 12 avril. En effet, nous avons organisé une soirée Common Voice et Deep Speech afin de construire une communauté et produire un modèle français de qualité autour de cette technologie.

La soirée

La soirée a commencé avec Alexandre Lissy, chercheur chez Mozilla, qui a présenté les projets Common Voice et Deep Speech et leurs différences :

Le projet Common Voice est une initiative de Mozilla pour aider à apprendre aux machines comment les humains parlent vraiment. Il s’agit de collecter des données libres d’accès pour tous les projets au monde qui veulent travailler avec la voix. Ce jeu de données pourra ainsi être exploité par le projet Deep Speech et par d’autres.

Le projet Deep Speech est un autre projet de Mozilla pour transformer les ondes sonores en texte à partir de bases de contenus comme Common Voice. Utiliser uniquement Common Voice est un but à long terme.

Christophe Villeneuve et Alexandre Lissy Christophe Villeneuve et Alexandre Lissy

La seconde intervention était beaucoup plus technique, mais néanmoins très intéressante :

Ensuite, Joseph Dureau, CTO, et Mathieu Poumeyrol, Principal Engineer de l’entreprise Snips, nous ont parlé sous la forme d’un retour d’expérience sur Common Voice et Deep Speech.

La technologie de Snips permet de faire de la détection de wake word, de la reconnaissance vocale et de la compréhension du langage naturel sur des hardware équivalents au Raspberry Pi 3. Leur détecteur de wake word peut aussi tourner sur des Pi Zero, servant de satellites pour un hub plus puissant (par ex. le Pi 3) faisant tourner les autres briques technologiques. Le détecteur de wake word s’appuie sur un moteur d’inférence écrit en Rust, appelé Tract, que Mathieu nous a présenté.

La reconnaissance vocale s’appuie sur le framework Kaldi. Les modèles acoustiques utilisés par Snips pour la reconnaissance vocale sont en partie entraînés sur la data Common Voice, qui contribue à la qualité de la solution Snips. En retour, Snips a contribué à Common Voice en fournissant un large corpus de requêtes textuelles qui ont ensuite été enregistrées par la communauté.

Snips s’intéresse aussi de près à Deep Speech, qui est supporté par la librairie Tract, mais ne tourne pas encore en temps réel sur Raspberry Pi 3. Les progrès effectués par Mozilla dans cette direction pourraient fortement contribuer à généraliser l’approche Edge Computing portée par Snips.

Mathieu Poumeyrol et Joseph Dureau de SnipsMathieu Poumeyrol et Joseph Dureau de Snips

Enfin, Christophe Villeneuve a montré les différentes manières de s’impliquer dans ces deux projets avec ou sans connaissances techniques. Pour trouver comment vous impliquer ou juste par curiosité, rendez-vous sur le dépôt principal Common Voice en français. De plus, un collecteur de phrases permet de soumettre et de valider de nouvelles phrases pour le projet Common Voice et les proposer à tous et à toutes. C’est pourquoi il est indispensable de parler et de valider des dons de voix.

Ingrédients Common voice et Deep speech

Sprint 100 heures pour Common Voice

Pour accélérer le développement de l’analyseur vocal libre, il est important d’augmenter la quantité d’échantillons vocaux. À cette occasion, du 22 avril au 5 mai, un sprint appelé 100 heures pour Common Voice est lancé pour que tout le monde puisse participer. Grâce à la participation de chacun – homme, femme, enfants de tous âges – vous allez pouvoir améliorer ce projet qui vise à déverrouiller et à ouvrir l’écosystème de la voix. Pour signaler votre participation au sprint, vous pouvez vous inscrire sur le site de l’événement ou participer directement sur le site de Common Voice de Mozilla.

Allez ! Quelques dons de voix et quelques validations à votre rythme, avec votre accent et le micro à votre disposition, ce n’est pas grand-chose, mais ensemble nous pourrons avoir un impact considérable !

Retrouvez davantage de photos de la soirée dans cet album :

Common Voice & DeepSpeech le 12 avril 2019 à Mozilla Paris

@hellosct1 et Mozinet

Précédent événement : Journées du logiciel libre les 6 et 7 avril à Lyon

Les 6 et 7 avril 2019 se tiendra la 21ᵉ édition des JDLL (Journées du logiciel libre) à Lyon, sur le thème « ecologeek : pour une terre communautaire » et Mozilla y sera…

Crédit illustrations : photos de Mozinet sous licence Attribution – CC By 2.0.

Schéma Mozilla Speech Recognition, Mozilla.

Mise à jour du 27 de la section sur Snip.

Haut de page