Christophe Villeneuve et Alexandre Lissy Christophe Villeneuve et Alexandre Lissy

La seconde intervention était beaucoup plus technique, mais néanmoins très intéressante :

Ensuite, Joseph Dureau, CTO, et Mathieu Poumeyrol, Principal Engineer de l’entreprise Snips, nous ont parlé sous la forme d’un retour d’expérience sur Common Voice et Deep Speech.

La technologie de Snips permet de faire de la détection de wake word, de la reconnaissance vocale et de la compréhension du langage naturel sur des hardware équivalents au Raspberry Pi 3. Leur détecteur de wake word peut aussi tourner sur des Pi Zero, servant de satellites pour un hub plus puissant (par ex. le Pi 3) faisant tourner les autres briques technologiques. Le détecteur de wake word s’appuie sur un moteur d’inférence écrit en Rust, appelé Tract, que Mathieu nous a présenté.

La reconnaissance vocale s’appuie sur le framework Kaldi. Les modèles acoustiques utilisés par Snips pour la reconnaissance vocale sont en partie entraînés sur la data Common Voice, qui contribue à la qualité de la solution Snips. En retour, Snips a contribué à Common Voice en fournissant un large corpus de requêtes textuelles qui ont ensuite été enregistrées par la communauté.

Snips s’intéresse aussi de près à Deep Speech, qui est supporté par la librairie Tract, mais ne tourne pas encore en temps réel sur Raspberry Pi 3. Les progrès effectués par Mozilla dans cette direction pourraient fortement contribuer à généraliser l’approche Edge Computing portée par Snips.

Mathieu Poumeyrol et Joseph Dureau de SnipsMathieu Poumeyrol et Joseph Dureau de Snips

Enfin, Christophe Villeneuve a montré les différentes manières de s’impliquer dans ces deux projets avec ou sans connaissances techniques. Pour trouver comment vous impliquer ou juste par curiosité, rendez-vous sur le dépôt principal Common Voice en français. De plus, un collecteur de phrases permet de soumettre et de valider de nouvelles phrases pour le projet Common Voice et les proposer à tous et à toutes. C’est pourquoi il est indispensable de parler et de valider des dons de voix.

Ingrédients Common voice et Deep speech

Sprint 100 heures pour Common Voice

Pour accélérer le développement de l’analyseur vocal libre, il est important d’augmenter la quantité d’échantillons vocaux. À cette occasion, du 22 avril au 5 mai, un sprint appelé 100 heures pour Common Voice est lancé pour que tout le monde puisse participer. Grâce à la participation de chacun – homme, femme, enfants de tous âges – vous allez pouvoir améliorer ce projet qui vise à déverrouiller et à ouvrir l’écosystème de la voix. Pour signaler votre participation au sprint, vous pouvez vous inscrire sur le site de l’événement ou participer directement sur le site de Common Voice de Mozilla.

Allez ! Quelques dons de voix et quelques validations à votre rythme, avec votre accent et le micro à votre disposition, ce n’est pas grand-chose, mais ensemble nous pourrons avoir un impact considérable !

Retrouvez davantage de photos de la soirée dans cet album :

Common Voice & DeepSpeech le 12 avril 2019 à Mozilla Paris

@hellosct1 et Mozinet

Précédent événement : Journées du logiciel libre les 6 et 7 avril à Lyon

Les 6 et 7 avril 2019 se tiendra la 21ᵉ édition des JDLL (Journées du logiciel libre) à Lyon, sur le thème « ecologeek : pour une terre communautaire » et Mozilla y sera…

Crédit illustrations : photos de Mozinet sous licence Attribution – CC By 2.0.

Schéma Mozilla Speech Recognition, Mozilla.

Mise à jour du 27 de la section sur Snip.