En outre, le nombre d’appareils équipés de reconnaissance vocale s’accroît chaque jour, alors que Google Home, Amazon Echo et Apple HomePod rivalisent pour conquérir le marché. La reconnaissance vocale fait aussi son chemin dans les interfaces multimodales, les aides intelligentes à la conduite auto, les montres et les lampes connectées, les vélos, les thermostats… Ainsi ces interfaces vocales sont pratiques et envahissent tout.

Heureusement, les avancées techniques se sont multipliées ces dernières années, ce qui facilite grandement la création de moteurs de synthèse et de reconnaissance vocale fiables. De puissants outils tels que l’intelligence artificielle et l’apprentissage automatique, associés aux algorithmes les plus avancés du moment, ont modifié notre approche classique du développement. Les programmeurs n’ont plus à constituer de dictionnaires de phonèmes, ni formuler de séquences de traitement ou composants fait maison. Dorénavant, ces moteurs vocaux ont recours à des techniques d’apprentissage profond pour traiter les divers formes de parole, accents et bruit ambiant, atteignant une précision sans précédent.

La barrière à l’innovation

Toutefois, il y a des barrières à l’innovation ouverte. Aujourd’hui, les technologies de reconnaissance vocale sont majoritairement détenues par quelques entreprises ayant investi massivement. Les développeurs qui souhaitent mettre en œuvre la reconnaissance vocale sur le Web travaillent face à un panel fractionné d’API et de prise en charge. Google Chrome est compatible avec une API de reconnaissance vocale différente de celle d’Apple dans Safari, elle-même différente de celle de Microsoft.

Donc si vous voulez créer une interface vocale pour une application web qui fonctionne sur tous les navigateurs, vous devrez écrire du code spécifique pour chacune des différentes API de navigateurs. Écrire et réécrire du code compatible avec chaque navigateur n’est pas faisable pour beaucoup de projets, en particulier si la base du code est large ou complexe.

Il y a une seconde option : vous pouvez acheter l’accès à une API non basée sur un navigateur auprès de Google, IBM ou Nuance. Leur coût peut s’élever à un pourcent par utilisation. Si vous choisissez cette option, alors vous obtenez une API stable. Mais à 1 % par utilisation, ces coûts peuvent monter en flèche, à plus forte raison si votre application est très populaire et que des millions de personnes veulent l’utiliser. Cette solution est un frein intrinsèque au succès, donc elle ne peut pas être servir de base à un projet en forte croissance.

Speech & Machine Learning

Ouvrir la voix au Web

Nous estimons que c’est le bon moment pour ressayer d’ouvrir le champ encore jeune des technologies vocales, afin que davantage de personnes puissent s’impliquer, innover et rivaliser avec les acteurs plus importants. Pour y contribuer, l’équipe de l’apprentissage automatique (Machine Learning). Ce moteur donnera à Mozilla la possibilité de prendre en charge la reconnaissance vocale dans son navigateur Firefox. Nous prévoyons aussi de le rendre librement disponible pour la communauté des développeurs en matière vocale, sans frais d’accès ni d’usage.

Deuxièmement, nous voulons rallier les autres entreprises éditrices de navigateur pour soutenir l’API Web Speech, une spécification d’un groupe communautaire du W3C qui peut permettre aux développeurs d’écrire des interfaces pilotées par la voix qui utiliseraient n’importe quelle interface de leur choix, plutôt qu’avoir à choisir un service propriétaire ou commercial. Cela pourrait ouvrir un marché concurrentiel pour les centrales domestiques comme Amazon Echo qui pourrait être configuré pour communiquer avec un autre ou plusieurs autres, pour des environnements domotiques répondant à la voix vraiment intégrés.

Jusqu’où la voix peut nous emmener ?

L’informatique activée par la voix peut faire beaucoup de bien. Les centrales domestiques pourraient être utilisées pour fournir de la surveillance de sécurité et de santé pour les personnes malades ou âgées qui veulent rester chez eux. Ajouter des fonctionnalités à la Siri aux automobiles pourrait rendre nos routes plus sûres, en donnant un accès mains libres à une large gamme de services, tels que les demandes d’itinéraire et les discussions instantanées, en gardant les yeux du conducteur rivés sur la route. Les interfaces vocales pour le Web pourraient améliorer les pratiques de navigation des personnes avec des limitations visuelles et physiques, leur donnant la possibilité de parler aux applications au lieu d’avoir à frapper, lire ou déplacer la souris.

C’est amusant d’imaginer où ce travail peut nous mener. Par exemple, comment pourrions-nous utiliser les interfaces de langage silencieux pour garder les conversations privées ? Si votre téléphone peut lire sur les lèvres, vous pouvez partager des informations personnelles sans que la personne assise à vos côtés au café ou dans le bus surprenne la conversation. C’est désormais un avantage de la même manière pour les locuteurs et les auditeurs.

Lecture sur les lèvres Vous voulez participer ? Nous sommes à la recherche de davantage de volontaires pour participer à nos deux projets open source : le développement du moteur de reconnaissance vocale et le dépôt de code des applications Common Voice.

Si la programmation n’est pas votre truc, vous pouvez toujours faire un don de quelques phrases au projet Common Voice. Vous pouvez lire : « It made his heart rise into his throat » ou « I have the diet of a kid who won $20 ». D’une manière ou d’une autre, c’est rapide et amusant. Et ça nous aide à offrir aux développeurs un choix open source qui soit robuste et abordable.


Si vous êtes anglophone natif·ve, vous pouvez d’ores et déjà participer à Common Voice. Sinon, soyez patient·e ou participez au code :-)


Traduction et relecture : Mozinet, Goofy, Banban, Théo, lebonvent et anonymes

Crédit illustrations : Mozilla.

Sous la dernière photo est liée la vidéo YouTube LipNet: How easy do you think lipreading is? (1 min 43).