Aidez-nous à créer le premier segment cible de Common Voice

Cet article est également disponible en : anglais et espagnol

À ce jour, Common Voice a la capacité de collecter des données vocales dans un but ou un cas d’utilisation spécifique. Nous mettons cette capacité à l’épreuve et démarrons la collecte de données pour un seul segment de mot cible qui permettra à terme 1) la reconnaissance vocale des chiffres, 2) la détection des oui et des non et 3) les données pour le test des mots de réveil de Hey Firefox.

Pour ce faire, la plateforme Common Voice recueillera les contributions audio des contributeurs et contributrices de différentes langues qui parlent les chiffres de un à dix, ainsi que les mots oui, non, hey et Firefox. Ces 14 phrases (d’un seul mot) seront classées par ordre de priorité pour chaque contributeur ou contributrice lorsqu’il ou elle parlera ou écoutera sur Common Voice. Afin de garantir un large éventail de données dans chaque langue, nous limiterons l’enregistrement de ces phrases à une seule fois par personne et par langue. Nous reconnaissons également qu’écouter des personnes répéter des phrases aussi courtes peut devenir ennuyeux et fatigant mentalement. Pour éviter l’épuisement et garantir la qualité de la contribution lors de l’écoute des clips, chaque personne ne recevra que deux séries au maximum (soit 28 au total) de ces enregistrements succincts.

Capture de la page Speak de Common Vice

Pourquoi un segment cible ?

Cette collecte de données ciblée bénéficiera immédiatement à deux collaborations : la première avec Josh Meyer, boursier Mozilla, et la seconde avec nos coéquipiers qui créent Firefox Voice.

Une partie du travail de Josh consiste à découvrir combien de données sont nécessaires pour former un moteur d’apprentissage automatique à une nouvelle application de reconnaissance vocale dans une nouvelle langue. Pour ce travail, Josh vise à évaluer la précision du moteur de reconnaissance vocale open source de Mozilla, Deep Speech, dans plusieurs langues pour une tâche similaire. Josh et l’équipe de Deep Speech ont identifié que la reconnaissance vocale, ainsi que la détection des oui et des non, sont d’excellents candidats pour ce type de test d’application. La seule mise en garde est qu’ils ont besoin de données pour effectuer ces tests et, pour citer Josh lui-même : « Ces données n’existent pas… encore. »

De même, nos collègues de Mozilla dans le domaine des technologies émergentes testent et forment les options de mots de réveil pour Firefox Voice. Ils se sont adressés à nous, curieux de savoir si les communautés Common Voice pourraient aider à générer des données vocales pour Hey Firefox dans plusieurs langues.

En ajoutant votre voix à ce segment cible, vous contribuez au travail effectué par Josh, Deep Speech, Firefox Voice et Common Voice – sans parler des personnes qui téléchargeront ce segment cible et créeront des applications de reconnaissance vocale dans différentes langues.

Quelles langues cette information sera-t-elle recueillie ?

À partir d’aujourd’hui, cette collecte de données ciblée est disponible en 13 langues*. Si elle est disponible dans votre/vos langue(s), vous remarquerez 1) une bannière l’annonçant sur le site web de Common Voice et 2) un contexte ajouté sur les fiches de phrase lors de la contribution. Notre objectif est de permettre cette collecte dans le plus grand nombre de langues possible. Pour ce faire, nous devons d’abord obtenir tous les mots traduits ou translittérés** pour chaque langue, vérifiés par un locuteur natif. Une fois prêts, ils seront fusionnés et mis à disposition pour contribution sur Common Voice. Si vous souhaitez contribuer à la traduction de ces mots dans votre/vos langue(s), rendez-vous dans ce dépôt Github où vous pouvez soumettre une pull request ou une issue pour examen.

Pourquoi est-ce important et quelle est la suite ?

Le projet Common Voice se développant en termes de taille des ensembles de données, de communauté et de portée, il est devenu de plus en plus important pour la plateforme de pouvoir distinguer le contexte des données collectées. En fournissant un contexte, ou un vocabulaire de ce à quoi les données se rapportent par le biais de l’étiquetage, il est possible d’obtenir une image plus complète au-delà de la langue, de l’accent, du sexe et de l’âge. Ce niveau de détails permettra aux contributeurs et contributrices – tant les membres de la communauté qui soumettent des enregistrements et des phrases, que les chercheurs, chercheuses, développeurs et développeuses qui analysent le résultat final – de sélectionner le segment qui leur convient le mieux. Cela permettra un retour d’informations plus détaillé sur la manière de continuer à améliorer l’ensemble des données, tout en ouvrant davantage de possibilités d’utilité et d’application.

Pour faire avancer ce travail, l’équipe explorera les possibilités que cette nouvelle structure facilite, notamment le marquage au niveau du clip pendant la phase d’écoute. Notre objectif est d’introduire des segments de données plus ciblés en fonction du contenu enregistré. Il pourrait s’agir par exemple d’identifier le bruit de fond d’un clip enregistré ou de confirmer que le contenu est lié à la médecine ou à la géographie. En mettant en œuvre l’étiquetage, tant pour les phrases importées que pour les clips enregistrés, la structure de données alimentée est plus complète et plus précise. Restez à l’écoute pour cette annonce de sortie et allez ajouter votre voix au premier segment cible de Common Voice !

À bientôt,

Megan + l’équipe de Common Voice


*13 langues initiales : arabe, catalan, anglais, allemand, espagnol, français, néerlandais, polonais, portugais, russe, tamoul, turc, tatar.


**Pour la collection de Hey dans le cadre de Hey Firefox, l’équipe de Firefox Voice souhaite utiliser une approche de translittération pour capturer des énoncés plus naturels et plus confortables. Un exemple en français est Hé Firefox plutôt que Salut Firefox.



Traduction et relecture : Hellosct1, JUM, Mozinet, et anonymes

Haut de page