Common Voice : 1 an après

robot grandi Il y a environ un an, nous vous incitions à participer au projet Common Voice en faisant des dons de voix. Il est temps de faire un point sur ce projet.

Pour rappel, Common Voice est une initiative de la fondation Mozilla pour aider les machines à apprendre comment parlent les vraies personnes. En un an, le projet a bien progressé, mais ce n’est pas suffisant pour disposer d’un jeu de données opérationnel. Il nous faut bien plus d’heures parlées et validées. Plus les contributions seront de qualité, moins il y aura de rebut. Suivez notre mode d’emploi.

stat langue Française le 01 septembre 2019

Comme le montre ce graphique, il y a des différences entre le nombre d’heures enregistrées et le nombre d’heures validées. L’écart était beaucoup plus important ces derniers mois et a vu une diminution ces dernières semaines.

La variation de la courbe montre une participation et des niveaux différents avec un jeu de données d’erreurs importantes.

Cette différence provoque un ralentissement de la qualité du jeu de données, et ralentit la progression du projet de transcription vocale appelé Deep Speech.

tableau de bord Common Voice

Un tableau de bord

L’accès au tableau de suivi des activités se fait en cliquant sur votre compte. Il bénéficie de beaucoup d’attention des équipes qui travaillent à son amélioration pour tous et toutes.

Statistiques

Les statistiques proposent vos échantillons validés et parlés par jour et ceux produits globalement par langue comme le français.

Enfin, les contributeurs et contributrices remarquables sont listés dans 2 classements : les échantillons enregistrés et les validés. Si vous souhaitez apparaître dans ces classements, vous devez régler l’option de profil Affichage public sur Visible.

tableau de bord Common Voice

Objectifs

La page des objectifs se compose de 2 parties :

Une gamme d’objectifs vous y est proposé pour vous aider à nous aider à élargir les contributions sur une période donnée (1 à 15 jours) et le nombre d’échantillons parlés ou écoutés (5 à 150 phrases).

La deuxième partie de l’écran propose de définir un objectif personnalisé.

Il faudra remplir un questionnaire de 3 questions :

  • l’objectif quotidien ou hebdomadaire
  • le nombre d’échantillons – facile (15), normal (30), difficile (45), professionnel (60)
  • Parler, écouter ou faire les deux ?

Ainsi, vous verrez votre avancée par rapport à votre objectif.

Trophées

Avec les objectifs définis ci-dessus, vous obtiendrez un trophée à chaque fois que vous en aurez atteint un. Il sera différent suivant vos critères.

tableau de bord Common Voice

Un outil de rapport

Si vous contribuez quotidiennement, vous avez peut-être remarqué quelques erreurs dans les phrases à lire. Vous pouvez nous le faire savoir en utilisant le bouton Signaler.

Vous pouvez nous avertir des erreurs de grammaire, des mots d’une autre langue et d’autres inexactitudes.

Obtenir de la qualité

Lorsque vous validez des échantillons vocaux, vous allez repérer des erreurs dans les échantillons que vous écoutez.

Nous compilons le Top 5 des erreurs courantes :

  • mots ajoutés
  • mots oubliés
  • mots qu’on accroche
  • lettres oubliées qui modifient le sens de la phrase
  • inversion de syllabe

Objectif ecouter Common Voice Objectif parler Common Voice objectifs Common Voice

Le matériel

Le matériel n’est pas le critère principal, même s’il est important.

Tout d’abord, le réglage audio est très important, car si le volume du micro est mal réglé, le résultat sera refusé. Voici le Top 3 des erreurs dans ce domaine :

  • mauvaise compréhension de l’échantillon
  • bruit de souffle
  • volume faible qui rend l’échantillon incompréhensible

D’autres part, le déclenchement de l’échantillon grâce à la souris ou au clavier peut jouer sur la recevabilité du résultat qui pourra. Voici le Top 3 des erreurs de déclenchement :

  • le ou les premiers mots ne sont pas enregistrés
  • l’enregistrement de l’échantillon est stoppé avant la fin
  • le ou les derniers mots sont coupés avant la fin de l’enregistrement

La voix : un enjeu

Votre état de fatigue joue sur la qualité de l’enregistrement vocale.

Ainsi vous pouvez obtenir le message suivant : Enregistrement est trop long ou Enregistrement est trop court.

Il n’y a pas de problème, il suffit de recommencer l’échantillon pour qu’il soit validé.

Cependant, après une certaine quantité de contributions, d’autres erreurs apparaissent du style :

Accrochage d’un ou plusieurs mots, voir tous les mots.

C’est pourquoi il est alors préférable de faire une pause.

Beaucoup de vos questions devraient trouver une réponse dans notre FAQ.

objectifs Common Voice

Même si vous avez déjà participé en donnant votre voix, vous pouvez le (re)faire aujourd’hui et les jours qui suivent car nous ajoutons régulièrement de nouvelles phrases.


Venez découvrir tous les jours, les nouvelles phrases que nous vous proposons aussi bien à parler qu’à écouter.


@hellosct1

Précédent article à propos d’un projet de Mozilla : AV1, la solution ouverte, performante et libre de droits pour la vidéo en ligne

Regarder une vidéo coûteAV1 est un codec vidéo de nouvelle génération qui surpasse les performances de VP9 et HEVC, ses concurrents. Le format AV1 est et restera toujours libre de droits grâce à sa licence de logiciel libre permissive…

Haut de page