Poster un commentaire

SARAH: Reconnaissance Vocale

Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.

L’idée est de tester que le premier mot "SARAH" a une confidence de 0.90. J’ai testé tout le week-end :

  • Sur 2 machines avec 2 Kinects
  • Avec différentes configurations (echo reduction, noise suppression, gain)
  • Télévision et PC allumé faisant du son…

Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: "SARAH bonjour".

Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …

Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du "tam tam" sur un bureau éloigné ça peut mieux marcher que dire "SARAH" devant le micro …

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 1 136 autres abonnés