Je n’ai pas eu le temps de faire une nouvelle release de SARAH ce week-end. Mais j’ai trouvé une astuce pour améliorer la reconnaissance vocale et surtout limiter les faux positifs.
L’idée est de tester que le premier mot "SARAH" a une confidence de 0.90. J’ai testé tout le week-end :
- Sur 2 machines avec 2 Kinects
- Avec différentes configurations (echo reduction, noise suppression, gain)
- Télévision et PC allumé faisant du son…
Le résultat semble meilleur même si j’ai encore beaucoup trop de faux positifs sur des phrases courtes: "SARAH bonjour".
Je met en ligne les dumps (wav + xml) des faux positifs, si une bonne âme de Microsoft, expert Speech / Kinect peut me renseigner… car j’ai des résultats très étranges parfois …
Je pense que l’algo se base sur la modulation du son sans tenir compte du volume. Donc si l’on fait du "tam tam" sur un bureau éloigné ça peut mieux marcher que dire "SARAH" devant le micro …