Мы опубликовали современный Voice Activity Detector и не только

Джерело:
Хабрахабр:

Дата публікації:
14/01/2021 08:35

Постійна адреса новини:
http://www.vsinovyny.com/7447678

Мы опубликовали современный Voice Activity Detector и не только

 

14/01/2021 08:35 // Хабрахабр:

image


Всегда при работе с речью встает несколько очень "простых" вопросов, для решения которых нет большого количества удобных, открытых и простых инструментов: детекция наличия голоса (или музыки), детекция наличия цифр и классификация языков.


Для решения задачи детекции голоса (Voice Activity Detector, VAD) существует довольно популярный инструмент от Google — webRTC VAD. Он нетребовательный по ресурсам и компактный, но его основной минус состоит в неустойчивости к шуму, большом числе ложноположительных срабатываний и невозможности тонкой настройки. Понятно, что если переформулировать задачу не в детекцию голоса, а в детекцию тишины (тишина — это отсутствие и голоса и шума), то она решается весьма тривиальными способами (порогом по энергии, например), но с теми же минусами и ограничениями. Что самое неприятное — зачастую такие решения являются хрупкими и какие-то хардкодные пороги не переносятся на другие домены.


Изначально мы хотели сделать простой и быстрый внутренний инструмент для себя и наших партнеров для детекции произнесенных чисел без привлечения полноценного STT (фишка изначально была именно в портативности засчет использования современных фреймворков типа PyTorch и ONNX), но в итоге оказалось, что можно сделать не только детектор чисел, но и качественный, быстрый и портативный VAD и классификатор языков, который и опубликовали бесплатно для всех желающих тут под лицензией MIT. За подробностями прошу под кат.

Читать дальше →

 

» Читати повністю

 

« Наступна новина з архіву
Рецепт дня: готовим сообщество профессионалов, не выходя из своего отдела
  Попередня новина з архіву
[Перевод] Симуляция эрозии в 3D-рельефе
»

 

 
© 2026 www.vsinovyny.com