Программное обеспечение для распознавания речи для Linux [дубликат]

Краткая версия вопроса: я ищу программу для распознавания речи, которая работает на Linux и имеет приличную точность и удобство использования. Любая лицензия и цена подойдут. Это не должно ограничиваться голосовыми командами, так как я хочу, чтобы у меня была возможность диктовать текст.


Дополнительные сведения:

Я безуспешно пробовал следующее:

Все вышеупомянутые нативные решения Linux имеют как низкую точность, так и удобство использования (или некоторые не разрешать диктовку с произвольным текстом, а только голосовые команды). Под низкой точностью я подразумеваю точность, значительно ниже той, которую имеет программное обеспечение для распознавания речи, которое я упомянул ниже для других платформ. Что касается Wine + Dragon NaturallySpeaking, по моему опыту, он продолжает давать сбой, и, к сожалению, я не единственный, у кого есть такие проблемы.

В Microsoft Windows я использую Dragon NaturallySpeaking, в Apple Mac OS X я использую Apple Dictation и DragonDictate, на Android я использую распознавание речи Google, а на iOS я использую встроенное распознавание речи Apple.

Baidu Research опубликовала вчера код для своей библиотеки распознавания речи с использованием временной классификации Connectionist , реализованной с помощью Torch.Тесты из Gigaom обнадеживают, как показано в таблице ниже, но я не знаю какой-либо хорошей оболочки, позволяющей использовать ее без некоторого кодирования (и большого набора обучающих данных):

System Чистый (94) Шумный (82) Комбинированный (176)
Apple Dictation 14,24 43,76 26,73
Речь Bing 11,73 36,12 22,05
Google API 6,64 30,47 16,72
wit.ai 7,94 35,06 19,41
Глубокая речь 6,56 19.06 11.85

Таблица 4: Результаты (% WER) для 3 систем, оцененных на исходном звуке. Все системы оцениваются только на высказываниях с предсказаниями, данными всеми системами. Число в скобках рядом с каждым набором данных, например Чистый (94) - количество оцененных высказываний.

Существует несколько альфа-версий проектов с открытым исходным кодом:

Мне также известно об этой попытке при отслеживании современных достижений и последних результатов (библиографии) по распознаванию речи., а также этот тест существующих API распознавания речи .


Мне известна Aenea , которая позволяет распознавать речь через Dragonfly на одном компьютере для отправки событий на другой, но это имеет некоторую задержку:

enter image description here

Я также знаю об этих двух докладах, посвященных изучению Linux вариант для распознавания речи:

79
18.12.2020, 22:17
0 ответов

Теги

Похожие вопросы