Есть ли достойная программа распознавания речи для Linux?

С grep и pcre

1) для извлечения до, но не включая Expr и остальную часть строки

$ grep -oP '.*(?=Expr)' file
[83472, 8327489]abcd: 32324
[243fd]abcd: 4342
[2324, 34543, 8937423]abcd: 3232432423423

2) для извлечения [...] abcd: numbers

$ grep -oP '\[[^]]*\]abcd:\s*\d+' file
[83472, 8327489]abcd: 32324
[243fd]abcd: 4342
[2324, 34543, 8937423]abcd: 3232432423423
84
18.12.2020, 22:17
9 ответов

Вы можете использовать речь к тексту в приложении Linux Это приложение использует Google Speech Api и бинарный модуль интеграции для 32 или 64 битного Linux. Вы можете посмотреть краткую презентацию использования инструментов speechpad.pw в Ubuntu

-3
27.01.2020, 19:33

Для теперь только Голосовой блокнот работает в Linux.

4
27.01.2020, 19:33

Прямо сейчас я экспериментирую с использованием KDE connect в сочетании с распознаванием речи Google на моем смартфоне Android.

KDE connect позволяет вам использовать ваше устройство Android в качестве устройства ввода для вашего компьютера Linux (есть также некоторые другие функции). Вам необходимо установить приложение KDE connect из магазина Google Play на свой смартфон / планшет и установить на компьютер с Linux как kdeconnect, так и indicator-kdeconnect. Для систем Ubuntu установка выполняется следующим образом:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Обратной стороной этой установки является то, что она устанавливает набор пакетов KDE, которые вам не понадобятся, если вы не используете среду рабочего стола KDE.

После того, как вы соедините свое устройство Android с компьютером (они должны быть в одной сети), вы можете использовать клавиатуру Android, а затем щелкнуть / нажать на микрофон, чтобы использовать распознавание речи Google. Во время разговора текст будет появляться везде, где на вашем компьютере Linux активен курсор.

Что касается результатов, они для меня несколько неоднозначны, так как в настоящее время я пишу какой-то технический документ по астрофизике, а распознавание речи Google борется с жаргоном, который вы обычно не читаете. Также забудьте об этом, выясняя пунктуацию или правильное использование заглавных букв.

enter image description here

enter image description here

21
20.08.2021, 12:15

Как еще один Linuxer, ищущий полезную речь-к -текст (диктовка), я заглянул в программу Speechpad.pw:

  • , она очень хорошо распознает мой родной язык
  • , она работает быстро и очень надежно

Недостатки:

  • конечно, она проприетарна и закрыта программное обеспечение от Google
  • служба Google будет прослушивать, обрабатывать и предположительно сохранять каждое произнесенное вами слово
  • звук и текст будут обрабатываться и, очевидно, храниться в Google
  • Speechpad.pw требует ежемесячной / квартальной / годовой абонентской платы
  • Speechpad.pw работает только как надстройка к браузеру Google Chrome - никакого другого браузера.

Таким образом, Speechpad.pw является проприетарным, а также с закрытым исходным кодом и также привязан к Google, который мы Я буду знать как бессонный сборщик метаданных, личной информации и личного содержимого.

Эти недостатки делают его беспроигрышным приложением для меня, хотя само распознавание речи работает очень хорошо - намного лучше, чем все, что я видел до сих пор.

3
20.08.2021, 12:15

Приложение Chrome «VoiceNote II»(http://voicenote.in/)отлично работает на моем компьютере с Xubuntu 16.04. Обучение голосовому -не требовалось, а настройка -была простой. Один поиск, чтобы найти его, один щелчок, чтобы установить, один щелчок, чтобы создать ярлык и привязать его к рабочему столу.

2
20.08.2021, 12:15

Я бы порекомендовал Mozilla DeepSpeech . Это инструмент преобразования речи в текст с открытым исходным кодом. Но вам нужно будет обучить инструмент.

Вы можете загрузить предварительно -обученную модель или использовать общие наборы голосовых данных Mozilla для создания собственной. Для очень четких записей скорость точности хорошая. Для моих проектов транскрипции этого было недостаточно, так как в записях было много фоновых шумов и они были не очень хорошего качества.

Вместо этого я использовал Transcribear , браузерный инструмент преобразования речи в текст. Вам нужно будет подключиться к сети, чтобы загрузить записи на сервер Transcribear.

3
20.08.2021, 12:15

воск -апи

https://github.com/alphacep/vosk-api/

Поддерживает более 7 языков.

Сначала вы конвертируете файл в нужный формат, а потом распознаете его:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Затем установите vosk -API с помощью pip:

pip3 install vosk

Затем выполните следующие действия:

git clone https://github.com/alphacep/vosk-api
cd vosk-api/python/example
wget https://alphacephei.com/kaldi/models/vosk-model-small-en-us-0.3.zip
unzip vosk-model-small-en-us-0.3.zip
mv vosk-model-small-en-us-0.3 model
python3./test_simple.py test.wav  > result.json

Результат сохраняется в формате JSON.

В том же каталоге также содержится пример вывода субтитров SRT, который более удобочитаем и может быть непосредственно полезен людям с таким вариантом использования:

python3 -m pip install srt
python3./test_srt.py test.wav

В разделах ниже показаны некоторые тесты, которые я провел с ним.

test.wavтематическое исследование

Пример test.wav, приведенный в репозитории, говорит с идеальным американским акцентом и отличным качеством звука в трех предложениях, которые я транскрибирую как:

one zero zero zero one
nine oh two one oh
zero one eight zero three

«Девять о два один о» произносится очень быстро, но все же четко. Буква «z» перед последним «нулем» немного похожа на «s».

Сгенерированный выше SRT читает:

1
00:00:00,870 --> 00:00:02,610
what zero zero zero one

2
00:00:03,930 --> 00:00:04,950
no no to uno

3
00:00:06,240 --> 00:00:08,010
cyril one eight zero three

Таким образом, мы можем видеть, что было допущено несколько ошибок, предположительно отчасти потому, что мы понимаем, что все слова являются числами, чтобы помочь нам.

Затем я также попробовал vosk-model-en-us-aspire-0.2, который загружал 1,4 ГБ по сравнению с 36 МБ vosk-model-small-en-us-0.3и указан в списке https://alphacephei.com/vosk/models:

.
mv model model.vosk-model-small-en-us-0.3
wget https://alphacephei.com/vosk/models/vosk-model-en-us-aspire-0.2.zip
unzip vosk-model-en-us-aspire-0.2.zip
mv vosk-model-en-us-aspire-0.2 model

и результат был:

1
00:00:00,840 --> 00:00:02,610
one zero zero zero one

2
00:00:04,026 --> 00:00:04,980
i know what you window

3
00:00:06,270 --> 00:00:07,980
serial one eight zero three

что дало еще одно правильное слово.

Тематическое исследование IBM "Think" Speech

А теперь давайте повеселимся. Изhttps://en.wikipedia.org/wiki/Think_(IBM)(общественного достояния в США):

wget https://upload.wikimedia.org/wikipedia/commons/4/49/Think_Thomas_J_Watson_Sr.ogg
ffmpeg -i Think_Thomas_J_Watson_Sr.ogg -ar 16000 -ac 1 think.wav
time python3./test_srt.py think.wav > think.srt

Качество звука не очень хорошее, с большим количеством шипящего шума микрофона из-за технологий того времени. Однако речь очень четкая и с паузами. Запись длится 28 секунд, а размер wav-файла составляет 900 КБ.

Преобразование заняло 32 секунды. Пример вывода трех первых предложений:

1
00:00:00,299 --> 00:00:01,650
and we must study

2
00:00:02,761 --> 00:00:05,549
reading listening name scott

3
00:00:06,300 --> 00:00:08,820
observing and thank you

и транскрипция Википедии для того же сегмента гласит:

1
00:00:00,518 --> 00:00:02,513
And we must study

2
00:00:02,613 --> 00:00:08,492
through reading, listening, discussing, observing, and thinking.

Тематическое исследование «Мы решили полететь на Луну»

https://en.wikipedia.org/wiki/We_choose_to_go_to_the_Moon(общественное достояние)

Хорошо, еще один интересный момент. Этот звук имеет хорошее качество звука, с редкими одобрительными криками толпы и легким эхом зала :

.
wget -O moon.ogv https://upload.wikimedia.org/wikipedia/commons/1/16/President_Kennedy%27s_Speech_at_Rice_University.ogv
ffmpeg -i moon.ogv -ss 09:12 -to 09:29 -q:a 0 -map a -ar 16000 -ac 1 moon.wav
time python3./test_srt.py moon.wav > moon.srt

Продолжительность звука :17 с, размер файла wav 532 КБ, время преобразования 22 с,выход:

1
00:00:01,410 --> 00:00:16,800
we choose to go to the moon in this decade and do the other things not because they are easy but because they are hard because that goal will serve to organize and measure the best of our energies and skills

и соответствующие подписи в Википедии:

89
00:09:06,310 --> 00:09:18,900
We choose to go to the moon in this decade and do the other things,

90
00:09:18,900 --> 00:09:22,550
not because they are easy, but because they are hard,

91
00:09:22,550 --> 00:09:30,000
because that goal will serve to organize and measure the best of our energies and skills,

Идеально, если не считать пропущенного "the" и знаков препинания!

Протестировано на vosk -api 7af3e9a334fbb9557f2a41b97ba77b9745e120b3, Ubuntu 20.04, Lenovo ThinkPad P51 .

Этот ответ основан наhttps://askubuntu.com/a/423849/52975Николая Шмырева с моими дополнениями.

Оболочка диктовки

https://github.com/ideasman42/nerd-dictation(обертка для ВОСК -API)

12
20.08.2021, 12:15

Попробуйте ботаник -диктовку , это простой способ получить доступ к VOSK -API, который представляет собой высококачественный автономный, открытый -источник речи для текстового движка.

См. демо-видео .


полное раскрытие, я не смог найти никаких решений, подходящих для моего варианта использования, поэтому я написал эту небольшую утилиту, чтобы утолить свой собственный зуд.

8
20.08.2021, 12:15

Попробовав Саймона и Джулиуса на Kubuntu, которую я не смог правильно установить, я наткнулся на идею попробовать использовать Mycroft, ИИ-помощник с открытым исходным кодом (, конкурирующий с Google Home и Amazon Alexa ).

После неудачной установки KDE Plasmoid я смог получить довольно хорошее распознавание речи при обычной установке. У него есть клиент mycroft -cli -для просмотра отладочных сообщений и довольно активный форум сообщества. Некоторые документы немного устарели, но я отметил это на форуме и в GitHub, где это применимо.

Запись речи действительно очень хороша, и вы можете установить Mimic, локальный механизм распознавания. И это кросс-платформа -, и я видел приложение для Android, которое я еще не пробовал. Мой следующий шаг — воспроизвести некоторые из основных команд ярлыков на рабочем столе, которые я надеялся получить в Plasmoid, и навык диктовки для больших текстовых полей.

https://github.com/MycroftAI/mycroft-core

https://community.mycroft.ai/

4
20.08.2021, 12:15

Теги

Похожие вопросы