удалить недостатки в тексте после преобразования с помощью PDF OCR техники

* означает ноль или более совпадений, и это соответствует как можно скорее. Если вы запустите эту команду без флага g (что означает, что sed остановится после первой замены), вы получите в качестве вывода habc 123 . Это связано с тем, что он начинает чтение слева направо, и поскольку он не может соответствовать a , он просто сопоставляет начало строки и затем останавливается на нем.

Используя глобальный флаг ( g ), он будет продолжать попытки сопоставить остальную часть строки, и поскольку * соответствует пустой строке, когда он не может сопоставить ничего другого , он будет помещать h каждый раз, когда не сможет сопоставить больше чисел.

Обратите внимание, что ваша вторая попытка эквивалентна sed "s / [0-9] \ + / h /" . Здесь + означает одно или несколько совпадений, что означает, что он не будет соответствовать пустой строке, если не найдет номер для замены.

05.10.2018, 20:58
2 ответа

Вы можете использовать линейную строку awkдля удаления дополнительных возвратов каретки, что-то вроде этого:

awk '{gsub(/\n/,""); gsub(/\r/,""); print}' RS='' file

gsubфункция имеет следующий вид:

gsub(regexp, replacement [, target])

Это похоже на функцию sub, за исключением того, что gsub заменяет все самые длинные, самые левые, не -неперекрывающиеся совпадающие подстроки, которые она может найти. `g' в gsub означает "глобальный", что означает замену везде

gsub(/\n/,"") replaces all newline occurrences within a string with non for all input text. 

gsub(/\r/,"") replace all carriage return (ASCII code 13) occurrences with non for all input text. 
27.01.2020, 23:31

Возможно, есть что улучшить, но вот начало:

perl -0777 -ne 's/([^ ])$\\n/\1/g; s/\\n/ /g; print' < input | fmt

Он использует perl для объединения новых строк --продолжающихся строк, если строка заканчивается пробелом, в противном случае полностью удаляет новые строки, а затем передает вывод через fmtдля разбиения длинных строк.

27.01.2020, 23:31


