Извлечь строки между тегами и сохранить в новый текстовый файл

Question

Извлечь строки между тегами и сохранить в новый текстовый файл

Мне нужно извлечь текстовые строки из файла и поместить их в новый файл. Каждая строка всегда находится между одним и тем же текстом (тегами).

Вот пример (есть сотни таких блоков, где мне нужно поместить данные в один файл):

1731 0 obj
<>
endobj

Мне нужно извлечь Page 250 и ПРИМЕР ТЕКСТ ДЛЯ ИЗВЛЕЧЕНИЯ

Для примера Page 250 релевантными тегами выглядят:

и

/Type

Для ПРИМЕР ИЗВЛЕЧЕНИЯ ТЕКСТА , например, соответствующие теги выглядят так:

/Contents(

и

)/F

В конце концов я бы хотел, чтобы страницы и соответствующий текст были отсортированы в порядке возрастания, но я мог бы управлять этим в электронной таблице.

Я попытался использовать некоторые ответы из здесь , но мне не удалось заставить его работать ...

Мне удобнее всего работать с командной строкой Unix, но я немного знаю Python и AppleScript


                    
                        0
                        
                    
                    
                                            
                    
                    
                        Community
                        13.04.2017, 15:36 
                    

                    Ссылка


            2 ответа


        
                    
        

            

            
                
                                    
            

            
                
                    
                        
                            
                                 Я добавил ваш пример содержимого в  файл на диске  с именем  файл , а затем показал содержимое  файла  с помощью команды  cat   . Затем, используя  awk  в  файле , я вырезаю части, которые вы вызываете  тегами , и распечатываю две части  данных  в  формат  с разделителями табуляции. Это то, что вы ищете? 

$ cat file
1731 0 obj
<</Page 250/Type/Annot/Subtype/Highlight/Rotate 0/Rect[ 95.4715 347.644 337.068 362.041]/NM(929cd95c-f962-4fa3-b734-2e0e67d7b321)/T(iPad)/CreationDate(D:20160818145053Z00'00')/M(D:20160818145204Z00'00')/C[ 0.454902 0.501961 0.988235]/CA 1/QuadPoints[ 95.4715 362.041 337.068 362.041 95.4715 347.644 337.068 347.644]/Contents(EXAMPLE OF TEXT TO BE EXTRACTED)/F 4/Subj(Highlight)>>
endobj
$ awk '{sub(/\<\<\//, "")};{sub(/\/Type.*\/Contents\(/, "\t")};{sub(/\)\/F.*$/, "")};/Page [0-9]/{print}' file
Page 250    EXAMPLE OF TEXT TO BE EXTRACTED
$


 Что делает программа  awk   : 


 / Page [0-9] /  ищет строки, содержащие, т.е. , «Страница» - пробел, за которым следует число, например,  Page 250 . Я предполагаю, что  ПРИМЕР ИЗВЛЕЧЕННОГО ТЕКСТА  не будет содержать этого шаблона. Не то чтобы я думаю, что это имеет значение, хотя код   можно легко изменить, чтобы приспособиться к этому. 
 sub (/ \ <\ <\ //, "")  полосы:  << / 
 sub (/ \ / Type. * \ / Contents \ (/, "\ t" )  заменяет все между  / Type  и  / Contents ( табуляцией. 
 sub (/ \) \ / F. * $ /, "")  удаляет все от ) / F  до конца строки. 


 Итак, что осталось, это то, что распечатано. Две части требуемых  данных , разделенных табуляцией. 

 Я знаю, что это не охватывает все аспекты, о которых вы упомянули, однако другие ваши требования недостаточно ясны. Вам нужно обработать только один файл или несколько файлов. В любом случае, хотите ли вы, чтобы все извлеченные данные были в одном файле, а данные были отсортированы как именно и т. Д.

 Так что, если бы вы могли прояснить ситуацию, я, вероятно, мог бы написать  сценарий bash , чтобы покрыть это. 

 Очевидно, что с помощью программы  awk   , которую я предоставил, вы можете просто перенаправить вывод в файл  Outfile  и продолжить его обработку с помощью сортировки    ] команда .  awk  тоже может выполнять сортировку, однако получение целевых данных в одной командной строке было тем, что я мог предложить с  awk  на этом этапе. 
                            
                            

                                1
                                
                            
                            
                            
                                user3439894
                                28.01.2020, 02:34 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 С  awk : 

awk -F/ '$1=="<<" {i=$2; for(j=3;j<=NF;j++) \
         if($j~/^Contents/) split($j,a,"[()]"); print i " _ " a[2]}' file.txt



 Установка разделителя полей как  / , если первое поле  ] << , затем сохранение второго поля как переменной  i  для печати позже 
 Итерация по остальным полям, и если какое-либо поле начинается с  Contents , то разделение поля на  ()  для создания массива  a ,  для (j = 3; j <= NF; j ++) if ($ j ~ / ^ Contents /) split ($ j, a, "[()]") 
 выводит переменную  i  и второй элемент массива  a , разделяя их  _ 


 Пример: 

% cat file.txt                                                                                                        
1731 0 obj
<</Page 250/Type/Annot/Subtype/Highlight/Rotate 0/Rect[ 95.4715 347.644 337.068 362.041]/NM(929cd95c-f962-4fa3-b734-2e0e67d7b321)/T(iPad)/CreationDate(D:20160818145053Z00'00')/M(D:20160818145204Z00'00')/C[ 0.454902 0.501961 0.988235]/CA 1/QuadPoints[ 95.4715 362.041 337.068 362.041 95.4715 347.644 337.068 347.644]/Contents(EXAMPLE OF TEXT TO BE EXTRACTED)/F 4/Subj(Highlight)>>
endobj

% awk -F/ '$1=="<<" {i=$2; for(j=3;j<=NF;j++) if($j~/^Contents/) split($j,a,"[()]"); print i " _ " a[2]}' file.txt
Page 250 _ EXAMPLE OF TEXT TO BE EXTRACTED
                            
                            

                                1
                                
                            
                            
                            
                                heemayl
                                28.01.2020, 02:34 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                                    

                Похожие вопросы
                
                    
                                                    
                                1 
                                 Предотвратите VIM отменить% с именем файла  29.01.2019 
                                 Я возился с помощью .vimrc, и у меня была эта идея, чтобы выполнить функцию, например, fill_line ()  "! printf '=%. 0s' {1..10}"
enffunction Мой вывод: Hello = Test.cpp.0s I ... 
                            

                                                        
                                -3 
                                Как Linux обновляет работу менеджера? 07.06.2012 
                                Я хочу знать, как менеджер по обновлению для Linux работает. Например, как мой дистрибутив Linux проверяет, чтобы видеть, существуют ли какие-либо доступные обновления для загрузки и который серверы загрузить эти обновления?...
                            

                                                        
                                3 
                                OMXplayer и аудио HDMI на Raspberry Pi 12.01.2013 
                                Когда я пытаюсь играть видео с помощью команды: omxplayer-o звук HDMI не будет работать, если я также не буду включать переключатель-r. Единственная проблема с этим состоит в том, когда видео сделано, это оставляет черный экран...
                            

                                                        
                                4 
                                 X неправильно отображает прямоугольник вокруг указателя мыши  18.09.2017 
                                 Квадратная область вокруг указателя мыши отображается неправильно. Вместо рендеринга окна, которое предполагается рендерить, он, кажется, рендерит окно внизу. Это очень ... 
                            

                                                        
                                5 
                                 Сценарий Bash, выполняемый над SSH, возвращается неверный код выхода 0  18.12.2018 
                                 Я пытаюсь автоматизировать процесс, который включает в себя управление сценариями на различных машинах через SSH.  Крайне важно захватить как вывод, так и код возврата (для обнаружения ошибок).  Установка выхода ... 
                            

                                                        
                                12 
                                 Что такое класс входа в систему в bsd?  26.11.2018 
                                 Кто-нибудь может объяснить мне, что такое класс входа в систему простыми словами. 
                            

                                                        
                                3 
                                Я хочу перезагрузить систему, после того как поиск был сделан, чтобы видеть, что никто не зарегистрирован 05.12.2014 
                                Я работаю над пользовательским меню так, чтобы то, когда пользователь входит в систему все, которое они добираются, было этим меню; в этом меню выбор опции перезагрузки. Я хочу одну из опций быть, перезагружают систему, если никто не зарегистрирован....
                            

                                                        
                                1 
                                 Что происходит, когда я читаю поврежденный оптический носитель с помощью dd, и он очень медленный?  13.12.2016 
                                 У меня есть DVD, который я не могу скопировать или скопировать с помощью обычных команд. Если я попытаюсь скопировать его, он сначала будет копировать с нормальной скоростью, но затем замедлится и займет очень много времени, чтобы, казалось бы, ничего не
                            

                                                        
                                23 
                                pgrep и pkill альтернативы на Mac OS X? 11.08.2010 
                                Там альтернативы к pgrep и командам pkill на Mac OS X, или я должен просто создать псевдонимы для них использующий другие команды, доступные для меня?
                            

                                                        
                                7 
                                Как остановить Fork-бомбу из ошибки памяти - RHEL 6 12.10.2013 
                                Я настроил тест VM для тестирования эффекта fork-бомб. Таким образом, я отредактировал limits.conf следующим образом для пользователя root: базируйтесь твердый nproc 512 Теперь, я отбрасываю fork-бомбу как так: :() {:|:&};: После...

user3439894 · Answer 1 · 28.01.2020, 02:34

Я добавил ваш пример содержимого в файл на диске с именем файл , а затем показал содержимое файла с помощью команды cat . Затем, используя awk в файле , я вырезаю части, которые вы вызываете тегами , и распечатываю две части данных в формат с разделителями табуляции. Это то, что вы ищете?

$ cat file
1731 0 obj
<</Page 250/Type/Annot/Subtype/Highlight/Rotate 0/Rect[ 95.4715 347.644 337.068 362.041]/NM(929cd95c-f962-4fa3-b734-2e0e67d7b321)/T(iPad)/CreationDate(D:20160818145053Z00'00')/M(D:20160818145204Z00'00')/C[ 0.454902 0.501961 0.988235]/CA 1/QuadPoints[ 95.4715 362.041 337.068 362.041 95.4715 347.644 337.068 347.644]/Contents(EXAMPLE OF TEXT TO BE EXTRACTED)/F 4/Subj(Highlight)>>
endobj
$ awk '{sub(/\<\<\//, "")};{sub(/\/Type.*\/Contents\(/, "\t")};{sub(/\)\/F.*$/, "")};/Page [0-9]/{print}' file
Page 250    EXAMPLE OF TEXT TO BE EXTRACTED
$

Что делает программа awk :

/ Page [0-9] / ищет строки, содержащие, т.е. , «Страница» - пробел, за которым следует число, например, Page 250 . Я предполагаю, что ПРИМЕР ИЗВЛЕЧЕННОГО ТЕКСТА не будет содержать этого шаблона. Не то чтобы я думаю, что это имеет значение, хотя код можно легко изменить, чтобы приспособиться к этому.
sub (/ \ <\ <\ //, "") полосы: << /
sub (/ \ / Type. * \ / Contents \ (/, "\ t" ) заменяет все между / Type и / Contents ( табуляцией.
sub (/ \) \ / F. * $ /, "") удаляет все от ) / F до конца строки.

Итак, что осталось, это то, что распечатано. Две части требуемых данных , разделенных табуляцией.

Я знаю, что это не охватывает все аспекты, о которых вы упомянули, однако другие ваши требования недостаточно ясны. Вам нужно обработать только один файл или несколько файлов. В любом случае, хотите ли вы, чтобы все извлеченные данные были в одном файле, а данные были отсортированы как именно и т. Д.

Так что, если бы вы могли прояснить ситуацию, я, вероятно, мог бы написать сценарий bash , чтобы покрыть это.

Очевидно, что с помощью программы awk , которую я предоставил, вы можете просто перенаправить вывод в файл Outfile и продолжить его обработку с помощью сортировки ] команда . awk тоже может выполнять сортировку, однако получение целевых данных в одной командной строке было тем, что я мог предложить с awk на этом этапе.

heemayl · Answer 2 · 28.01.2020, 02:34

С awk :

awk -F/ '$1=="<<" {i=$2; for(j=3;j<=NF;j++) \
         if($j~/^Contents/) split($j,a,"[()]"); print i " _ " a[2]}' file.txt

Установка разделителя полей как / , если первое поле ] << , затем сохранение второго поля как переменной i для печати позже
Итерация по остальным полям, и если какое-либо поле начинается с Contents , то разделение поля на () для создания массива a , для (j = 3; j <= NF; j ++) if ($ j ~ / ^ Contents /) split ($ j, a, "[()]")
выводит переменную i и второй элемент массива a , разделяя их _

Пример:

% cat file.txt                                                                                                        
1731 0 obj
<</Page 250/Type/Annot/Subtype/Highlight/Rotate 0/Rect[ 95.4715 347.644 337.068 362.041]/NM(929cd95c-f962-4fa3-b734-2e0e67d7b321)/T(iPad)/CreationDate(D:20160818145053Z00'00')/M(D:20160818145204Z00'00')/C[ 0.454902 0.501961 0.988235]/CA 1/QuadPoints[ 95.4715 362.041 337.068 362.041 95.4715 347.644 337.068 347.644]/Contents(EXAMPLE OF TEXT TO BE EXTRACTED)/F 4/Subj(Highlight)>>
endobj

% awk -F/ '$1=="<<" {i=$2; for(j=3;j<=NF;j++) if($j~/^Contents/) split($j,a,"[()]"); print i " _ " a[2]}' file.txt
Page 250 _ EXAMPLE OF TEXT TO BE EXTRACTED