grep точный блок строк (содержимое файла1) из файла2

Question

grep точный блок строк (содержимое файла1) из файла2

Параметры -A и -R принимают список, разделенный запятыми.

например.

wget -r -R -l1 --no-parent -A ".dat,.haa,.hea-,.hea--,.xws,.atr,.atr-" https://www.physionet.org/physiobank/database/nsrdb/

На странице руководства

-A acclist --accept acclist

-R rejlist --reject rejlist

Укажите разделенные запятыми списки суффиксов или шаблонов имен файлов для принятия или отклонения. Обратите внимание, что если какой-либо из подстановочных знаков , *,?, [Или] появляется в элементе acclist или rejlist, он будет рассматриваться как шаблон, а не суффикс.

9

awk sed shell-script text-processing

sachin 11.07.2016, 09:26

Ссылка

7 ответов



                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 Вот более элегантный вариант  grep  +  perl : 

$ grep -Pzo "$(perl -pe 's/\n/\\n/g' file1.txt )"  file2.txt                    
A B
C D
E F
G H


 Однако есть одна большая загвоздка. Если в  file1  есть завершающий символ новой строки, шаблон будет неправильным, другими словами:  A B \ nC D \ nE F \ nG H \ n \ n . 

 (Особая благодарность @terdon за предоставление части perl) 

 Как заметил Костас, можно использовать  perl -0pe 's / \ n (\ n + $)? / \\ n / g'  вместо другой команды  perl , чтобы избежать завершающей новой строки в  file1.txt 
                            
                            

                                3
                                
                            
                            
                            
                                Sergiy Kolodyazhnyy
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                grep -lir 'A B \n D C \n whatever' ./folder_to_search


результатом будут все файлы с точным соответствием текста
                            
                            

                                1
                                
                            
                            
                            
                                meyerson
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                Вот другой подход с использованием python (проверено на python3 3.5.2, без жалоб от pylint3 1.5.6):

""" Locate entire file contents contiguous in other file """

import sys
import re
from mmap import mmap, PROT_READ

def memmap(name):
    """ Return memoryview of readonly mmap """
    with open(name, 'rb') as file:
        return memoryview(mmap(file.fileno(), 0, access=PROT_READ))

def finder(needle, haystack):
    """ Return iterator """
    return re.compile(re.escape(needle)).finditer(haystack)

print(tuple(finder(*(memmap(name) for name in sys.argv[1:3]))))


Работа с аргументами командной строки через sys.argv признается упрощенной. Вы можете сделать много других вещей с возвращаемым значением finder на двух объектах memoryview, которые вы передаете, кроме передачи его в tuple. Каждый элемент SRE_Match, выдаваемый итератором, возвращаемым finder, имеет множество методов, выборка которых обобщена в выводе print (в span, например, указывается диапазон байт каждого совпадения). 
                            
                            

                                0
                                
                            
                            
                            
                                Eirik Fuller
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 Я не слишком уверен, каким вы хотите, чтобы выходные данные были, но это легко сделать с языками, которые не ориентированы исключительно на строку (особенно если оба файла могут быть прочитаны в памяти). Вот скрипт python, который скажет вам, сколько совпадений есть. 

import sys
find = open(sys.argv[1]).read()
hay = open(sys.argv[2]).read()
print("The text occurs", hay.count(find), "times")


 Вы хотите напечатать file1 столько раз, сколько соответствует? Замените последнюю строку на эту:

print(find * hay.count(find))


Вы можете упаковать все в вызов командной строки или псевдоним, если вы действительно хотите:

python -c 'import sys; print("The text occurs", open(sys.argv[2]).read().count(open(sys.argv[1]).read()), "times")' file1 file2
                            
                            

                                1
                                
                            
                            
                            
                                alexis
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                Просто для удовольствия в чистом bash

mapfile -t <file1
while read line ; do
    [ "$line" = "${MAPFILE[i++]}" ] || { ["$line" = "$MAPFILE" ] && i=1 || i=0; }
    [ $i -eq ${#MAPFILE[*]} ] && { printf "%s\n" "${MAPFILE[@]}"; i=0; }
done <file2
                            
                            

                                3
                                
                            
                            
                            
                                Costas
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                Следующее неуклюже, но работает с GNU awk:

awk -v RS="$(<file1)" '{print RT}' file2
                            
                            

                                6
                                
                            
                            
                            
                                Michael Vehrs
                                27.01.2020, 20:04 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                    awk sed shell-script text-processing                

                Похожие вопросы
                
                    
                                                    
                                4 
                                Переключите пользователя в сценарий оболочки, не вводя пароль 15.03.2015 
                                Я выполняю сценарий оболочки с помощью терминала из Усера. Посреди этого сценария оболочки я переключаюсь на userB пользователя, использующего su, но это просит у меня пароль userB, и я должен вручную войти...
                            

                                                        
                                2 
                                 Подождите несколько процессов, распечатайте код выхода, если какой-либо процесс получит выход  27.05.2017 
                                 Я пытаюсь достичь здесь с помощью сценария, который я запускаю 3 разных пользовательское приложение в ожидании одновременно, если какое-либо приложение получит выход, подать предупреждение через уведомление или распечатать код выхода. Используемая систем
                            

                                                        
                                2 
                                найти строки с 6 цифрами после 2 определенных цифр  06.11.2020 
                                Мне нужно создать регулярное выражение, которое будет отображать строки, содержащие 94, 95, 96, 97 или 99. grep -P ' (94|95|96|97|99 )' Велика вероятность, что после этих двух цифр есть 6 или более чисел,... 
                            

                                                        
                                1 
                                как искать и заменять элемент PATH на SED файла xml в bash  21.09.2020 
                                Я хотел бы заменить текущий элемент внутри примера тега пути из :... <примеры> <пример пути='/test/test123/test12345.txt'/> <примеры>... к... <примеры> <... 
                            

                                                        
                                -1 
                                Создать список со строками, содержащими значение «1» в определенных столбцах  05.05.2021 
                                Мне нужно создать 2 файла со списком строк, содержащих «1» в определенных столбцах -один файл для столбца 4 «1» и один для столбца 5 «1». Исходный файл выглядит так :ID... 
                            

                                                        
                                0 
                                 фильтрация данных на основе разделителя в оболочке  13.10.2016 
                                 У меня есть файл со следующими данными: "google1 | yoo | dummy | yes | wow | /" + VARIABLE + "/"
"google2 | hub | lab | dummy | yes | /" + VARIABLE + "/"
"google3 | short | lab | yoo | /" + VARIABLE + "/"
"google4 | hello | good-guy | ... 
                            

                                                        
                                1 
                                 Как выполнить команду awk с помощью команды «df -Pm» для получения имен файловых систем, которые используют более 90% файловой системы?  30.08.2011 
                                 Я пытаюсь получить имена всех дисков с использованием не менее 90%, используя это oneliner: df -Pm | awk '+ $ 5> = 90 {print}' Но он не показывает случай "100% использования", мне нужно grep для "100%". Почему ...

Byte Commander · Accepted Answer · 27.01.2020, 20:04

grep довольно глупый, когда дело доходит до многострочных шаблонов, но перевод всех символов новой строки \ n как шаблона, так и текста для поиска в символы NUL \ 0 перед сравнением исправляет это. Очевидно, также необходим перевод \ 0 в выводе обратно в \ n .

Вот ваша команда, предполагая, что file1 содержит шаблон, который вы хотите искать в file2 :

grep -aof <(tr '\n' '\0' < file1) <(tr '\n' '\0' < file2) | tr '\0' '\n'

Пример вывода для ваших данных файлов:

A B
C D
E F
G H

Пояснение:

<(tr '\ n' '\ 0' создает FIFO / именованный канал / временный файловый объект, который равен file1 , но все символы новой строки переведены в символы NUL.


 <(tr '\ n' '\ 0'  делает то же самое, но для  file2 . 

 grep -f PATTERN_FILE INPUT_FILE  ищет шаблоны из  PATTERN_FILE  в  INPUT_FILE . 
 Флаг  -a  в  grep  включает сопоставление двоичных файлов. Это необходимо, потому что в противном случае будут пропущены файлы, содержащие непечатаемые символы, такие как  \ 0 . 
 Флаг  -o  команды  grep  заставляет выводить только соответствующую последовательность, а не всю строку, в которой она была найдена. 
 | tr '\ 0' '\ n'  переводит все символы NUL из вывода команды слева обратно в символы новой строки.