Необходимо извлечь 2 строки из определенных строк нескольких файлов и распечатать в новый файл, разделенные табуляцией

Question

Необходимо извлечь 2 строки из определенных строк нескольких файлов и распечатать в новый файл, разделенные табуляцией

С grep :

grep -c '^[^,]*,[^0]'

Это работает, только если 2-й столбец сформирован как целое число, но не -0 , +0 . Для более общего случая см. @ Ответ Стефана Хазеласа .


                    
                        3
                        
                    
                    
                                            
                    
                    
                        Ed2122
                        13.01.2017, 00:27 
                    

                    Ссылка


            5 ответов


        
                    
        

            

            
                
                                    
            

            
                
                    
                        
                            
                                 Вы можете использовать sed в цикле для каждого файла в вашей текущей папке. Вы извлекаете соответствующие части и добавляете их через  >>  в файл с именем  file  следующим образом: 

for files in *; \
do sed -n -e '/^From file/ H;' \
          -e '/Ratio of morphemes over utterances/ {H; x; s/\n//g; s/From file <\(.*\)>.*Ratio of morphemes over utterances = \([0-9]*\.[0-9]*\).*/\1:    \2/g; p;}' "$files";
done >>file
                            
                            

                                4
                                
                            
                            
                            
                                FloHe
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 Вам не нужен цикл. Большинство инструментов обработки текста принимают несколько аргументов, например с  sed : 

sed '/From file/{s/.*<\(.*\)>/\1/;h
}
/Ratio of morphemes over utterances/!d
s/.*= //;H;x;s/\n/\t/' ./* > outfile


 Это извлекает имя файла и сохраняет его в буфере хранения, удаляет все строки, кроме тех, где извлекается "коэффициент", который он добавляет к имени файла, а затем обменивается буферами и заменяет новую строку табуляцией. Конечно,  \ t  специфичен для  gnu sed , поэтому замените его буквенной вкладкой (в терминале нажмите  Ctrl  +  V , затем  ] Вкладка ), если вы не используете установку  GNU . Еще быстрее, с любым  sed : 

sed '/From file/{s/.*<\(.*\)>/\1/;h
}
/Ratio of morphemes over utterances/!d
s/.*= //;H;x' ./* | paste - - > outfile




 Если ваши файлы огромны, вы можете выйти при втором совпадении (строка с «соотношением») и перейти к следующему файлу. Здесь пригодится  nextfile   gawk  (я думаю, что это POSIX, но не уверен, какие варианты  awk  его поддерживают ...): 

awk '/From file/{printf("%s\t", substr($3, 2, length($3)-2))}
/Ratio of morphemes over utterances/{print $7; nextfile}' ./* > outfile
                            
                            

                                1
                                
                            
                            
                            
                                don_crissti
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                perl -0nE 'say "$1\t$2" if /From file <(.*?)>.*over utterances = (\d\S*)/s' * > out
                            
                            

                                1
                                
                            
                            
                            
                                JJoao
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 вы можете попробовать с помощью команды awk 

awk '/Ratio of morphemes over utterances/{print FILENAME,$NF;next}' *.cha


, если вы хотите извлечь имя файла из шаблона  из файла  

, затем попробуйте следующую команду awk. 

awk '/From file/{filename=$NF} filename && /Ratio of morphemes over utterances/{print FILENAME,$NF;filename="";next}' *.txt
                            
                            

                                0
                                
                            
                            
                            
                                Kamaraj
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 Поскольку вы упомянули, что знакомы с Python, вот скрипт python, который может выполнить эту работу: 

#!/usr/bin/env python
from __future__ import print_function
import os,re,sys

def read_file(filepath):
    with open(filepath) as fd:
         for line in fd:
             clean_line = line.strip()

             if 'From file' in clean_line:

                 words = re.split('<|>| ', clean_line)
                 print(words[-2],end=" ")

             if 'Ratio of morphemes over utterances' in clean_line:
                 print(clean_line.split('=')[-1])



def find_files(treeroot):
    selfpath = os.path.abspath(__file__)
    for dir,subdirs,files in os.walk(treeroot):
         for f in files: 
             filepath = os.path.abspath(os.path.join(dir,f))
             if selfpath  ==  filepath: continue
             try:
                 read_file(filepath)
             except IOError:
                 pass
def main():
    directory = '.'
    if len(sys.argv) == 2:
       directory = sys.argv[1]
    find_files(os.path.abspath(directory))

if __name__ == '__main__': main()


 Пример выполнения: 

$ ./extract_data.py                                                                                               
adam02.cha  2.547
adam01.cha  2.213


 Это работает просто: мы используем  os.walk  для рекурсивного обхода каталога, нахождения всех файлов и исключения самого скрипта, и для каждого файла мы запускаем функцию  read_file () , которая считывает каждый файл построчно и находит соответствующие поля.  re.split ()  используется для более удобного разбиения строки имени файла на список слов, используя пробел и  < и >  в качестве разделителей слов. Сценарий может принимать аргумент командной строки для каталога, но если он не указан, предполагается текущий рабочий каталог. Таким образом, вы можете запускать скрипт по пути или из каталога, в котором хранятся файлы.Что касается создания нового файла со всеми данными, это тривиально - используйте перенаправление оболочки как  ./ extract_data.py> /path/to/new_file.txt. Предупреждение - перенаправьте сценарий в файл, расположенный в другом каталоге, поскольку новый файл может быть помещен в очередь в  os.walk ()  и нарушить сценарий. Дополнительным улучшением является то, что вы можете вызывать цикл for для файлов как  для f в sorted (files): , чтобы читать файлы в отсортированном виде. 
                            
                            

                                1
                                
                            
                            
                            
                                Sergiy Kolodyazhnyy
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                                    

                Похожие вопросы
                
                    
                                                    
                                0 
                                 Показать только измененные строки без синтаксиса с помощью git diff  15.06.2018 
                                  У меня есть список имен пользователей в текстовом файле.  Я обновляю этот файл и фиксирую его.  Я ищу способ получить список изменений с момента последней фиксации.  Я не хочу форматирования различий в ... 
                            

                                                        
                                1 
                                Заменить позиции на другие позиции в файле 27.08.2019 
                                У меня есть плоский файл с фиксированной длиной записи (~2500) H20190105 D0012345APPLE INC 100001072010
D0008912SAMSUNG 450023082005
T0001245678 ...
                            

                                                        
                                1 
                                 Как заставить Pycharm распознавать и использовать Python 3.6.1 библиотеки?  03.06.2017 
                                 То же, что и выше. Недавно я сломал свою систему, а затем вытер ее и переустановил. Первоначально мне удалось заставить python 3.6 работать в Pycharm с новой установленной, прежде чем снова что-то сломать. Я не делал ... 
                            

                                                        
                                -1 
                                 Unix - необходимо удалить разрыв строки из записи, охватывающей несколько строк  11.04.2018 
                                 У меня есть файл, как показано ниже: "IN001 ~ 24Apr16 ~ Привет,
какой способ?
о нет! ~
не здесь ~ "
 "IN003 ~ 29Apr16 ~
какой способ?
 ~ о нет!
повторить еще раз.
не снова ~ "и мне нужен вывод в формате ниже" IN001 ~ 24Apr16 ~ Привет, что за ...
                            

                                                        
                                28 
                                Как установить дисплей удара для не показа текста энергии после выхода? 07.01.2013 
                                Мой вопрос прост, но мне трудно структурировать/объяснить его легко. Я вхожу в несколько полей Unix с различными учетными записями. Я вижу 2 разных вещи для user1 и user2 при редактировании текста...
                            

                                                        
                                4 
                                Используя команду находки 12.05.2019 
                                У меня есть набор каталогов. В этих каталогах сопроводительное письмо и архив zip работы. Я хотел выполнить быстрый и легкий запрос для открытия всех сопроводительных писем, таким образом, я могу решить, ли это...
                            

                                                        
                                11 
                                AppArmor представляет в Докере/LXC 02.05.2014 
                                У меня есть контейнер Докера (LXC), который выполняет MySQL. Так как идея позади Докера обычно является "одним рабочим процессом на контейнер", если я определяю профили AppArmor, предназначающиеся для двоичного файла MySQL, будут они быть...
                            

                                                        
                                0 
                                 Сервер отказался от подписи с открытым ключом, несмотря на то, что принял ключ - putty  09.03.2019 
                                 Я использовал puttygen для генерации как своего открытого, так и закрытого ключей файлы (ssh2, 2048 бит). Я правильно настроил параметры в putty, и он использует правильный файл закрытого ключа. Что касается открытого ключа, (я ... 
                            

                                                        
                                37 
                                Как я делю Карту памяти так, чтобы это было загрузочным и имело совместимый с Windows раздел хранения данных? 13.04.2017 
                                разделение отсюда, у меня есть флеш-накопитель на 16 ГБ, который я хочу, чтобы живой ISO загрузил от (через unetbootin или что-то подобное). Это будет дистрибутив приблизительно на 32 бита, что я могу плагин и начальная загрузка на любом компьютере I...
                            

                                                        
                                7 
                                Почему top показывает другое количество ядер, чем cpuinfo?  21.11.2017 
                                Когда я запускаю top, я показываю CPU 0 -7. Когда я делаю :cat /proc/cpuinfo | grep "ядра процессора" | uniq Я получаю :ядра процессора :4 Если я grep «физический идентификатор», у меня есть 1. Я думаю, что моя команда неверна, а top прав....

FloHe · Accepted Answer · 27.01.2020, 21:12

Вы можете использовать sed в цикле для каждого файла в вашей текущей папке. Вы извлекаете соответствующие части и добавляете их через >> в файл с именем file следующим образом:

for files in *; \
do sed -n -e '/^From file/ H;' \
          -e '/Ratio of morphemes over utterances/ {H; x; s/\n//g; s/From file <\(.*\)>.*Ratio of morphemes over utterances = \([0-9]*\.[0-9]*\).*/\1:    \2/g; p;}' "$files";
done >>file