Необходимо извлечь 2 строки из определенных строк нескольких файлов и распечатать в новый файл, разделенные табуляцией

Question

Необходимо извлечь 2 строки из определенных строк нескольких файлов и распечатать в новый файл, разделенные табуляцией

С grep :

grep -c '^[^,]*,[^0]'

Это работает, только если 2-й столбец сформирован как целое число, но не -0 , +0 . Для более общего случая см. @ Ответ Стефана Хазеласа .


                    
                        3
                        
                    
                    
                                            
                    
                    
                        Ed2122
                        13.01.2017, 00:27 
                    

                    Ссылка


            5 ответов


        
                    
        

            

            
                
                                    
            

            
                
                    
                        
                            
                                 Вы можете использовать sed в цикле для каждого файла в вашей текущей папке. Вы извлекаете соответствующие части и добавляете их через  >>  в файл с именем  file  следующим образом: 

for files in *; \
do sed -n -e '/^From file/ H;' \
          -e '/Ratio of morphemes over utterances/ {H; x; s/\n//g; s/From file <\(.*\)>.*Ratio of morphemes over utterances = \([0-9]*\.[0-9]*\).*/\1:    \2/g; p;}' "$files";
done >>file
                            
                            

                                4
                                
                            
                            
                            
                                FloHe
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 Вам не нужен цикл. Большинство инструментов обработки текста принимают несколько аргументов, например с  sed : 

sed '/From file/{s/.*<\(.*\)>/\1/;h
}
/Ratio of morphemes over utterances/!d
s/.*= //;H;x;s/\n/\t/' ./* > outfile


 Это извлекает имя файла и сохраняет его в буфере хранения, удаляет все строки, кроме тех, где извлекается "коэффициент", который он добавляет к имени файла, а затем обменивается буферами и заменяет новую строку табуляцией. Конечно,  \ t  специфичен для  gnu sed , поэтому замените его буквенной вкладкой (в терминале нажмите  Ctrl  +  V , затем  ] Вкладка ), если вы не используете установку  GNU . Еще быстрее, с любым  sed : 

sed '/From file/{s/.*<\(.*\)>/\1/;h
}
/Ratio of morphemes over utterances/!d
s/.*= //;H;x' ./* | paste - - > outfile




 Если ваши файлы огромны, вы можете выйти при втором совпадении (строка с «соотношением») и перейти к следующему файлу. Здесь пригодится  nextfile   gawk  (я думаю, что это POSIX, но не уверен, какие варианты  awk  его поддерживают ...): 

awk '/From file/{printf("%s\t", substr($3, 2, length($3)-2))}
/Ratio of morphemes over utterances/{print $7; nextfile}' ./* > outfile
                            
                            

                                1
                                
                            
                            
                            
                                don_crissti
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                perl -0nE 'say "$1\t$2" if /From file <(.*?)>.*over utterances = (\d\S*)/s' * > out
                            
                            

                                1
                                
                            
                            
                            
                                JJoao
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 вы можете попробовать с помощью команды awk 

awk '/Ratio of morphemes over utterances/{print FILENAME,$NF;next}' *.cha


, если вы хотите извлечь имя файла из шаблона  из файла  

, затем попробуйте следующую команду awk. 

awk '/From file/{filename=$NF} filename && /Ratio of morphemes over utterances/{print FILENAME,$NF;filename="";next}' *.txt
                            
                            

                                0
                                
                            
                            
                            
                                Kamaraj
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 Поскольку вы упомянули, что знакомы с Python, вот скрипт python, который может выполнить эту работу: 

#!/usr/bin/env python
from __future__ import print_function
import os,re,sys

def read_file(filepath):
    with open(filepath) as fd:
         for line in fd:
             clean_line = line.strip()

             if 'From file' in clean_line:

                 words = re.split('<|>| ', clean_line)
                 print(words[-2],end=" ")

             if 'Ratio of morphemes over utterances' in clean_line:
                 print(clean_line.split('=')[-1])



def find_files(treeroot):
    selfpath = os.path.abspath(__file__)
    for dir,subdirs,files in os.walk(treeroot):
         for f in files: 
             filepath = os.path.abspath(os.path.join(dir,f))
             if selfpath  ==  filepath: continue
             try:
                 read_file(filepath)
             except IOError:
                 pass
def main():
    directory = '.'
    if len(sys.argv) == 2:
       directory = sys.argv[1]
    find_files(os.path.abspath(directory))

if __name__ == '__main__': main()


 Пример выполнения: 

$ ./extract_data.py                                                                                               
adam02.cha  2.547
adam01.cha  2.213


 Это работает просто: мы используем  os.walk  для рекурсивного обхода каталога, нахождения всех файлов и исключения самого скрипта, и для каждого файла мы запускаем функцию  read_file () , которая считывает каждый файл построчно и находит соответствующие поля.  re.split ()  используется для более удобного разбиения строки имени файла на список слов, используя пробел и  < и >  в качестве разделителей слов. Сценарий может принимать аргумент командной строки для каталога, но если он не указан, предполагается текущий рабочий каталог. Таким образом, вы можете запускать скрипт по пути или из каталога, в котором хранятся файлы.Что касается создания нового файла со всеми данными, это тривиально - используйте перенаправление оболочки как  ./ extract_data.py> /path/to/new_file.txt. Предупреждение - перенаправьте сценарий в файл, расположенный в другом каталоге, поскольку новый файл может быть помещен в очередь в  os.walk ()  и нарушить сценарий. Дополнительным улучшением является то, что вы можете вызывать цикл for для файлов как  для f в sorted (files): , чтобы читать файлы в отсортированном виде. 
                            
                            

                                1
                                
                            
                            
                            
                                Sergiy Kolodyazhnyy
                                27.01.2020, 21:12 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                                    

                Похожие вопросы
                
                    
                                                    
                                23 
                                сессия tmux, уничтоженная при разъединении от ssh 23.12.2014 
                                Сводка: я пытаюсь выяснить, почему моя tmux сессия умирает, когда я разъединяюсь от Деталей ssh: у Меня есть tmux, установленный на Дуге система Linux. Когда я запускаю tmux сессию, я могу отсоединиться от нее и...
                            

                                                        
                                0 
                                Удалить все все строки, кроме тех, которые заканчиваются строкой ".com"  01.02.2021 
                                Я работаю над скриптом, и у меня есть текущий ввод как :devdb.eu -центральный -1.rds.amazonaws.com dev -redis.cnwoho.ng.0001.euc1.cache.amazonaws.com 2,5 dev -redis.cnwoho.ng.0001.euc1.cache.amazonaws.com... 
                            

                                                        
                                2 
                                Gnome 3.6.1 больше не работает с startx, только с gdm 02.11.2012 
                                Я обычно предпочитаю, чтобы моя система загрузилась в текстовом режиме и вручную запустила Gnome с startx, но если я делаю это с Gnome 3.6.1, я получаю много ошибок и в основном неприменимую операционную систему. После установки...
                            

                                                        
                                0 
                                Как извлечь из файла все строки, начинающиеся с определенного числа? 20.04.2020 
                                У меня есть такой файл: head logistic_results.assoc_3.logistic CHR SNP BP A1 TEST NMISS OR STAT P 2 2:129412140:T:C 129412140 C ...
                            

                                                        
                                3 
                                Включение /dev/fb0 на виртуальных машинах CentOS 7? 20.09.2017 
                                Недавно столкнулся с ситуацией, когда мне нужно установить безголовый TeamViewer на сервер CentOS 7 на Linode. Для его работы требуется /dev/fb0. До сих пор не было понятно, как включить ... 
                            

                                                        
                                -1 
                                Пропустите поиск и замену после заголовка в Vim 09.08.2014 
                                Я должен заменить шаблон, но я не хочу заменять его после конкретного слова. Это - моя программа:: vnoremap:: тихий! назовите Нагрудник () функцией! Нагрудник () %s/\s*\n* {\\\& }\\s*\n*//g %s/\([A-Z] \)...
                            

                                                        
                                6 
                                 Как создается файл / etc / passwd?  19.09.2018 
                                 Это  Странный вопрос, но он поражает меня как вопрос, который может спросить рыба о воде.  Как создан файл / etc / passwd?  Изначально.  Откуда я приезжаю из этого, я в том, что я Linux Sysadmin и есть ... 
                            

                                                        
                                0 
                                 Bash: цикл while по нумерованным переменным  19.03.2019 
                                 Моя среда может иметь гибкое количество переменных, определяемых с помощью следующий формат: Var1Value = A 
Var2Value = B 
Var3Value = CI теперь хотел бы перебирать переменные, пока они существуют. ... 
                            

                                                        
                                14 
                                Перечислите X случайных файлов из каталога 23.05.2017 
                                Существует ли способ перечислить ряд, говорят, 30 случайных файлов из каталога с помощью стандартных команд Linux? (в zsh) главный ответ, описанный здесь, не работает на меня (вид не распознает опцию-R)...
                            

                                                        
                                0 
                                sed для поиска и замены строки специальными символами  17.07.2020 
                                Попытка заменить window.location = '/loft -run'+ResourceManager.hotlegs + mainPage + ".html #" + newhash; к window.location = ResourceManager.hotlegs + mainPage + ".html #" +...

FloHe · Accepted Answer · 27.01.2020, 21:12

Вы можете использовать sed в цикле для каждого файла в вашей текущей папке. Вы извлекаете соответствующие части и добавляете их через >> в файл с именем file следующим образом:

for files in *; \
do sed -n -e '/^From file/ H;' \
          -e '/Ratio of morphemes over utterances/ {H; x; s/\n//g; s/From file <\(.*\)>.*Ratio of morphemes over utterances = \([0-9]*\.[0-9]*\).*/\1:    \2/g; p;}' "$files";
done >>file