Слияние двух отсортированных файлов на основе сортировки значений в одном поле

Question

Слияние двух отсортированных файлов на основе сортировки значений в одном поле

Я считаю, что проблема в том, что когда сеанс SSH закрыт ( нажатие ctrl-c или закрытие xterm), процессу отправляется HUP. Чтобы выполнить ветвление процесса в фоновом режиме, добавьте & , а для блокировки hup используйте nohup :

ssh (hidden) 'nohup sleep 300> / dev / null 2> / dev / null



 SSH должен запуститься, и процесс будет выполняться на example.com в фоновом режиме. 

 Если вы хотите отслеживать его прогресс, вы можете использовать  screen , если вы хотите это сделать, то поможет что-то похожее на это: 

 ssh (hidden) -t 'screen -D - RR -S this / bin / sleep 300 '

 Это создает сеанс экрана с именем' this '(-S), отсоединяет уже работающий экран, если он подключен в другом месте, и снова подключается сюда. Затем запускает / bin / sleep с 5-минутным ожиданием.


                    
                        1
                        
                    
                    
                                            
                    
                    
                        itf
                        01.12.2016, 05:50 
                    

                    Ссылка


            3 ответа


        
                    
        

            

            
                
                                    
            

            
                
                    
                        
                            
                                 awk  и  join  не подходят для этого. 

sed '/^$/q' file1; sort -snmk2,2 <(sed '1,/^$/d' file1) <(sed '1,/^$/d' file2)
                            
                            

                                1
                                
                            
                            
                            
                                jthill
                                27.01.2020, 23:34 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                С современным (версия > 4. 0) GNU awk, вы могли бы

awk '
  FNR>4 {a[$0]=$2; next}; 
  NR==FNR; 
  END {
    PROCINFO["sorted_in"] = "@val_num_asc"; 
    for (i in a) print i;
  }
' file1 file2


Пояснение: 


FNR>4 {a[$0]=$2; next}; создать массив полей сортировки не-заголовочных строк
NR==FNR; оценивает TRUE только для первого файла, и достигается только для FNR>4, вызывая печать заголовочных строк для первого файла
PROCINFO["sorted_in"] = "@val_num_asc" отсортировать массив по значению (т.е. по хранимому полю $2)
for (i in a. т.е. сохраненное поле $2)

for (i in a) print i print indices сортированного массива (которые являются сохраненными строками без заголовков)


Тестирование

$ awk 'FNR>4 {a[$0]=$2; next}; NR==FNR; END {PROCINFO["sorted_in"] = "@val_num_asc"; for (i in a) print i;}' file1 file2
header 1
header 2
header 3

lemur    3    dd
cat    4    aa
alligator    4    ca
dog    5    ab
ostrich    10    cd
fish    13    cc
lemming    16    ad
                            

                            

                                1
                                
                            
                            
                            
                                steeldriver
                                27.01.2020, 23:34 
                            
                            Ссылка
                        

                                                
                            
                                

                                                                    
                            
                        
                    

                


                
                
                    
                        
                            
                                Использование оболочки с заменой процесса (ksh93, bash,...)(см. конец для замены процесса -бесплатная альтернатива):
cat <( head -n 3 file1 ) \
    <( sort -k2,2n <( tail -n +4 file1 | tr -s ' ' '\t' ) \
                   <( tail -n +4 file2 | tr -s ' ' '\t' ) | uniq )
Это приведет к:
header 1
header 2
header 3

lemur   3       dd
alligator       4       ca
cat     4       aa
dog     5       ab
ostrich 10      cd
fish    13      cc
lemming 16      ad
Команда объединяет строки заголовков file1с результатом операции сортировки. Сортировка выполняется численно по второму полю некоторого ввода, и любые повторяющиеся строки (аллигаторы, лемуры и лемминги )удаляются с uniqиз результата. 
Входными данными для сортировки будет заголовок -за вычетом содержимого как file1, так и file2, пропущенный через trдля замены последовательных пробелов одиночными вкладками (между столбцами было нечетное количество пробелов в примере данных ). 
Результатом является табуляция -с разделителями. 
Эквивалентный способ с использованием тех же инструментов:
cat <( head -n 3 file1 ) \
    <( sort -k2,2n <( cat <( tail -n +4 file1 ) \
                          <( tail -n +4 file2 ) | tr -s ' ' '\t' ) | uniq )
Без cats и замены процесса:
{ head -n 3 file1;
    { tail -n +4 file1; tail -n +4 file2; } | tr -s ' ' '\t' | sort -k2,2n | uniq; }
                            
                            

                                0
                                
                            
                            
                            
                                Kusalananda
                                27.01.2020, 23:34 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                                    

                Похожие вопросы
                
                    
                                                    
                                -4 
                                Предотвращает ли существование доступного для записи обычного файла с таким же именем создание файла дампа ядра? [закрыто]  03.12.2018 
                                 На странице руководства core(5) говорится, что одна из причин, по которой файл дампа ядра не создается, заключается в следующем: (доступный для записи, обычный) файл с тем же именем, которое будет использоваться для дампа ядра, уже существует, ... 
                            

                                                        
                                5 
                                Возможно ли установить mysql 5.7 на Amazon Linux AMI? 12.05.2017 
                                Я попробовал установить и вижу ошибку Error: Package: mysql-community-server-5.7.17-1.el7.x86_64 (mysql57-community) Requires: systemd You could try using --skip-broken to work around ... 
                            

                                                        
                                3 
                                не мог выполнить darkice на пи малины 19.03.2014 
                                Я делаю проект на живом использовании потоковой передачи аудио Icecast и darkice использование пи малины. Я настроил icecast сервер darkice успешно на человечности. Я следую этому учебному руководству как своей ссылке...
                            

                                                        
                                0 
                                 Можно ли повторно использовать ключ GnuPG в другой установке?  08.02.2019 
                                 У меня есть ключ GPG, который я использую для подписи и отправки пакетов в Launchpad. Можно ли повторно использовать этот ключ в другой установке, или мне всегда нужно создавать новый ключ для новой установки ... 
                            

                                                        
                                2 
                                Sed находят и заменяют с наклонными чертами 29.08.2014 
                                Я испытываю затруднения с помощью sed, находят/заменяют с наклонными чертами в параметре находки. Демонстрационное содержание test.sh str= $ (sed-n '/^user:/p'/tmp/shadowtest) # находит "пользователя": строка в/etc/shadowtest прибытии =($ {ул.//
                            

                                                        
                                2 
                                Как создать функцию для суммирования необходимого нескольких столбцов 21.12.2019 
                                У меня есть сценарий, в котором я хочу суммировать несколько столбцов Данные в файле: ID|NAME|SAL|COST|PER|TAG 1|A|10|10|20|10 | 1|Б|10|15|20|10| 1|С|10|17|25|80| 1|Д|115|110|20|100| 1|Е|10|10|10|...
                            

                                                        
                                3 
                                 Как закрыть Fedora без входа в систему  23.06.2018 
                                 У меня Fedora 27, и когда я ухожу, отображается экран входа в систему.
Затем я возвращаюсь, чтобы выключить компьютер, но не могу выключить компьютер из экрана входа в систему.  Мне нужно войти в систему, а затем выключиться.  ... 
                            

                                                        
                                0 
                                Получить пары значений ключа -из файла для списка ключей из другого файла  02.04.2021 
                                Упрощенная версия моей проблемы заключается в том, что мне нужен сценарий bash, который извлекает пары значений ключа -из файла2, для которых ключ определен в файле1. Например :файл1 (содержит ключи )а г f файл2 (...
                            

                                                        
                                0 
                                Экранированные пробелы не работают с «ls» при вводе в команду  16.09.2020 
                                Первый раз здесь, прошу прощения, если что-то пропустил. В настоящее время я пишу скрипт, который просматривает каждую папку и ищет файл .vmdk, после чего я хочу сделать ls -lah... 
                            

                                                        
                                5 
                                Удалите каталоги Linux, содержащие ТОЛЬКО старые файлы 06.05.2014 
                                У нас есть многочисленные каталоги, что каждый содержит 2 файла, один из которых является скрытым файлом. Мы хотим удалить все те каталоги и их содержание, которое содержит ТОЛЬКО файлы, которые имеют дату модификации...

jthill · Answer 1 · 27.01.2020, 23:34

awk и join не подходят для этого.

sed '/^$/q' file1; sort -snmk2,2 <(sed '1,/^$/d' file1) <(sed '1,/^$/d' file2)

1

jthill 27.01.2020, 23:34

Ссылка

steeldriver · Answer 2 · 27.01.2020, 23:34

С современным (версия > 4. 0) GNU awk, вы могли бы

awk '
  FNR>4 {a[$0]=$2; next}; 
  NR==FNR; 
  END {
    PROCINFO["sorted_in"] = "@val_num_asc"; 
    for (i in a) print i;
  }
' file1 file2

Пояснение:

FNR>4 {a[$0]=$2; next}; создать массив полей сортировки не-заголовочных строк
NR==FNR; оценивает TRUE только для первого файла, и достигается только для FNR>4, вызывая печать заголовочных строк для первого файла
PROCINFO["sorted_in"] = "@val_num_asc" отсортировать массив по значению (т.е. по хранимому полю $2)
for (i in a. т.е. сохраненное поле $2)


for (i in a) print i print indices сортированного массива (которые являются сохраненными строками без заголовков)



Тестирование

$ awk 'FNR>4 {a[$0]=$2; next}; NR==FNR; END {PROCINFO["sorted_in"] = "@val_num_asc"; for (i in a) print i;}' file1 file2
header 1
header 2
header 3

lemur    3    dd
cat    4    aa
alligator    4    ca
dog    5    ab
ostrich    10    cd
fish    13    cc
lemming    16    ad

Kusalananda · Answer 3 · 27.01.2020, 23:34

Использование оболочки с заменой процесса (ksh93, bash,...)(см. конец для замены процесса -бесплатная альтернатива):

cat <( head -n 3 file1 ) \
    <( sort -k2,2n <( tail -n +4 file1 | tr -s ' ' '\t' ) \
                   <( tail -n +4 file2 | tr -s ' ' '\t' ) | uniq )

Это приведет к:

header 1
header 2
header 3

lemur   3       dd
alligator       4       ca
cat     4       aa
dog     5       ab
ostrich 10      cd
fish    13      cc
lemming 16      ad

Команда объединяет строки заголовков file1с результатом операции сортировки. Сортировка выполняется численно по второму полю некоторого ввода, и любые повторяющиеся строки (аллигаторы, лемуры и лемминги )удаляются с uniqиз результата.

Входными данными для сортировки будет заголовок -за вычетом содержимого как file1, так и file2, пропущенный через trдля замены последовательных пробелов одиночными вкладками (между столбцами было нечетное количество пробелов в примере данных ).

Результатом является табуляция -с разделителями.

Эквивалентный способ с использованием тех же инструментов:

cat <( head -n 3 file1 ) \
    <( sort -k2,2n <( cat <( tail -n +4 file1 ) \
                          <( tail -n +4 file2 ) | tr -s ' ' '\t' ) | uniq )

Без cats и замены процесса:

{ head -n 3 file1;
    { tail -n +4 file1; tail -n +4 file2; } | tr -s ' ' '\t' | sort -k2,2n | uniq; }