$ awk '
NR==FNR {a[$1]++; a[$2]++; next};
!($2 in a)' fusions.head16.R2.fastq.tab test.head20.R2.fastq.tab
@10000000_0_0_0_0 rupesh TCCCTACTCACGTGGTGGACGCACAACCTAAGGTCAAGCTTATAGGTAAACACGCAGTGAAATATCCAGAAACGAAGCTATCACCCGGGTAGTGTCTTGG + =FGIIIFDCCDDDCAA5BBBBGIJIIGJIJJJJJJIIGGHHIIIJIJIIJJIEE8?DDECGGIEDDDDDDHHJJJJJJIGIIIJED?CB5@CFFHHHCFF
@5000345_0_3_0_0 ENSG00000178057 TCCCTACTCACGTGGTGGACGCACAACCTAAGGTCAAGCTTATAGGTAAACACGCAGTGAAATATCCAGAAACGAAGCTATCACCCGGGTAGTGTCTTGG + =FGIIIFDCCDDDCAA5BBBBGIJIIGJIJJJJJJIIGGHHIIIJIJIIJJIEE8?
Это было проще и легче, чем я сначала думал, если вы читаете файл исключений(fusions.head16.R2.fastq.tab
)перед файлом данных(test.head20.R2.fastq.tab
).
Это считывает первый файл и использует массив a
для хранения идентификаторов, найденных в полях $1
и $2
.
Затем для каждой строки второго файла (и последующих файлов, если они есть ), если поля $2 нет в массиве a
, печатается строка.