Вы можете использовать awk
, если хотите, чтобы все дубликаты располагались в позиции #4 (при условии, что данные разделены пробелами):
$ awk '{seen[$4]++} END{for(x in seen) print x, seen[x]}' infile
other 2
Mus_musculus_tRNA-Gly-GCC-2-2 1
Mus_musculus_tRNA-Gly-GCC-2-7 1
mmu-mir-10a 1
mmu-mir-10b 2
tRNA-His 1
Mus_musculus_tRNA-Gly-GCC-4-1 2
Первые поля представляют собой данные, а вторые поля представляют собой соответствующие дубликаты этих данных.