Кроме того, есть fmt
утилита (проверьте локальную справочную страницу):
$ seq 100 > f
$ fmt --width 50 file
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66
67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
99 100
или пр:
$ pr -15 -w 50 -a -s' ' -t file
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 10
Это идиоматическое решение будет надежно работать с любым awk в любой оболочке на каждом компьютере UNIX:
$ awk '!seen[$1]++' file
ENSDARG00000032737 ENSDARP00000120731
ENSDARG00000061051 ENSDARP00000081062
$ sort -s -k1,1 -u file
ENSDARG00000032737 ENSDARP00000120731
ENSDARG00000061051 ENSDARP00000081062
Это сортирует файл только по первому столбцу. При этом он игнорирует строки, первый столбец которых уже был просмотрен.
Большинство реализаций sort
имеют не -стандартную -s
опцию (, используемую в приведенной выше команде ), которая гарантирует, что будет использоваться «стабильный» алгоритм сортировки. Стабильный алгоритм сортировки не меняет порядок записей, имеющих одинаковые ключи (первого столбца в вашем случае ).
Обратите внимание, однако, что более длинный транскрипт (, с которым и Ensembl, и Havana согласны на 100% )для гена ENSDARG00000032737 , — это ENSDART00000049291, который кодирует ENSDARP00000049290, а не ENSDARP00000120731. Но это не совсем мое дело.
POSIX-AWK:
m1[$1] == 0 {
m1[$1] = 1
print
}
Для каждой строки:
Лучшие решения уже предоставлены, просто опубликуйте мою попытку
for i in `awk '{if(!seen[$1]++)print $1}' filename`; do sed -n '/'$i'/{p;q}' filename; done
выход
ENSDARG00000032737 ENSDARP00000120731
ENSDARG00000061051 ENSDARP00000081062