Как вывести строки для первого появления уникального значения в файле с 2 -столбцами?

Кроме того, есть fmtутилита (проверьте локальную справочную страницу):

$ seq 100 > f
$ fmt --width 50 file
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66
67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82
83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
99 100

или пр:

$ pr -15 -w 50 -a -s' ' -t file
1  2  3  4  5  6  7  8  9  10 11 12 13 14 15
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 10

0
04.04.2020, 00:50
4 ответа

Это идиоматическое решение будет надежно работать с любым awk в любой оболочке на каждом компьютере UNIX:

$ awk '!seen[$1]++' file
ENSDARG00000032737    ENSDARP00000120731
ENSDARG00000061051    ENSDARP00000081062
1
28.04.2021, 23:18
$ sort -s -k1,1 -u file
ENSDARG00000032737    ENSDARP00000120731
ENSDARG00000061051    ENSDARP00000081062

Это сортирует файл только по первому столбцу. При этом он игнорирует строки, первый столбец которых уже был просмотрен.

Большинство реализаций sortимеют не -стандартную -sопцию (, используемую в приведенной выше команде ), которая гарантирует, что будет использоваться «стабильный» алгоритм сортировки. Стабильный алгоритм сортировки не меняет порядок записей, имеющих одинаковые ключи (первого столбца в вашем случае ).


Обратите внимание, однако, что более длинный транскрипт (, с которым и Ensembl, и Havana согласны на 100% )для гена ENSDARG00000032737 , — это ENSDART00000049291, который кодирует ENSDARP00000049290, а не ENSDARP00000120731. Но это не совсем мое дело.

2
28.04.2021, 23:18

POSIX-AWK:

m1[$1] == 0 {
   m1[$1] = 1
   print
}

Для каждой строки:

  1. посмотреть, существует ли первый столбец в "базе данных"
  2. если нет, добавить в "базу данных" и вывести всю строку
2
28.04.2021, 23:18

Лучшие решения уже предоставлены, просто опубликуйте мою попытку

for i in `awk '{if(!seen[$1]++)print $1}' filename`; do sed -n '/'$i'/{p;q}' filename; done

выход

ENSDARG00000032737    ENSDARP00000120731
ENSDARG00000061051    ENSDARP00000081062
0
28.04.2021, 23:18

Теги

Похожие вопросы