Сохранение первого экземпляра дубликатов, когда значения столбцов взаимозаменяемы

Ранее я задавал вопрос о хранении первого экземпляра дубликатов, и предоставленное решение до сих пор работало идеально (см. Сохранение первого экземпляра дубликатов ).

Однако теперь у меня есть сценарий, в котором значения в столбцах C и D могут быть одинаковыми, но в разных порядках, и я хочу сохранить только один (подойдет любой порядок).

Пример ввода:

A B C D E F G
1 2 T TACA 3 2 Q
9 3 A C 9 3 P
8 3 I R 8 2 Q
9 3 C A 9 3 P
4 8 C T 7 4 P
9 3 T G 9 3 P

Желаемый результат:

A B C D E F G
1 2 T TACA 3 2 Q
9 3 A C 9 3 P
8 3 I R 8 2 Q
4 8 C T 7 4 P
9 3 T G 9 3 P

Использование: sort -k3,4 -k5,5r -k1,1r file | sort -k1,1 -k3,4 -u | sort -k1,1r (или аналогичный) сохраняет обе версии 9 3 AC 9 3 P и 9 3 CA 9 3 P , но я хочу сохранить только одну из них . Дополнительная сложность заключается в том, что для значений столбца A может быть несколько допустимых значений столбца C и D (например, строка 2 9 3 AC 9 3 P и строка 5 9 3 TG 9 3 P в приведенном выше примере желаемого результата), поэтому поиск дубликатов невозможен только по столбцу A.

Спасибо!

0
13.04.2017, 15:36
0 ответов

Теги

Похожие вопросы