Ранее я задавал вопрос о хранении первого экземпляра дубликатов, и предоставленное решение до сих пор работало идеально (см. Сохранение первого экземпляра дубликатов ).
Однако теперь у меня есть сценарий, в котором значения в столбцах C и D могут быть одинаковыми, но в разных порядках, и я хочу сохранить только один (подойдет любой порядок).
Пример ввода:
A B C D E F G
1 2 T TACA 3 2 Q
9 3 A C 9 3 P
8 3 I R 8 2 Q
9 3 C A 9 3 P
4 8 C T 7 4 P
9 3 T G 9 3 P
Желаемый результат:
A B C D E F G
1 2 T TACA 3 2 Q
9 3 A C 9 3 P
8 3 I R 8 2 Q
4 8 C T 7 4 P
9 3 T G 9 3 P
Использование: sort -k3,4 -k5,5r -k1,1r file | sort -k1,1 -k3,4 -u | sort -k1,1r
(или аналогичный) сохраняет обе версии 9 3 AC 9 3 P
и 9 3 CA 9 3 P
, но я хочу сохранить только одну из них . Дополнительная сложность заключается в том, что для значений столбца A может быть несколько допустимых значений столбца C и D (например, строка 2 9 3 AC 9 3 P
и строка 5 9 3 TG 9 3 P
в приведенном выше примере желаемого результата), поэтому поиск дубликатов невозможен только по столбцу A.
Спасибо!