Простая команда Linux" может выглядеть примерно так:
sed 's/\(>[^ACGT]*_[0-9]\+\)\([ACGT]\+\)/\1\n\2\n/g' yourdnafile |egrep -B1 '^[ACGT]{1000}'
Часть sed разбивает на 2 строки на набор, а grep показывает совпадение более 1000 и строки, предшествующей этой (-B1).
или это может быть еще проще:
sed 's/\(>[^>ACGT]*\)\([ACGT]\{1000\}[ACGT]*\)/\1\n\2\n/g;s/>[^>ACGT\n]*[ACGT]\+//g' yourdnafile