На современном Linux в эти дни существует https://github.com/g2p/bedup, который дедуплицирует в btrfs файловой системе, но такого количества 1) без такого количества сканирования наверху, 2) файлы могут отличаться легко снова впоследствии.
Вы можете использовать iconv для преобразования между кодировками
iconv -f utf-8 -t ascii oldfile > newfile