Это не совсем то, что я бы назвал сортировкой.
Вы можете либо сжать и транслитерировать все неалфавитные последовательности в новые строки
tr -sc '[:alpha:]' '[\n*]' < PDF
или (по крайней мере, с GNU grep) подобрать и вывести последовательности слов символов (букв, десятичных цифр и подчеркивания), по одному на строку, используя опцию -o
grep -o '\w*' PDF