Все предыдущие ответы хороши, существует много очень хороших инструментов, чтобы сделать это. Если Вы хотите взять его шаг вперед, пишущий, что простой инжектор в C на самом деле довольно легок.
Вот образец кода, я записал несколько лет обратно: http://jve.linuxwall.info/ressources/code/forgetcp.c
grep -o -w '\w\{1,3\}' data
Опции:
Это распознает только слова (в grep \w = [[: alnum:]] = [A-Za-z0-9]) длины от 1 до 3 (указанный {1,3})