У меня есть папка, полная файлов .doc или .docx. Я хотел бы знать, сколько слов - или, в противном случае, символов или строк - присутствуют в каждом файле, не открывая каждый из них. (Пример использования: я технический специалист, которому нужно каждую неделю оценивать тонну прочитанных ответов для завершения.)
Есть ли способ сделать это из командной строки ? В конце концов, я бы хотел получить все это в файле .csv. Я счастлив загрузить для этого какую-нибудь утилиту.
Я запускаю Arch linux, если это имеет значение.
Упомянутое выше предложение использовать pandoc хорошо сработало для меня:
pandoc foo.docx | wc
был точен с точностью до +/ -2 от того, что сказал MS Word.