Упомянутое выше предложение использовать pandoc хорошо сработало для меня:
pandoc foo.docx | wc
был точен с точностью до +/ -2 от того, что сказал MS Word.
Если вы протолкнете PDF-файл из convert test.png test.pdf
через ghostscript, он сообщит вам, что в файле есть ошибка:
$ gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile=temp.pdf test.pdf
**** Error: ICCbased space /N value does not match the ICC profile.
Using the number of channels from the profile.
Output may be incorrect.
Используя эту информацию, я добавил цветовое пространство для преобразования:
$ convert test.png -colorspace RGB test.pdf
Теперь Ghostscript больше не выдает ошибку, и Chrome будет правильно отображать файл.