Существует ли способ разделить файл HTML, не теряя все форматирование в каждом сегменте?

Можно использовать неименованный канал для второй команды:

texcount foo.tex | tee >(sed s/$/'\\\\'/ > wc.tex)
2
06.09.2011, 10:26
2 ответа

Большинство инструментов Unix, как split, агностик формата файла. Для разделения файлов, которые используют определенный формат (как HTML) в меньшие законно отформатированные файлы используйте определенные инструменты. Для разделения HTML, htmldoc является первым, я нашел взгляд быстро в сети. Это было упаковано (по крайней мере, в debian, человечности, мягкой фетровой шляпе, хинду, и т.д. …).

Не использовать sed- приемы выхода, которые делают неприятные предположения на файлах, поскольку это имело бы неприятные последствия один день или другой.

1
27.01.2020, 22:15

Вы могли сначала извлечь и удалить заголовок/нижний колонтитул исходного файла, разделить его и добавить извлеченный заголовок/нижний колонтитул к каждому разделению.

Вы могли использовать xpath или sed сделать редактирование исходного файла.

Например, эта командная строка лишает нижний колонтитул заголовка файла:

$ sed -e '0,/<body>/d' -e '/<\/body>/,$d input.html

Где sed является GNU один, и предполагается, что тег основного текста находится на своей собственной строке.

1
27.01.2020, 22:15

Теги

Похожие вопросы