Диск занят на 101% все время

Я не знаю ничего, что делало бы то, что вы хотите, и это потребовало бы много работы. построить что-то. Для начала вам нужно будет создать компилятор, используя yacc или что-то подобное, чтобы анализировать ваши команды, а затем передавать их другому коду для фактического выполнения преобразований.

XLST может работать, но я в этом сомневаюсь. Он расположен поверх XML, а HTML — слишком неправильный язык разметки, чтобы вписаться в этот жесткий синтаксис: особенно если вы начнете сбрасывать CSS поверх него.

Я бы выбрал библиотеку Perl HTML::Parser (или, может быть, одну из ее друзей в дереве модулей HTML, если у них есть специализированный инструмент для ваша общая задача). Он анализирует HTML-документы в небольшом внутреннем дереве базы данных, а затем вы можете манипулировать им и выгружать его обратно. Я использую его все время, чтобы делать такие вещи, как: избавиться от всех тегов и содержимого iframe; избавиться от всех HTML-тегов, но распечатать что-то близкое к предполагаемому форматированию в открытом тексте; и действительно сложные скребковые двигатели.

Он действительно прост в использовании и делает всю тяжелую работу за вас. См. примеры на странице CPAN.В дистрибутив также входит больше примеров для таких вещей, как удаление определенных тегов/элементов и/или атрибутов.

Помните, что еще в каменном веке Perl правил Интернетом и был в основном занят распространением HTML, так что Монахи Perl десятилетиями оттачивали свои HTML-инструменты.

0
13.04.2016, 13:02
0 ответов

Теги

Похожие вопросы