Загрузить часть веб-страницы [дубликат]

-1
28.02.2018, 19:49
3 ответа

Pruebe esto usando una expresión adecuada :

Comando:

saxon-lint --html --xpath '//title/text()' http://domain.tld/path

Comprobar saxon -lint(proyecto propio)

Puede probar (pero necesita ocultar STDERR la mayor parte del tiempo (y no httpssoporte ), porque el analizador HTML no es tan bueno como lo que escribí como comando antes)

xmllint --html --xpath '//title/text()' http://domain.tld/path 2>/dev/null

Finalmente:

for page in $(cat source.txt); do
    chosen_command "https://somewebpage/some_sub_page/$page" > "/tmp/$page/index"
done
1
28.01.2020, 05:10

Puede canalizar lo que está obteniendo a esto:

wget -4 -qO- {$query} |\
html2text |\
awk '/<title>/,/<\/title>/{print}'
0
28.01.2020, 05:10

Por lo general, el factor limitante con el rendimiento de HTTP es la latencia, no el ancho de banda. Por lo tanto, no esperaría que solo cargar parte de la página tuviera un impacto significativo en el rendimiento. Sin embargo, HTTP proporciona un mecanismo para hacer solo estas solicitudes de rango -. Y, por supuesto, es compatible con cURL .

Sin embargo, no existe un requisito estricto para que el título aparezca cerca del comienzo del contenido HTML, solo que aparezca en HEAD .

With ~400 pages it takes extremelly a lot of time to load the whole page

Según lo anterior, no creo que vaya a ganar mucho aquí (aunque si me equivoco, entonces debería considerar implementar un procesador basado en flujo en lugar de su modelo de datagrama ). Si desea obtener los resultados más rápido, divida la carga de trabajo y ejecute varios controladores en paralelo.

0
28.01.2020, 05:10

Теги

Похожие вопросы