Bash, получить ссылки из pdf

Question

Usaría un ciclo de lectura while, esto manejaría archivos con espacios.

ls 2*.txt | tail -5 | while read loop
do
  cat "$loop" 
done

Si siempre quiere los 5 más recientes, puede cambiarlos als -tr | tail -5

0

command-line pdf text

Stanislav Hosek 24.07.2019, 16:34

Ссылка

4 ответа

Regis Barbosa · Answer 1 · 28.01.2020, 02:39

Проверьте это:

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

0

Regis Barbosa 28.01.2020, 02:39

Ссылка

Stéphane Chazelas · Answer 2 · 28.01.2020, 02:39

Вы можете попытаться извлечь директивы /URI(...)PDF вручную, возможно, после удаления сжатия, если таковые имеются, используяpdftk:

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'

Freddy · Answer 3 · 28.01.2020, 02:39

Использование pdfx и фильтрация всех строк, начинающихся с- http:

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'

1

Freddy 28.01.2020, 02:39

Ссылка

Roh · Answer 4 · 12.01.2021, 09:32

Вы можете использовать pdftohtml, а затем использовать lynx для извлечения ссылок из html.

0

Roh 12.01.2021, 09:32

Ссылка