Bash, получить ссылки из pdf

Usaría un ciclo de lectura while, esto manejaría archivos con espacios.

ls 2*.txt | tail -5 | while read loop
do
  cat "$loop" 
done 

Si siempre quiere los 5 más recientes, puede cambiarlos als -tr | tail -5

0
24.07.2019, 16:34
4 ответа

Проверьте это:

pdftotext -raw "filename.pdf" && file=`ls -tr | tail -1`; grep -E "https?://.*" "${file}" && rm "${file}"

Example of script

0
28.01.2020, 02:39

Вы можете попытаться извлечь директивы /URI(...)PDF вручную, возможно, после удаления сжатия, если таковые имеются, используяpdftk:

pdftk file.pdf output - uncompress | grep -aPo '/URI *\(\K[^)]*'
0
28.01.2020, 02:39

Использование pdfx и фильтрация всех строк, начинающихся с- http:

pdfx -v file.pdf | sed -n 's/^- \(http\)/\1/p'
1
28.01.2020, 02:39

Вы можете использовать pdftohtml, а затем использовать lynx для извлечения ссылок из html.

0
12.01.2021, 09:32

Теги

Похожие вопросы