Как я загружаю PDF, затем произведите блок текста?

Question

Как я загружаю PDF, затем произведите блок текста?

Если у вас нет слишком много шаблонов:

perl -ne 'BEGIN {$exp = quotemeta("miss.")} print if /^$exp/'

Я не знаю, как эффективно расширить это на GREP -F (чтение шаблонов из файла, который Вы бы сделали, если бы у вас было серьезное количество шаблонов для решения), но Это так отвечает при объединении запросов, кажется интересным.

0

shell-script text-processing linux-mint pdf text

ThatChrisGuy 21.01.2015, 19:14

Ссылка

2 ответа



                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 Может быть возможно использование  PDFTTтекст : 

$ pdftotext -layout transaction.pdf - | grep -C1 amount
                 19876.0
amount paid


 Программа является частью пакета  Pop-Utils , которая может быть установлена с использованием: 

sudo apt-get install poppler-utils


 -  -  Параметр  используется для создания  PDFTTEXT  PDFTHTEEXT , придерживайтесь макета PDF так же тесно, как и может (в противном случае  сумма оплачена  в моем макете таблицы PDF, довольно далеко от количества в тексте.  форма).  
                            

                            

                                0
                                
                            
                            
                            
                                
                                28.01.2020, 02:51 
                            
                            Ссылка
                        

                                                
                            
                                

                                                                    
                            
                        
                    

                


                                        
                Теги
                
                    shell-script text-processing linux-mint pdf text                

                Похожие вопросы
                
                    
                                                    
                                0 
                                 Получение вывода egrep -o в одной строке  16.06.2017 
                                 Мы пытаемся получить только данные из вывода ниже, мы попытались исключить данные с помощью команды egrep, но данные, которые мы получаем, находятся в другой строке, как мне получить данные в одной строке. Итого: ... 
                            

                                                        
                                2 
                                Назначение двоеточия при переменном расширении  26.09.2020 
                                Я просматриваю старый сценарий оболочки. Я не могу понять две вещи в нем. гт/данные/журнал || истинное значение=$ (cat /datafile )если [ ${значение:-1} == 0 ], то эхо 'сделать' иначе эхо 'не' значение fi:-1 -... 
                            

                                                        
                                0 
                                Замена завершающего текста POSIX-ly 01.12.2019 
                                Поскольку я не нашел прямого способа указать имя файла в pv (странице руководства), (за исключением странного ключа -N, который выступает в качестве префикса, а не самого имени файла), мне нужно было бы вручную отредактировать...
                            

                                                        
                                0 
                                Цикл, который записывает все числа между двумя входными числами, которые записываются в файл  10.09.2020 
                                У меня есть сценарий, который принимает два числа, каждое из которых состоит из 6 цифр, например 220210 и 220221. Все, что я хочу, это цикл для записи всех чисел между 220210 и 220221 и эти 2 числа в файл. Я знаю, наверное... 
                            

                                                        
                                3 
                                Есть ли какой-либо способ, которым я могу вместить это в свой ~/.bashrc как функция? 08.09.2012 
                                Я просто обнаружил этот полезный бит кода этого полезно выглядящего веб-сайта. #!/bin/sh должностное лицо tclsh $ "за 0$" {1 +" $ "} proc основной {} {строки набора [lrange [разделение [читают stdin] \n] 0 концов 1] количество набора [
                            

                                                        
                                0 
                                Цикл сценария Bash объединяет каналы/перенаправления на основе переменных имен 27.03.2020 
                                У меня есть команда, которая создает несколько строк вывода, которые я позже ищу с помощью grep. Основываясь на предыдущем ответе, я знаю, что могу использовать одну длинную команду и выполнять все фильтры одновременно: https://...
                            

                                                        
                                0 
                                Сортировка списка по номерам  18.03.2021 
                                У меня есть текстовый список со следующей структурой :292G. -Ла Илиада ; Сборник первый (том 57 ); Гомер; http://www.ataun.eus/BIBLIOTECAGRATUITA/Cl%C3%A1sicos%20en%20Espa%C3%B1ol/Homero/Iliada.pdf...

score 1 · Answer 1 · 28.01.2020, 02:51

Код будет варьироваться в зависимости от деталей, но общий подход будет:

Войти на веб-сайт (?)
Загрузить страницу, ссылающуюся на файл, используя WGET или Curl
Получите ссылку на PDF с страницы
Загрузить файл, используя wget или Curl
Извлеките текст из PDF с PDFTOTEXT PDFTOTEXT из Pop-Top-Utils или аналогичных


 Использование  GREP  Или так, чтобы получить нужные данные из текстового результата



, самая сложная часть будет процесс входа  , если это нужно.  



 Как вы прокомментируете, вам не нужно войти в систему, и иметь фиксированный URL, который упрощает его конечно.
Мы можем загрузить PDF и использовать текстовый контент непосредственно для извлечения данных.
Ниже приведен пример извлечения линии из образца PDF-файла.  Эта строка содержит слово  GhostView  и номер версии, который можно использовать в качестве примерного значения.  

$ u='http://www.wave.org.au/jupgrade/images/sample.pdf'
$ curl -s "$u" | pdftotext - - | grep 'ghostscript '
• ghostscript ≥ 5.10 (for example from Red Hat Contrib) and ghostview


 Следующим шагом может быть извлечение простого численного значения.

score 0 · Answer 2 · 28.01.2020, 02:51

Может быть возможно использование PDFTTтекст :

$ pdftotext -layout transaction.pdf - | grep -C1 amount
                 19876.0
amount paid

Программа является частью пакета Pop-Utils , которая может быть установлена с использованием:

sudo apt-get install poppler-utils

- - Параметр используется для создания PDFTTEXT PDFTHTEEXT , придерживайтесь макета PDF так же тесно, как и может (в противном случае сумма оплачена в моем макете таблицы PDF, довольно далеко от количества в тексте. форма).