Извлеките несколько строка строки из файла HTML с помощью определенных тегов

Question

Извлеките несколько строка строки из файла HTML с помощью определенных тегов

с перл:

perl -le 'map { $sum += -s } @ARGV; print $sum' -- *.pdf

Размер всех не скрытых PDF-файлов в текущем каталоге.

1

cuonglm 05.05.2014, 17:10

Ссылка

3 ответа



                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                [117418] Можно попробовать что-нибудь вроде приведенного ниже.

 Однако, не рекомендуется извлекать с помощью заголовков HTML. Пожалуйста, обратитесь к [117713] здесь [117714], чтобы узнать, почему не следует разбирать HTML-страницы. Я бы посоветовал вам использовать [117715]curl[117716] и [117717]w3m[117718] для удаления заголовков HTML, после чего парсинг станет немного проще. [117421]                            
                            

                                0
                                
                            
                            
                            
                                
                                27.01.2020, 23:28 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                [117430]Использовать HTMLParser для таких действий: 

$ for i in `seq 1 100` ; do touch $i ; done
$ ls
1    13  18  22  27  31  36  40  45  5   54  59  63  68  72  77  81  86  90  95
10   14  19  23  28  32  37  41  46  50  55  6   64  69  73  78  82  87  91  96
100  15  2   24  29  33  38  42  47  51  56  60  65  7   74  79  83  88  92  97
11   16  20  25  3   34  39  43  48  52  57  61  66  70  75  8   84  89  93  98
12   17  21  26  30  35  4   44  49  53  58  62  67  71  76  80  85  9   94  99
$ echo [0-9]
1 2 3 4 5 6 7 8 9
$ echo [30-99]
1 2 3 4 5 6 7 8 9


 Запустите его:

$ touch a b c d e f g h i j k l m n o p q r s t u v w x y z
$ echo [f-l]
f g h i j k l


                            
                            

                                1
                                
                            
                            
                            
                                
                                27.01.2020, 23:28 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                                    

                Похожие вопросы
                
                    
                                                    
                                2 
                                 Как я могу отключить мою сенсорную панель Lenovo с i3?  24.11.2018 
                                 Я хотел бы отключить мой  Сенсорная панель с I3.  Ранее я использовал XFCE, и я использовал GUI для этого.  Как я могу сделать это в I3 тоже? 
                            

                                                        
                                9 
                                 Linux Mint 18 с сохранением и восстановлением сеанса Cinnamon  06.10.2016 
                                 Есть ли способ сохранить положение / рабочее пространство и, возможно, состояние всех моих открытых программ, чтобы при перезапуске я могу восстановить все точно там, где это было раньше, без повторного открытия ... 
                            

                                                        
                                1 
                                Удаление символа новой строки из столбца в файле CSV  22.09.2021 
                                Мы получаем новый символ строки в одном из столбцов CSV-файла. Данные для столбца поступают в последовательных строках. Например :ID,КОД,СООБЩЕНИЕ,ДАТА,ТИП,ОПЕРАТОР,CO _ID 12202,INT _SYS _OCS _EX _INT -0000, """OCSSystemException :Ошибка транспорта HTTP 
                            

                                                        
                                3 
                                Dropbox настаивает на том, чтобы автоматически запускать - Fedora 20 22.07.2018 
                                Я пытаюсь заставить Dropbox не автоматически запускать. Руководство показывает параметр командной строки, который должен добиться цели, но это, кажется, не работает здесь (автоматический запуск Dropbox n). Рабочий автоматический запуск Dropbox выходит...
                            

                                                        
                                0 
                                Как я могу удостовериться, что пользовательская переменная среды установлена, прежде чем крон выполняет задачу? 13.04.2017 
                                Я недавно испытал проблему logwatch, которая устраняется путем выполнения DATE_MANIP=DM5 экспорта. крон, кажется, забывает это, когда я выхожу из системы (по-видимому, потому что он не сохраняется). Где я могу добавить это пользовательское...
                            

                                                        
                                5 
                                 Дерево файловой системы Linux  01.11.2018 
                                 Есть ли графическое представление файловой системы Linux, чтобы понять файловую систему Linux.  В настоящее время используется Ubuntu 16.04, и я хочу эффективно переустановить его, используя 2 жестких диска, 1x250GB и 1x500GB.  ... 
                            

                                                        
                                5 
                                Примите любой закрытый ключ для аутентификации 11.04.2014 
                                Действительно ли возможно настроить OpenSSH (или какой-либо другой стандарт sshd) для принятия какого-либо ключа, предлагаемого соединяющимся клиентом? Имя хоста EG ssh-i ~/arbitraryKey предоставляет оболочку входа в систему, в то время как ssh имя хоста 
                            

                                                        
                                61 
                                Действительно ли возможно соединиться с портом TCP 0? 22.01.2015 
                                Слушание порта TCP 0 выделяет меня франко-порт число в системе. Но что происходит, когда я пытаюсь соединиться с портом TCP 0? Очевидный ответ: "Это не работает": $ nc localhost 0...
                            

                                                        
                                0 
                                 Удалить определенный столбец, если он существует в файле CSV  01.06.2017 
                                 У меня есть файл CSV, содержащий около 25 столбцов.
Некоторые строки файла содержат 26 столбцов, поэтому я хочу найти строки, содержащие этот дополнительный столбец, и удалить его, чтобы можно было использовать awk с ... 
                            

                                                        
                                1 
                                Как заменить столбец в файле на другой столбец  08.06.2021 
                                У меня есть два файла. Как заменить второй столбец в файле 2 на столбец 12 в файле 1 таким образом, чтобы столбец 9 в файле 1 был таким же, как столбец 1 в файле 2? файл1 1 2000 11 11 7 9 45 840...

score 2 · Answer 1 · 27.01.2020, 23:28

Regex на самом деле не способен полностью разобрать html.

Существует утилита командной строки под названием [117721]xidel[117722], которая позволяет использовать селекторы XPath или CSS для извлечения нужных битов.

Нечто подобное удовлетворит ваше заявленное требование:

# build list of files; note, won't work when filename contains a space or colon
files=""
for i in `seq 30 99`; do
    files="$files my_log-bin.$i"
done

scp $files root@192.168.103.66:/backup/

Но обратите внимание, что это вернет больше, чем требуется, так как у вас есть один незакрытый [117723]

score 0 · Answer 2 · 27.01.2020, 23:28

[117418] Можно попробовать что-нибудь вроде приведенного ниже.

Однако, не рекомендуется извлекать с помощью заголовков HTML. Пожалуйста, обратитесь к [117713] здесь [117714], чтобы узнать, почему не следует разбирать HTML-страницы. Я бы посоветовал вам использовать [117715]curl[117716] и [117717]w3m[117718] для удаления заголовков HTML, после чего парсинг станет немного проще. [117421]

score 1 · Answer 3 · 27.01.2020, 23:28

[117430]Использовать HTMLParser для таких действий:

$ for i in `seq 1 100` ; do touch $i ; done
$ ls
1    13  18  22  27  31  36  40  45  5   54  59  63  68  72  77  81  86  90  95
10   14  19  23  28  32  37  41  46  50  55  6   64  69  73  78  82  87  91  96
100  15  2   24  29  33  38  42  47  51  56  60  65  7   74  79  83  88  92  97
11   16  20  25  3   34  39  43  48  52  57  61  66  70  75  8   84  89  93  98
12   17  21  26  30  35  4   44  49  53  58  62  67  71  76  80  85  9   94  99
$ echo [0-9]
1 2 3 4 5 6 7 8 9
$ echo [30-99]
1 2 3 4 5 6 7 8 9

Запустите его:

$ touch a b c d e f g h i j k l m n o p q r s t u v w x y z
$ echo [f-l]
f g h i j k l