Утечка памяти в Word frequency gawk

Question

Утечка памяти в Word frequency gawk

Использование dateadd и dategrep из dateutils:

dategrep  -i "%Y/%m/%d %T" ">=$(dateadd now -30d)"

dateadd вычисляет дату и время от настоящего момента до 30 дней назад. Затем dategrep печатает только строки из стандартного ввода, которые содержат строку даты, более новую или равную (>=), чем эта. В этом случае формат даты строк журнала должен быть указан с помощью -i.


                    
                        1
                        
                    
                    
                        gawk large-files memory-leaks                    
                    
                    
                        Rui F Ribeiro
                        26.01.2019, 17:40 
                    

                    Ссылка


            1 ответ


        
                    
        

            

            
                
                                    
            

            
                
                    
                        
                            
                                 Итак, было несколько вещей, которые помогли, но главное, что заставило это работать, - это использование  sort | uniq -c  вместо gawk,  согласно Грегори Нисбету . 

 Я также использовал комментарий  @ dave_thompson_085  о  tr -sc '[: alpha:]' '\ n' . Флаг  -s  объединяет повторы, что означает, что мне не нужно удалять пустые строки, а  -c  инвертирует набор символов для поиска. Побочный эффект  -c  заключается в том, что вы можете использовать только один заменяющий символ вместо набора. Также спасибо Дэйву за  уловку о grep и точных совпадениях строк  ( -x ). Если бы у меня была репутация, чтобы проголосовать за этот комментарий, я бы сделал это. 

 Наконец, мне пришлось использовать дополнительный код, чтобы удалить объекты XML ( ") и вырезать HTML (избыток   ). В  getArticleText , новая команда sed выглядит так:  | sed -e 's / "/" / g' -e 's /  /> / g' -e 's / & / & / g '-e' s /<.*>// g '. Каждое выражение ( -e  для цепочки команд) имеет дело с разными объектами HTML. Я попробовал несколько более полных варианты (например, использование perl согласно  StackOverflow ), но они не работали в моем случае из-за проблем, связанных с машиной. Окончательный сценарий можно увидеть в  моем репозитории wordcount . 

 Скрипт завершился на моей машине за 3 часа 20 минут, но это еще и 6-ядерный процессор AMD много лет назад с жестким диском. Ваш пробег может отличаться, но для меня этого было достаточно. 

 Я не буду принимать этот ответ, поэтому что если @Gregory Nisbet или @ dave_thompson_085 захотят опубликовать свой ответ, они смогут. 
                            
                            

                                0
                                
                            
                            
                            
                                xenrelay
                                28.01.2020, 01:07 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                    gawk large-files memory-leaks                

                Похожие вопросы
                
                    
                                                    
                                3 
                                awk читают, ошибка плохо обращаются 19.10.2013 
                                У меня есть файл, который составляет примерно 30 ГБ. Я использую, awk '1$ <=' myfile.txt 2000 года>> myfile_new.txt, Но, я получаю эту ошибку через некоторое время - awk: считайте ошибку (Плохой адрес), я предполагаю, что это...
                            

                                                        
                                0 
                                 Прочитать результат столбца mysql в переменной awk  22.08.2017 
                                 Я не могу прочитать одно ЗНАЧЕНИЕ из запроса mysql в awk. может читать это в bash, но не в awk. Я хочу прочитать переменную результата в awk, поскольку я хочу запустить запрос только на основе некоторого динамического ... 
                            

                                                        
                                -1 
                                Удалить целую строку, начинающуюся с паттерна, находящегося где-либо после другого паттерна 14.09.2018 
                                Как удалить любую строку, начинающуюся с ---, находящуюся в любом номере строки после строки, содержащей # Match (первое появление в любом номере строки)? EDIT: Связь между #Match и ... 
                            

                                                        
                                -1 
                                Необходимо добавить пробелы и запятые в определенных местах. 22.01.2020 
                                Нужен совет специалиста. MO,AXC,Ldf 2020-01-1713:59:1898823,DJ,LO,AZC,NDf Желаемый результат 2020-01-17 13:57:58,88823,...
                            

                                                        
                                1 
                                Как установить gawk -csv (и gawkextlib )?  25.03.2020 
                                Есть простой и объективный способ установить расширение CSV для gawk? Попробуйте и остановитесь.. нужно сделать еще один шаг Использование UBUNTU 18 LTS. wget -chttp://ftp.gnu.org/gnu/gawk/gawk-5.0.1.tar.gz(и... 
                            

                                                        
                                1 
                                 быстрые способы удаления начальных строк из большого текстового файла  17.02.2017 
                                 У меня есть большой текстовый файл (> 500 ГБ), все способы, которыми я могу find (sed / tail и другие) все требуют записи содержимого 500 ГБ на диск. Есть ли способ быстро удалить первые несколько строк без ... 
                            

                                                        
                                -1 
                                awk сопоставляет последнюю запись и печатает  30.08.2020 
                                Я получил эту запись как fileinp :1 ABCDEFGHILM 12345678901234567 ABCD X 1 CDEFGHILMNO 34567890123456789 BCDE Y 1 EFGHILMNOPQ 56789012345678901 CDEF...

xenrelay · Accepted Answer · 28.01.2020, 01:07

Итак, было несколько вещей, которые помогли, но главное, что заставило это работать, - это использование sort | uniq -c вместо gawk, согласно Грегори Нисбету .

Я также использовал комментарий @ dave_thompson_085 о tr -sc '[: alpha:]' '\ n' . Флаг -s объединяет повторы, что означает, что мне не нужно удалять пустые строки, а -c инвертирует набор символов для поиска. Побочный эффект -c заключается в том, что вы можете использовать только один заменяющий символ вместо набора. Также спасибо Дэйву за уловку о grep и точных совпадениях строк ( -x ). Если бы у меня была репутация, чтобы проголосовать за этот комментарий, я бы сделал это.

Наконец, мне пришлось использовать дополнительный код, чтобы удалить объекты XML ( ") и вырезать HTML (избыток ). В getArticleText , новая команда sed выглядит так: | sed -e 's / "/" / g' -e 's / /> / g' -e 's / & / & / g '-e' s /<.*>// g '. Каждое выражение ( -e для цепочки команд) имеет дело с разными объектами HTML. Я попробовал несколько более полных варианты (например, использование perl согласно StackOverflow ), но они не работали в моем случае из-за проблем, связанных с машиной. Окончательный сценарий можно увидеть в моем репозитории wordcount .

Скрипт завершился на моей машине за 3 часа 20 минут, но это еще и 6-ядерный процессор AMD много лет назад с жестким диском. Ваш пробег может отличаться, но для меня этого было достаточно.

Я не буду принимать этот ответ, поэтому что если @Gregory Nisbet или @ dave_thompson_085 захотят опубликовать свой ответ, они смогут.