Сделать статистику биграмм [закрыто]

Question

Сделать статистику биграмм [закрыто]

Нужно что-то вроде "насрать на вечную историю".
Здесь есть хорошее описание, чтобы заставить его работать.

В этом решении по-прежнему отсутствует PID, который можно было бы добавить с помощью идей отсюда.

В основном:

export HISTTIMEFORMAT="%s "
PROMPT_COMMAND="${PROMPT_COMMAND:+$PROMPT_COMMAND ; }"' \
               echo $$ $USER "$(history 1)" >> ~/.bash_eternal_history'

Который использует $PROMPT_COMMANDдля генерации:

$PID $USER $LAST_COMMAND

вывода для каждой выполненной команды.

1

text-processing tr

Jeff Schaller 10.03.2017, 18:54

Ссылка

3 ответа



                                    
                        
                            
                                

                                                                    
                            
                        
                    
                    
                
                    
                        
                            
                                 В системах  GNU  вы можете запустить: 

paste <(head -n -1 infile) <(tail -n +2 infile) | sort | uniq -c


 Переносимость: 

sed -e '1!{$!p' -e '}' infile | paste -d' ' - -  | sort | uniq -c


 или 

awk 'NR>1{i=t" "$0; z[i]++};{t=$0}END{for (i in z){print z[i], i}}' infile
                            
                            

                                0
                                
                            
                            
                            
                                don_crissti
                                28.01.2020, 01:00 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                
                
                    
                        
                            
                                 Если вы хотите объединить слова в каждых двух последовательных строках, чтобы получить биграмму, вы можете сделать это следующим образом: 

cat TEXTEN1.txt|sed 'N; s/\n/ /'|sort|uniq -c


 это объединит последовательные пары таких строк 1-2, 3-4, 5-6 и т. д. 

 Если вы хотите объединить каждую строку +1 (например, 1-2, 2-3, 3-4 ...), вы можно сделать это так 

cat TEXTEN1.txt|sed -n ':a N;s/\n/ /p;s/\w* //;ta'|sort|uniq -c


 или использовать (несколько более элегантную) комбинацию  sed + paste    от @don_crissti 
                            
                            

                                0
                                
                            
                            
                            
                                zeppelin
                                28.01.2020, 01:00 
                            
                            Ссылка
                        
                                                
                            
                                

                                                                    
                            
                        
                    
                

                                        
                Теги
                
                    text-processing tr                

                Похожие вопросы
                
                    
                                                    
                                -11 
                                 Заменить строку в текстовом файле, но только там, где ей предшествует определенный многострочный шаблон  29.12.2016 
                                 Мой файл содержит: Ананас
яблоко
Банан
Рис
Виноград
Арбуз
апельсин
яблоко
Банан
Рис
манго
Груша
слива
Банан
Рис
Вишня хочу сделать так: Ананас
яблоко
Банан
Рис
Виноград
Арбуз
... 
                            

                                                        
                                4 
                                Удаление символов при именовании файлов или папок 07.08.2015 
                                У меня есть текстовый файл с несколькими строками. В каждой строке у меня есть дата в следующем формате: 12/2/2015
15/9/2013
08/3/2011
02/5/2005
.
.
. Я хочу создать папку для каждой строки в этом текстовом файле ... 
                            

                                                        
                                1 
                                 извлечь совпадение абзаца со словами, используя sed или awk [дубликат]  15.10.2018 
                                 У меня есть файл с именем «quota. txt", как показано ниже: DISK_info_start:/usr
Диск: /usr
ТЕКУЩИЙ=81
DISK_info_end:/usr DISK_info_start:/usr/var
Диск: /usr/tmp
ТЕКУЩИЙ=1
DISK_info_end:/usr/var У меня есть переменная как ... 
                            

                                                        
                                19 
                                 Как сохранить только последние n строк файла журнала?  28.09.2016 
                                 Написанный мной сценарий что-то делает и, в конце, добавляет несколько строк в свой файл журнала. Я хотел бы сохранить только последние n строк (скажем, 1000 строк) файла журнала. Это можно сделать в конце ... 
                            

                                                        
                                6 
                                Есть ли более надежный способ отредактировать совпадающий шаблон, а затем заменить его?  06.08.2020 
                                Есть ли способ отредактировать совпадающий шаблон, а затем заменить другой шаблон отредактированным шаблоном? Вход :а11.т какой-то текст здесь а06.т некоторый текст здесь Вывод :а11.т 11 какой-то текст здесь а06.т 06 какой-то текст... 
                            

                                                        
                                1 
                                sed: сопоставить шаблон и после этого заменить каждое вхождение другого шаблона 25.01.2020 
                                Предположим, что у меня есть aaaaabaaaaa, и предположим, что a может быть произвольным шаблоном, аналогично для b. Я сопоставляю образец для aaaaaab, затем заменяю все aaaaa после b на b, но ни один из a...
                            

                                                        
                                6 
                                Сопоставьте 4 столбца и замените 1 в 2 файлах 23.08.2019 
                                У меня есть 2 файла, и столбец 1 файла 1 должен заменить столбец 2 файла 2 после столбца 2,3,4-5 или 5-4 (крест -match) файла 1 совпадает со столбцом 1,4,5-6 или 6-5 файла 2. файл 1 SNP Chr...

cherdt · Accepted Answer · 28.01.2020, 01:00

paste -d '' - -



 Чтобы получить количество произведенных биграмм: 

 paste -d '' - - 


 Однако этот метод исключает половину биграмм. Например, если ваш входной файл: 

alpha
beta
gamma
alpha
beta
gamma


 Биграммы будут включать строки 1-2, строки 3-4 и строки 5-6, но не строки 2-3 и 3-4. 

 Один из возможных способов решения этой проблемы - создать копию входного файла и добавить не-слово в начало (например, '#'), а затем отфильтровать результат, содержащий не-слово: 

 cat <(paste -d '' - -