Как фильтровать многострочные файлы с помощью awk, grep и/или powershell

Question

Как фильтровать многострочные файлы с помощью awk, grep и/или powershell

Что не работает

Bash не поддерживает многопоточный параллелизм, только многопроцессорный параллелизм -.

В Bash нет возможности запустить цикл for (или канал, если уж на то пошло )в фоновом режиме, не порождая дочерний процесс. Меня удивляет, что процессов bash 20, а не 21.

Я ничего не знаю о Cygwin.

Альтернативы

Если вы немного знакомы с Python, я предлагаю вам использовать библиотеку Plumbum для выполнения вашего вызова. Python поддерживает многопоточность, и это все упростит.

Вот ваш код, переписанный и протестированный:

from datetime import datetime
import json
import random
from plumbum import cmd as c
from threading import Thread

def now():
    return datetime.now().strftime("%Y-%m-%d %H_%M_%S")

logdir = f"~/curl_result_{now()}"

def curl(threadno, reqno):
    args1 = "--verbose -sS http://dummy.restapiexample.com/api/v1/create --trace-ascii".split()
    args2 = [f"{logdir}_{threadno}_{reqno}", "-d", "@-"]
    content = json.dumps({
        "name": f"{logdir}/trace_{threadno}_{reqno}_{now()}",
        "salary": random.randrange(100_000),
        "age": random.randrange(100_000),
    })
    call = c.echo[content] | c.curl[(*args1, *args2)] >> f"{logdir}/response_{threadno}"
    print(call)
    # call()

def curl_batch(threadno):
    for reqno in range(20):
        curl(threadno, reqno)

# Start 20 threads
threadList = []
for threadno in range(20):
    t = Thread(target=curl_batch, args=(threadno,))
    t.start()
    threadList.append(t)

# Wait for every thread
for thread in threadList:
    thread.join()

Наслаждайтесь гибкостью Python;)

0

awk grep powershell xml

volitank 18.04.2021, 23:48

Ссылка

1 ответ

Теги

awk grep powershell xml

Похожие вопросы

3
Как получить данные новой строки при захвате ключевого слова? 04.08.2019
У меня есть файл, который содержит приведенную ниже примерную строку с общим ключевым словом P00001121 в каждой строке. [H00,P00001121] КАНАЛ__OPEN:TCP_ADDRESS='10.32.130.202' TCP_PORT='80'" [H00,P00001121] COMMS_QUEUING:...

6
grep -v: Как исключить только первые (или последние) N совпадающих строк? 14.10.2017
Иногда в табличных данных, таких как имя столбца | другое имя столбца ------------------------------- Я обычно предпочитаю удалять строки мусора, которые не должны '...

1
Как получить данные в квадратных скобках? 24.06.2019
У меня в файле .log есть данные следующего типа: Cell[BoxData["0.8693473380926441`"] Ячейка[BoxData["100.40266203596555`"] Ячейка[BoxData["23.338724857049048`"] Ячейка[BoxData["0.25720321805387686`"] Ячейка[...

2
Сравнение и выборка слов в двух столбцах разных файлов 26.09.2021
Я хочу сравнить два разных столбца разных файлов и получить среди них общие записи :файл1 азбука 123 ттт ккк файл2 111 ср 222 года 333 ттт 444 ккк Я хочу сравнить столбец 1 файла1 со столбцом 2 файла2. Если есть общие записи

0
Извлечение строки с помощью grep regex assertions 29.06.2017
Предположим, есть текстовая строка my_string $ my_string="foo bar=1ab baz=222;" Я хотел бы извлечь буквенно-цифровую строку между ключевым словом baz и запятой. Как я должен изменить следующий grep ...

-1
Поиск строки в текстовом файле и добавление аргументов во 2-й строке после совпадения 21.12.2020
У меня есть файл, содержащий приведенный ниже текст, в системе Linux. Мне нужно найти строку заголовка AHS -abc Linux Servers, используя sed или awk, а затем добавить новую запись во 2-й строке после совпадения. ##...

3
Объединение записей на основе столбца с помощью awk / join 07.03.2018
У меня есть два файла, разделенных вертикальной чертой, и в обоих могут быть совпадения столбец 1 + столбец 2, или один файл может иметь запись, а другой - нет. Предположим, что мой ключ совпадения, который я выхожу, равен $ 1 "-" $ 2 ...

Kusalananda · Answer 1 · 28.04.2021, 22:52

При наличии исходного файла , следующее удалит все заголовки, в которых не упоминается (USA)в атрибуте namenameузла заголовка rom:

xmlstarlet ed -d '//game[not(contains(rom/@name, "(USA)"))]' file-orig.xml >file-new.xml

Выражение XPath //game[not(contains(rom/@name, "(USA)"))]выбирает все gameузлы, у которых есть хотя бы один romподузел -с атрибутом name, который не содержит строку (USA). Они выбраны для удаления.

Вывод записывается в новый файл с использованием перенаправления в командной строке.

Посмотрев некоторое время на XML-данные, я заметил, что вместо того, чтобы смотреть на romузлы,кажется, достаточно посмотреть атрибут nameосновного gameузла:

xmlstarlet ed -d '//game[not(contains(@name, "(USA)"))]' file-orig.xml >file-new.xml

Удаляются все игры, не содержащие (USA)в атрибуте nameузла game.

Файл, который я скачал, будет содержать 1979 заголовков после удаления всех заголовков, отличных от -(USA).

Чтобы дополнительно отфильтровать все не-Gamesкатегории:

xmlstarlet ed \
    -d '//game[not(contains(@name, "(USA)"))]' \
    -d '//game[category != "Games"]' file-orig.xml >file-new.xml

Остается 1474 названия игр.

Просто для удовольствия, чтобы отсортировать названия игр по их общему размеру:

xmlstarlet ed \
    -d '//game[not(contains(@name, "(USA)"))]' \
    -d '//game[category != "Games"]' file-orig.xml |
xmlstarlet sel -t -m '//game' \
    -v 'sum(rom/@size)' -o ' ' -v '@name' -nl | sort -n