Как вычислить медиану для нескольких разделенных файлов, созданных из одного большого файла

С одинарнымawk:

awk -F'[:,]' '{$3=$2":"$3}1' OFS=, infile
AAA, BBB, BBB:XXX, CCC, DDD, EEE, FFF, GGG, HHH
0
30.05.2021, 13:21
2 ответа
 #!/usr/bin/R

 files <- list.files(pattern = "test.split*")

 for (i in 1:length(files)){
 data <- read.table(files[i], header=F, row.names = 1)
 M <- apply(data, 1, median) 
 write.table(M, paste0("Median_", files[i]), quote=FALSE, sep="\t", 
 row.names=TRUE)
 }
q()
0
28.07.2021, 11:28

«Медиана — это середина, центр или точка посередине группы чисел. Когда вы упорядочиваете набор чисел от низшего к высшему, медианой является число, находящееся прямо посередине. Пятьдесят процентов значений в наборе происходят ниже медианы, а 50% выше медианы».

Поэтому не используйте R -, просто отсортируйте большой файл, значение наполовину является медианным значением.

1
28.07.2021, 11:28

Теги

Похожие вопросы