bioinformatics - лучшие вопросы о Unix / linux операционная система (юникс)

2

ответа

Как узнать, содержит ли столбец строку?

У меня есть файл, который выглядит примерно так, как показано ниже. SNP Бета A1 A2 P рс124 -0,5 Т С 0,11 rs534 0,22 А Г 0,245 rs199 1,32 Г С 0,345 рс947 -0,07 ТГ 0,00002 рс667 0,37 С Т 0,04 .... Есть 23640021 ...

24.02.2020

2

ответа

Как выбрать строки файла на основе нескольких условий другого файла?

У меня есть 2 набора генетических данных. Я фильтрую файл1 на основе столбца в файле2. Однако мне также нужно учитывать второй столбец в файле2, и я не знаю, как это сделать. Условие для файла 1 строка...

awk bioinformatics linux

07.02.2020

2

ответа

awk удаляет число после запятой

У меня есть входной файл с этими полями: ENST00000456328.2 1657 1350.015 0 0 Я пытаюсь awk удалить число после запятой и распечатать остальное как это awk -F[.] '{print $1"\t"$2"\...

awk bioinformatics text-processing

03.01.2020

2

ответа

Bash "Объединить" с двумя столбцами

У меня есть два файла: 1_file.txt: ChrX 129759713 А Г ЧрХ 129760010 С Т ChrX 129762238 C G ChrX 129762448 А Г ChrX 129762803 А С ChrX 129763441 C А ChrX 129764931 Т С ChrX 129767696 C T ChrX 129818213 C ...

bioinformatics command-line join

12.12.2019

2

ответа

Сравнение двух tsv-файлов

Я пытаюсь сравнить два tsv-файла. Запрашиваемый файл (file1) выглядит так: Chr Start End чр1 234738546 234738934 чр1 234792654 234793537 чр1 234908151 234908864 chr1 ...

awk bioinformatics shell-script

25.11.2019

2

ответа

Цикл для запуска программы с использованием нескольких файлов из разных каталогов

Итак, я пытаюсь запустить программу iRep, и обычно она работает как iRep -f Bins/10000A-01-01_bin.* -s sam/10000A- 01-01.sam.sorted.sam --sort -o 10000A-01-01_iRep_output в папке sam - 10000A-01-01.sam....

bioinformatics for shell-script

23.09.2019

2

ответа

Извлечение столбцов из файла Fasta в Linux

У меня есть файл fasta, который выглядит следующим образом: >ENST00000632684.1 кДНК хромосома:GRCh38:7:142786213:142786224:1 ген:ENSG00000282431.1 ген_биотип:TR_D_ген транскрипт_биотип:TR_D_ген ген_символ :...

bioinformatics linux text-formatting

19.09.2019

2

ответа

Замена переменными awk

По сути, мне нужно сделать копию и подстановку $1 (после катинга файла) в переменную примера, чтобы заменить ее по адресу /disk1/ ngsep/"$sample"/"$1"_bowtie2_readpos.stats. Это мой...

awk bioinformatics text-processing

31.08.2019

2

ответа

Как с помощью grep извлечь предыдущие n символов из файла

Я пытаюсь извлечь некоторые данные из файла с помощью grep. Это файл ДНК fasta, содержащий такие строки, как: ATCGTAGCTAGCATCGTATCGATGCTGCTATGCTAGATGCTAGT Мне нужно найти каждую TA и 20 ...

bioinformatics grep

30.08.2019

2

ответа

извлечение количества организмов с их соответствующим идентификатором?

У меня есть файл со многими столбцами, например: ID1 XP_026389348.1_стеароил-[ацил-носитель-белок]_9-десатураза,_хлоропласт_[Papaver_somniferum] ID2 XP_026389348.1_stearoyl-[ацил-носитель-белок]_9-...

bash bioinformatics shell ubuntu

30.08.2019

2

ответа

сравнить столбцы из двух разных файлов и НАПЕЧАТАТЬ ЗАПИСИ ИЗ ПЕРВОГО ФАЙЛА те, которые НЕ совпадают из второго файла

Я хотел бы сравнить столбцы из первого и второго файлов. Где столбец 2 файла1 должен не соответствовать столбцу 1 или 2 из файла2 и печатать вывод из файла 1. файл1. cat test.head20.R2.fastq.tab @...

awk bioinformatics perl python text-processing

28.08.2019

2

ответа

Удалить все, что не в скобках

Я хочу удалить все, что не в скобках, включая скобки, только в строках, начинающихся с ">". Есть ли альтернатива sed? Кроме того, хотелось бы отсортировать строки в алфавитном порядке по...

bioinformatics text-formatting

07.08.2019

2

ответа

Извлечь совпадение и все до следующего совпадения, сделать это для каждого совпадения

У меня есть файл со следующей структурой: >Кластер 0 0 51aa, >MG00HS05:520:C8M1TACXX:3:1101:1428:2080/1... * 1 51aa, >MG00HS05:520:C8M1TACXX:3:1101:1658:2480/1... в 3:51:1:49/96,08% 2 ...

bioinformatics pattern-matching text-processing

26.07.2019

2

ответа

перенаправление вывода `ls` на другую команду с помощью xargs

В каталоге, над которым я работаю, у меня есть два файла с расширением .sam: PD180425_aligned_minimap.sam PD180793_aligned_minimap.sam Для каждого из этих двух файлов мне нужно применить команду, которая выглядит...

bioinformatics io-redirection pipe xargs

26.07.2019

2

ответа

Как транспонировать несколько текстовых файлов?

У меня есть 1775 файлов .txt, и каждый файл .txt содержит 3023 строки, которые выглядят так: RIBBY_g_5ZCV995_BI_SNP_D04_38774.CEL FQC-10090295 0,007813 FQC-10119363 0,023438 FQC-10132112 ...

awk bioinformatics sed text-processing

25.07.2019

2

ответа

Канал вывода Awk как аргумент в цикле

У меня есть несколько файлов для разбора и использования вывода в качестве аргумента второй программы, которую я использую: for file in ./*.vcf.gz; do echo "gunzip -c ${file} | awk 'BEGIN{FS=OFS=\"\t\"} NR == FNR{key[\$1]=\$...

awk bash bioinformatics shell-script

12.07.2019

2

ответа

Как заменить все значения (все NA) в столбце на числовую часть имени файла?

У меня есть несколько (22) файлов с такими именами: chr1.out, chr2.out...,chr22.out каждый из этих файлов имеет 46 столбцов и несколько строк. Первые 6 столбцов и 6 строк в одном из этих файлов выглядят...

awk bioinformatics command-line sed text-processing

05.06.2019

2

ответа

Найти разные строки между двумя файлами без сортировки

У меня есть два файла, файл1 является подмножеством файла2, что означает, что все строки в файле1 можно найти в файле2, но некоторые строки в файле2 отсутствуют в файле1. Теперь я хочу найти разные строки (или дополнительные строки)...

bioinformatics linux text-processing

31.05.2019

2

ответа

заменить заголовок в файле списком строк в другом файле

У меня есть файл fasta, содержащий последовательность ~ 28000. Я хочу заменить заголовок этих последовательностей списком строк в другом файле. Пример: Файл 1: sp | B7UM99 | TIR_ECO27 { {1}} MPIGNLGN NVNGNHLIPPAPP ..... sp | ...

text-processing bioinformatics

11.05.2019

2

ответа

как найти последовательности fasta, если строка заголовка совпадает с другим файлом

У меня есть файл строк заголовков (файл 1), а другой файл содержит последовательности в формате fasta (файл 2). Мне нужны последовательности grep fasta, если строка заголовка из файла 1 совпадает с файлом 2. Пример: Файл 1: >sp|...

bioinformatics linux text-processing

09.05.2019

2

ответа

Как найти все строки из одного файла в определенном столбце в нескольких других файлах?

У меня есть один файл: comb.txt, например: GO_GLUTAMINE_FAMILY_AMINO_ACID_METABOLIC_PROCESS REACTOME_APC_CDC20_MEDIATED_DEGRADATION_PROCESS_A_DEGRADATION_PROCESS_A_MEDIATED_DEGRADATION_OF } RB_DN.V1_UP ...

text-processing command-line grep bioinformatics

17.04.2019

2

ответа

Найти, сколько раз возникает определенная базовая последовательность ДНК в файле

. Назначение состоит в том, чтобы написать скрипт Bash с именем «Countmatches», которые отображают количество раз определенной последовательности, такую как AAC, появляется в указанном файл. Сценарий должен ожидать, по крайней мере, два ...

text-processing scripting bioinformatics

14.10.2018

2

ответа

Очистка базы данных генов, загрязненные неминовыми символами, за исключением значков Plus и минус

У меня есть эта база данных генов, которая полностью запутана дополнительными неинтекторными значениями. Это произошло как своего рода шифрование к данным, которые были сделаны неправильно, и я не знаю, как убирать ...

text-processing awk sed bioinformatics

07.10.2018

2

ответа

Перенаправление se d соответствует отдельным файлам

У меня есть файл, содержащий список имен последовательностей ДНК, а другой файл содержит последовательности ДНК. Они выглядят так: $ cat list.txt seq1 seq3 $ cat sequence.txt > seq1 AAAAA AAAAA > seq2 CCCCCC ...

linux text-processing sed bioinformatics

08.06.2018

2

ответа

Как объединить файлы RNA-seq, сгенерированные на разных дорожках

У меня есть очень большие файлы RNA-seq, сгенерированные на разных дорожках. Я извлек несколько имен файлов, как показано ниже. MC9_FNEN_638A_S19_L008_R1_001.fastq.gz MC9_FNEN_638A_S19_L008_R2_001.fastq.gz ...

bioinformatics linux

12.04.2018

2

ответа

как распечатать комплементарную цепь из входной цепи

У меня проблема с печатью комплементарной цепи ДНК также с обратной Я хочу получить такой результат. Введите последовательность ДНК цепи шаблона: GTAAGCCGGAAGG Последовательность ДНК антисмысловой цепи ...

text-processing bioinformatics

04.03.2018

2

ответа

как сопоставить snps с файлом ref гена

У меня есть следующий набор данных о snps ID POS ID 78599583 rs987435 33395779 rs345783 189807684 rs955894 33907909 rs6088791 756680435 ... rs11

bioinformatics linux text-processing

06.10.2017

2

ответа

Извлечь строки, содержащие шаблон

Я хочу извлечь все строки в файле, содержащие эти шаблоны: «# 1:» и «длина дерева для». Вход: # 1: nexus0002_Pseudomonas_10M branch t N S dN / dS dN ...

bioinformatics sed text-processing

19.08.2017

2

ответа

Использование Uniq -c с регулярным выражением или подсчет количества удаленных строк

У меня есть файл с разделителями табуляции, в котором содержится информация о генетическом материале. Часть информации вырезается в меньший файл tab с извлечением некоторых столбцов, и используется uniq, чтобы убедиться, что в нем нет...

bioinformatics regular-expression text-processing uniq

03.08.2017

2

ответа

Выполнение команды с несколькими входами для многих файлов

Мне нужно запустить программу, используя 2 файла в качестве входных данных, ожидая, что 1 выход будет иметь 6000 файлов в диапазоне от abc0000.faa / abc0000. fna на abc6000.faa / abc6000.fna. Мне также нужно, чтобы в выходном файле был такой же файл ...

bioinformatics files scripting shell-script

03.07.2017