bioinformatics - лучшие вопросы о Unix / linux операционная система (юникс)

3

ответа

Bash - Фильтрация строк с определенной долей занятых столбцов

Итак, у меня есть большое количество файлов, каждый из которых имеет 8 столбцов и множество строк. Вот голова от одного из них для примера. ID Ct 1 2 3 4 5 ...

24.01.2020

3

ответа

Как заменить строки в заданном столбце таблицы с помощью awk и regex?

Я изучаю биоинформатику, но у меня нет большого опыта работы с awk, и теперь я застрял. У меня есть таблица с 13 столбцами. В столбце 9 у меня есть много вариантов строк, таких как ELL1-XXXXXXXXX (например, ...

awk bioinformatics

26.12.2019

3

ответа

Мне нужно напечатать вторую строку для каждого запроса в другом файле

Я хочу извлечь идентификаторы совпадений и отсутствия совпадений из результатов моего взрыва. например, мой взрывной вывод содержит: > Query= TRINITY_DN109574_c0_g1_i1 Length=277 ***** Хиты не найдены ***** Lambda K ...

bioinformatics text-processing

27.10.2019

3

ответа

Попытка написать сценарий для поиска ORF из 6 разных кадров

Итак, в основном, у вас есть последовательность, скажем, AAAGCATATGCTAGCCCGTATAGCGATACTAGCTATACGATATATATGATCAATGCCCGTATAG. Вам нужно найти все ORF в последовательности, ORF это любая область, начинающаяся с ATG...

bioinformatics command-line regular-expression

14.10.2019

3

ответа

Как создать массив подстрок

Допустим, у меня есть переменная, последовательность, которая является строкой. > sequence="AAAGCATATGCTAGCCCGTATAGCGATACTAGCTATACGATATATATGATCAATGCCCGTATAG" Я хочу создать массив, скажем, seq, в котором каждый элемент представляет собой 3...

bioinformatics

14.10.2019

3

ответа

Как сравнить столбцы 2 и 3 файла 1 и столбцы 4 и 5 файла 2

У меня есть файл 1 с разделителями табуляцией: NC_025345 4569 4950 KX838946.2 NC_025345 16546 17066 KJ641660. 1 NC_025345 11996 12085 KX932454.2 И файл 2: NC_025345.1 ...

awk bioinformatics python text-processing

13.09.2019

3

ответа

регулярное выражение из двух файлов

У меня есть два файла, состоящих из блоков по 4 строки, начинающихся с @. Они совпадают и по порядку. Файлы слишком большие (> 10 ГБ), поэтому я помещаю сюда первые 3 блока каждого (12 строк). 1-й: ...

bioinformatics paste regular-expression text-processing

30.08.2019

3

ответа

Подсчет столбцов в файле с табличным форматом

У меня есть файл с табличным форматом, который выглядит примерно так: abc00000000 1 643301 643374 Ile AAT 0 0 80.6 abc00000000 2 1278112 1278193 Ser GCT 0 0 86.2 abc00000000 ...

awk bioinformatics columns text-processing

29.07.2019

3

ответа

Преобразование циклов for в сценарии, который вызывается другим сценарием, в параллельные команды GNU.

В настоящее время у меня есть следующий сценарий для использования программы HaploTypeCaller в моей системе Unix в созданной мной воспроизводимой среде: #!/bin/bash #параллельный вызов SNP с хромосомами по GATK for i in ...

bioinformatics gnu-parallel not-root-user parallelism scripting

12.07.2019

3

ответа

Исправление заголовки файлов биоинформатики phylip, чтобы точно отражать обновленное количество образцов в файле (ах)

. У меня есть набор данных, с которым я работаю, состоящий из файлов phylip, которые я редактировал. Формат Phylip - это биоинформатический формат, который содержит в качестве заголовка количество образцов и последовательность ...

text-processing bioinformatics wc

16.05.2019

3

ответа

извлечение информации из столбца [закрыто]

У меня есть файл, который выглядит так: chr1 HAVANA exon 12613 12721 . + . ген_ид "ENSG00000223972.5"; транскрипт_id "ENST00000456328.2"; ген_тип "транскрибированный_необработанный_псевдоген";...

awk bioinformatics sed text-processing

11.09.2018

3

ответа

Линейное сравнение двух файлов, и если образец файла 1 не найден (полностью или частично) в файле 2, то напечатайте строку файла 1

У меня есть два файла: file1 (поиск): 1 GACGGAGGATGCAAGTGTTATCCGGAATCACTGGGCGTAAAGTGATTTTTTGATGATGATGACGACGACTGACTGACGACGACGACTGACTGACGACGACTGACTGACGACGACCC ...

awk grep bioinformatics file-comparison pattern-matching

12.03.2018

3

ответа

способ выбрать строки то шоу изменения

У меня есть огромный файл, который содержит 80 геномов и пять хромосом. Я задавался вопросом, существует простой способ выбрать только строки из ОДНОЙ хромосомы (например, 1), но только при показе положения...

text-processing bioinformatics

06.10.2017

3

ответа

Перестановка строк в числовом порядке

У меня есть несколько таких текстовых файлов:> nexus0013_Pseudomonas_59M ...

bash bioinformatics scripting text-formatting

11.08.2017

3

ответа

Удалить кусок строк в соответствии с серийными номерами

Я работаю с файлами fastq из данных секвенирования следующего поколения, которые организованы следующим образом: Строка 1 информация о машине для секвенирования, полоса, "плитки" и номер чтения Строка 2 ...

awk bioinformatics sed text-processing

17.06.2017

3

ответа

объединение двух файлов по общему столбцу

У меня есть 2 файла. Файл1: chr19 4124051 4124250 1 chrX 154458151 154458200 2 chr22 37019451 37019600 3 chr15 74995401 74995550 4 chr12 128823901 128824100 5 и Файл2 ...

awk bioinformatics join text-processing

07.06.2017

3

ответа

Поиск различных возможных комбинаций

Файл A содержит ряды генов: A,B,C,D,E P,Q,R G,D,V,K L,Q,X,I,U,G и так далее. Рассматривая каждый ряд по очереди, как можно получить следующий вид вывода: Для первого ряда: A,B,C B,C,D ...

bioinformatics files perl python text-processing

30.05.2017

3

ответа

Возьмите первые 10 символов строк в файле fastq

Я пытаюсь выбрать из файла fastq только первые 10 нуклеотидов чтения: Вход: @RONSP: 03887: 07268 ...

awk bioinformatics sed text-processing

24.02.2017

3

ответа

Преобразование матрицы с размерностью (nxn) в матрицу с комбинацией строка*столбец

Думаю, это будет более наглядным примером. У меня есть такая структура матрицы (файла): Файл1 ____ snp1 snp2 snp3 snp4 snp1 1 0.3 0.4 0.5 snp2 0.3 1 0.4 0.5 snp3 0.4 0.4 ...

bioinformatics ubuntu

08.08.2016

3

ответа

соответствуйте всего одной строке в двух файлах и возвратите целый столбец из файла 2

Если у меня есть два файла file1: Исходное положение 905894 1197693 3703749 92108275 114940633 114 940 633 file2: Отображение Ссылочной Связи Аллели Длины Типа Исходного положения количество Zygosity...

linux file-management bioinformatics

09.09.2014

2

ответа

как вывести имя файла и общее количество последовательностей fasta?

У меня есть файл fasta, а именно test.fasta, pas.fasta, cel.fasta, как показано ниже. тест.фаста >плитка АТГТС >259 ТГАТ пас.фаста >та АТГКТ чел.фаста >787 ТГТАГ >йог ТГТАТ >

bioinformatics python shell-script

05.09.2021

2

ответа

Как игнорировать часть имени файла

Извините, если этот вопрос уже задавали. Я новичок во всем этом. Я хотел бы объединить все файлы из разных папок, которые содержат R1 в определенной позиции в своих именах файлов. Мой...

bash bioinformatics files

30.06.2021

2

ответа

Сравните две последовательности ДНК

У меня есть две последовательности ДНК: ATGCATGC и TACGTTGC. Я хочу написать программу, которая дает «+», если при сравнении A выравнивается с T и G с C, иначе печатает «-» Нравится АТГКАТГК TACGTTGC ++++...

bioinformatics text-processing

10.04.2021

2

ответа

Я хотел бы получить имена целых заголовков, присутствующих в другом файле fasta

У меня есть такой фаст-файл :>TRINITY _DN100 _c0 _g1 _i1 len=242 path=[0 :0 -241]...

awk bioinformatics sed text-processing

07.04.2021

2

ответа

Запустите серию команд для нескольких файлов

У меня есть следующие файлы :ФК _014 _6361.bam ФК _014 _6462.бам FC _014 _6183.bam В настоящее время я запускаю следующие команды отдельно для каждого файла. Например, для FC _014 _6361.bam команды :$...

bash bioinformatics scripting

25.01.2021

2

ответа

сохранить строки с наибольшим диапазоном

У меня есть файл (fileA ), который выглядит так :>ENST00000614578.1 ген=WASP12 CDS=1 -526 >ENST00000581055.1 ген=PTP2 CDS=138 -579 >ENST00000577541.1 ген=PTP2 CDS=1 -81 >ENST00000423485.5 ген=...

bioinformatics text-processing

18.01.2021

2

ответа

Как использовать awk для сжатия столбцов по столбцу ID?

У меня есть код, который я обычно запускаю в R, но файл слишком большой, поэтому я пытаюсь запустить те же команды в awk. Я пытаюсь сгруппировать значения в столбцах по столбцу ID (или столбцу Gene в моем случае ). Мои данные...

awk bioinformatics text-processing

03.12.2020

2

ответа

Как отобразить разницу между двумя последовательностями ДНК с помощью инструментов командной строки

У меня следующая проблема :Мой техпаспорт выглядит так АААГГГТТ АААГГГ AAAGGGCCC GGGCCC, и я хочу отобразить разницу между двумя последовательностями в третьей строке, как это ААААГГТТТ...

bioinformatics shell-script text-processing

04.08.2020

2

ответа

Как добавить строку из имени файла, вставить ее в столбец и изменить?

Я создаю 22 файла с помощью следующей команды: user@host$ awk '{ print $1, $3, $4, $5 }' chr22.gen > snps22 user@host$ awk '{ print $1, $3, $4, $5}' chr21.gen > snps21 ... user@host$ awk '...

awk bioinformatics text-processing

28.04.2020

2

ответа

Как использовать awk для извлечения необходимых столбцов и создания нового файла?

У меня есть файлы gtf более чем в 100 каталогах. Ниже я показываю, как они выглядят. ОбразецА | ___________ОбразецA.GRCh38.gtf ОбразецB | ___________SampleB.GRCh38.gtf Здесь я показываю только два gtf...

awk bioinformatics cut linux

12.03.2020