7
ответов

Извлечь подпоследовательность, соответствующую n:th шаблону из файла

У меня есть ниже блоки данных (несколько) chr1.trna4 (17188416-17188486) Длина: 71 п.н. Тип: Gly Антикодон: CCC в 33-35 (17188448-17188450) Оценка: 78,3 HMM Sc=56.60 Sec struct Sc=21.70 * ...
28.11.2019
7
ответов

Самый простой способ извлечь часть строки?

У меня есть файл (bigfile.txt), один из столбцов выглядит так: NW_017095471.1 Gnomon mRNA 108321 109565 . + . ID=rna34;Parent=gene27;Dbxref=GeneID:108565285,Genbank:XM_017925071.1;...
11.07.2019
6
ответов

Выполнение команды для многих файлов

У меня есть папка с множеством файлов (xyz1, xyz2, вплоть до xyz5025), и мне нужно запустить сценарий для каждого из них, получив в качестве выходных данных xyz1.faa, xyz2.faa и т. д. Команда для одного ...
03.07.2017
5
ответов

Перебор выходных данных awk

У меня есть ряд строк. Они состоят из меньших строк, помеченных как «узлы», иногда сами по себе, иногда соединенных символами :или,. Я хотел бы разделить большие строки ('заголовки' )...
09.07.2020
5
ответов

AWK для замены символов в строках, не начинающихся с ">"

Я работаю с данными последовательности и не могу найти правильный способ замены "." на «X» в строках, не начинающихся с «>», используя awk. Мне действительно нужно использовать awk, а не sed. Я зашел так далеко, но...
28.04.2020
5
ответов

Как отфильтровать столбец в TSV-файле с миллиардами строк

Я работаю со списком с миллиардами строк данных. У меня есть такие данные: Как вы видите, в четвертом столбце (столбец генов) есть имена генов, но не во всех строках есть «имя гена». Мне нужно получить...
10.03.2020
5
ответов

Как я могу скопировать строки из нескольких файлов в один файл и назвать строки как исходное имя файла

Мой вопрос: у меня есть 200 файлов в формате фата. Например: /User/Bin/bin.0.fa /User/Bin/bin.1.fa ... /User/Bin/bin.200.fa Каждый файл .fa содержит идентификатор имени контига и нуклеотидные символы..
10.01.2020
5
ответов

Объединить данные файла, отсортировать по хромосоме, расположить рядом друг с другом - тиски столбца

У меня есть несколько файлов в формате: значение позиции chr. Я хочу объединить их в формате "chr", "position", "samp1", "samp2", "samp3", "samp4",........ Например: Samp1: значение позиции chr 1 ...
09.11.2019
5
ответов

Преобразовать столбцы, которые имеют совпадение, в строку

У меня есть файл со следующей структурой: Locus7625186 GO0004866 Локус7625186 GO0010951 Локус7625186 GO0005615 Локус7625186 GO0016021 Локус7360093 GO0004712 Локус7360093 GO0007093 Locus1507198 ...
18.09.2019
5
ответов

Удаление строк, содержащих NA в каждом столбце

У меня есть файл с разделителями табуляции, который выглядит следующим образом: ген v1 v2 v3 v4 g1 НП НП НП НП g2 НП НП 2 3 g3 NA NA NA NA g4 1 2 3 2 Количество полей в каждой строке фиксировано и ...
17.09.2019
5
ответов

Сохранение символов между двумя определенными символами в заголовках fasta и удаление остальных

Я пытаюсь сохранить символы в заголовках fasta между первым и вторым двоеточием. Мне не удалось попробовать sed и awk, так как мои навыки кодирования очень ограничены. В: >...
13.09.2019
5
ответов

awk в операторе while

У меня есть следующие входные данные: cat moldata > разновидности_1 ????????? CACTTGGArGGTGGAGCCAAGAAGGTTATTATTTCTGCTCCCAGTGCTGACGCGCCCATGTACGTGGTC ...
29.01.2017
4
ответа

Grep для диапазона чисел

У меня есть файл.txt с несколькими строками, содержащими данные об аминокислотах и ​​остатках. Данные выглядят так :ARG262 -Боковая ASP368 -Боковая 140,83% ARG95 -Боковая GLU107 -Боковая 103,73% ARG474 -Боковой VAL468 -Основной 94,93%...
08.03.2021
4
ответа

разбить файл multifasta на разные файлы с новыми заголовками

Входной файл :131751 _pphA.fasta >ID :NDNDCOEC _02118 |[Родовой вид]|штамм|PANS _1 _2 _annot.gbk|pphA|855|УЗЕЛ _3 _длина _422941 _cov _112.146787422941 (422941 ):170566 -171420 :1 ^^ Род вид штамм штамм....
04.02.2021
4
ответа

Как случайным образом извлечь подстроку из 200 символов из фаста-файла

Есть ли какая-нибудь команда Linux, которую можно использовать для извлечения последовательности из файла? Например, файл содержит один миллион строк, и мы хотим случайным образом выбрать из него только последовательность из 200 символов...
03.12.2020
4
ответа

awk вырезает строки

Когда я запускаю приведенную ниже команду, она печатает всю строку, например. Note="Пептидаза S59%2C нуклеопорин" awk '$3=="мРНК"' Нитаб -v4.5 _ген _модели _Chr _Edwards2017.gff ​​| мРНК производителя Nt01 головы 143295...
26.05.2020
4
ответа

Я хочу заменить тексты в своем файле

Мой файл выглядит так: NODE_13_length_50291_cov_8.067223 GTTGCCTAATATCGCCAATCCAGCTCCT NODE_25_length_22118_cov_8.258986 TATCGCCAATCCAGCTCCT NODE_36_length_15273_cov_5.283743 TGCCTAATATCGCCAATCCAG I ...
29.03.2020
4
ответа

Извлечение данных на основе определенного шаблона в один столбец

У меня есть такой набор данных: AAACTGCAAGCGAGT-1,ENSG00000000419,DPM1,2 AAACTGCAAGCGAGT-1,ENSG00000001497,LAS1L,1 AAACTGCAAGCGAGT-1,ENSG00000002330,ПЛОХО,1 AAACTGCAAGCGAGT-1,ENSG00000002549,MT-CO3,2 ...
12.06.2019
4
ответа

изменять и управлять строками в файле с помощью awk

У меня есть файл в следующем формате> M03117: 162: 000000000-ATLWF: 1: 1114: 22047: 12565: 307 TCCGAAAGT-ACAACGTGT > M03117: 162: 000000000-ATLWF: 1: 2104: 9367: 8166: 307 TTCGAAAGTT-GGTGAGGTGTGGG > ...
20.08.2017
4
ответа

Удалить все после второго подчеркивания

Я хочу удалить весь текст после второго подчеркивания (включая само подчеркивание), но не в каждой строке. Каждая из целевых линий начинается с шаблона (> gi_). ПРИМЕР. Input> ...
12.06.2017
4
ответа

Как объединить два файла с другим количеством строк в оболочке?

У меня есть file1 как это: CHR ТЕСТОВЫЙ A1 A2 GENO SNP O (HET) E (HET) P 0 AFFX-SNP-000541 ВЕСЬ 0 0 0/0/0...
14.07.2015
4
ответа

Обнаружение общих строк в двух файлах с помощью 4 полей с помощью awk и UNIX

У меня есть 2 файла. Если поле 1, 2, 4 и 5 и file1 и соответствий file2, то я хочу распечатать целую строку file1 и file2 один за другим в моем выходном файле. File1: sc2/80 20...
06.02.2014
3
ответа

Как извлечь некоторые значения, попадающие в диапазон

У меня есть около 4500 строк вариаций аминокислот, которые выглядят так :S1437T H1266Y Т2662А E1397A E626K S1538T E3021K Вкратце, буквы, стоящие по бокам от цифр, представляют собой аминокислотные остатки, а цифры обозначают положение остатка
10.11.2021
3
ответа

Как добавить новый элемент в каждую строку файла

У меня есть файл с таким содержимым :ХРОМ _ПОЗ. чр10 _100009635 чр10 _100187980 чр10 _100229692 чр10 _100267650 чр10 _100269675 чр10 _100279430 чр10 _100285899 Я хочу добавить новый контент в этот файл, например :chrX -1
24.08.2021
3
ответа
3
ответа

sed :найти шаблон и заменить его другим шаблоном в той же строке

У меня есть файл с идентификатором гена _и именами генов в одной строке. Я хочу заменить слово после гена _id на слово после гена или после продукта или после ростка (, если некоторые из них пропущены ). Вот пример...
26.05.2021
3
ответа

извлекать данные из файла и манипулировать содержимым для записи в новый файл

У меня есть CSV-файл, из которого я извлекаю важные для меня данные. Это референсные номера с одной стороны и генетическая информация в виде букв G, A, T и C с другой. Контент CSV :1,...
24.12.2020
3
ответа

Подсчет символов в строке после первого результата grep, но удаление новой строки из подсчета

Проблема :У меня есть несколько текстовых файлов (.fas ), которые выглядят так :файл1.fas :>вид1 AICGICVIAGIAIYIAAICG >вид2 AICGIVVYICAGAYICAGCG file2.fas :>вид1 АИГ >вид2 GCI Я...
26.08.2020
3
ответа

Удалить и заменить все последовательности заголовков

любезно приветствуем ваш комментарий, чтобы последовательности заголовков размером более 4 КБ выглядели так: >LTR_retrotransposon100_Gypsy? cgtgcaccccaatgttcatagcagcactatttacaatagccaagacatggaaacaaccta ...
16.02.2020
3
ответа

Команда Unix fold ведет себя странно

Итак, у меня есть файл fasta (биологии), который выглядит так: >m64093_191209_130050/133911/ccs_64 TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCAGAACACCTGGTTTCACGACC ...
24.01.2020

Используйте этот тег для вопросов, касающихся общих задач биоинформатики, выполненных на *, отклоняют систему. Вещи как управление/преобразование между стандартными биологическими текстовыми форматами, извлекая данные интереса от таких форматов и т.д.

Еще нет никакого тега Wiki для этого тега …!

Справка wikis тега представляет вновь прибывших тегу. Они содержат обзор темы, определенной тегом, наряду с инструкциями по его использованию.

Все зарегистрированные пользователи могут предложить новый тег wikis.

(Обратите внимание, что, если у Вас есть меньше чем 20 000 репутаций, Ваш тег, Wiki будет одноранговым узлом, рассмотренным, прежде чем это будет опубликовано.)