Проект состоит из нескольких скриптов, описание каждого из которых будет приведено ниже:
- Splitting
- Classification
- Illumina merge
- fastq2fasta
- Heuristics
- Multialignment
- HMM
Программа получает на вход fasta-файл и выходную директорию, а затем разделяет полученный на вход файл на несколько файлов фиксированной длины. Ключи программы:
--in_file
(полный путь до входного файла)
--out_dir
(полный путь до папки, куда скрипт перепишет полученные файлы)--len_spl
(длина последовательностей, на которые программа разобъёт входной файл)
Программа получает на вход файл, а также тип цепи иммуноглобулинов, которые должны лежать в данном файле - LC (light cahin) или HC (heavy chain). Программа для каждой последовательности файла перебирает все шесть типов сбивки рамки считывания - на 0, 1, 2 для каждого из двух прочтений - прямого и обратного. Если программа находит каком-то смещении все четыре FR региона при транслировании последовательности в аминокислоты, то она записывает её в файл good, если 2-3 FR - региона совпали, то отправляет в файл bad, иначе - в файл trash. Ключи программы:
--in_file
(полный путь до входного файла)
--out_dir
(полный путь до папки, куда скрипт перепишет полученные файлы)--path_germlines
(полный путь до папки с FR - регионами)--is_heavy
(1 если обрабатываемый файл содержит LC иначе - 0)
Ниже привожу описание формата выходного файла: ###Файл good Файл содержит 12 столбцов: Номер последовательности, сама нуклеотидная последовательность, затем 4 названия регионов, которые программа нашла во входной последовательности, затем 4 пары индексов в аминокислотной последовательности - первого элемента и последнего элемента всех четырёх FR регионов, затем два числа - первое описывает то, какой сдвиг надо сделать, чтобы получить аминокислотную последовательность, а второе имеет 1, если требуется прменить reverse_compliment() к нуклеотиной последовательности, иначе - 0.
###Файл bad Имеет все те же поля, что и файл good, но регионы, не нашедшие в последовательности совпадений имеют вместо названий и индексов символ ".".
###Файл trash Просто содержит массив имён строк, не нашедших в себе хотя бы двух FR регионах при всех шести смещениях.
Программа сливает два прочтения в обе строны ДНК-последовательности технологией "Illumina", а затем делит ех на блоки по 50000 прочтений. Ключи программы:
--in1
(полный путь до первого входного файла)
--in2
(полный путь до второго входного файла)--out_dir
(полный путь до выходной папки)
Программа переводит все fastq файлы входной директории в fasta файлы.
--in_dir
(полный путь до входной папки)
--out_dir
(полный путь до выходной папки)
Программа берет файлы из класса bad и разделяет их по двум новым классам new_good и new_bad, в которых будут лежать последовательности в формате csv. На вход нужно подать файл, содержащий класс bad и директории папок, куда программа будет складывать новые разделения.
--file_in
(полный путь до входного файла, то есть до класса bad)
--file_out_b
(полный путь до папки, в которой будут лежать новые new_bad)--file_out_g
(полный путь до папки, в которой будут лежать новые new_good)--file_in_fr
(полный путь до папки, где лежат все FR)