Skip to content

Latest commit

 

History

History
61 lines (49 loc) · 5.56 KB

DESCRIPTION.md

File metadata and controls

61 lines (49 loc) · 5.56 KB

Содержание проекта

Проект состоит из нескольких скриптов, описание каждого из которых будет приведено ниже:

  • Splitting
  • Classification
  • Illumina merge
  • fastq2fasta
  • Heuristics
  • Multialignment
  • HMM

Splitting

Программа получает на вход fasta-файл и выходную директорию, а затем разделяет полученный на вход файл на несколько файлов фиксированной длины. Ключи программы:

  • --in_file (полный путь до входного файла)
  • --out_dir (полный путь до папки, куда скрипт перепишет полученные файлы)
  • --len_spl (длина последовательностей, на которые программа разобъёт входной файл)

Classification

Программа получает на вход файл, а также тип цепи иммуноглобулинов, которые должны лежать в данном файле - LC (light cahin) или HC (heavy chain). Программа для каждой последовательности файла перебирает все шесть типов сбивки рамки считывания - на 0, 1, 2 для каждого из двух прочтений - прямого и обратного. Если программа находит каком-то смещении все четыре FR региона при транслировании последовательности в аминокислоты, то она записывает её в файл good, если 2-3 FR - региона совпали, то отправляет в файл bad, иначе - в файл trash. Ключи программы:

  • --in_file (полный путь до входного файла)
  • --out_dir (полный путь до папки, куда скрипт перепишет полученные файлы)
  • --path_germlines (полный путь до папки с FR - регионами)
  • --is_heavy (1 если обрабатываемый файл содержит LC иначе - 0)

Ниже привожу описание формата выходного файла: ###Файл good Файл содержит 12 столбцов: Номер последовательности, сама нуклеотидная последовательность, затем 4 названия регионов, которые программа нашла во входной последовательности, затем 4 пары индексов в аминокислотной последовательности - первого элемента и последнего элемента всех четырёх FR регионов, затем два числа - первое описывает то, какой сдвиг надо сделать, чтобы получить аминокислотную последовательность, а второе имеет 1, если требуется прменить reverse_compliment() к нуклеотиной последовательности, иначе - 0.

###Файл bad Имеет все те же поля, что и файл good, но регионы, не нашедшие в последовательности совпадений имеют вместо названий и индексов символ ".".

###Файл trash Просто содержит массив имён строк, не нашедших в себе хотя бы двух FR регионах при всех шести смещениях.

Illumina merge

Программа сливает два прочтения в обе строны ДНК-последовательности технологией "Illumina", а затем делит ех на блоки по 50000 прочтений. Ключи программы:

  • --in1 (полный путь до первого входного файла)
  • --in2 (полный путь до второго входного файла)
  • --out_dir (полный путь до выходной папки)

fastq2fasta

Программа переводит все fastq файлы входной директории в fasta файлы.

  • --in_dir (полный путь до входной папки)
  • --out_dir (полный путь до выходной папки)

Heuristics

Программа берет файлы из класса bad и разделяет их по двум новым классам new_good и new_bad, в которых будут лежать последовательности в формате csv. На вход нужно подать файл, содержащий класс bad и директории папок, куда программа будет складывать новые разделения.

  • --file_in (полный путь до входного файла, то есть до класса bad)
  • --file_out_b (полный путь до папки, в которой будут лежать новые new_bad)
  • --file_out_g (полный путь до папки, в которой будут лежать новые new_good)
  • --file_in_fr (полный путь до папки, где лежат все FR)