sirius2016

Проект июльской смены Сириус 2016, направление Big Data, команда "Исправление последовательностей антител"

Задача

Найти сбивку рамки считывания и исправить последовательность

Если на вход подается файл из прочтения Illumina, то программа сливает два прочтения последовательностей ДНК - прямое и обратное.
Классификация последовательностей на good, bad, trash, в good хранятся последовательности, в которых нашлись все четыре FR региона, в bad - последовательности, в которых наелся хотябы один FR-регион, в trash - все остальное.
Эвристика: класс Bad разделяется на new_bad и new_good, классификация происхоит за счет нахождения FR1 или FR4-регионов, если все остальные FR-регионы уже нашлись.
Разделение на семейства в зависимости от совпадения FR-регионов.
Класс bad исправлятся с помощью скрытых Марковских моделей и востанавливает наиболее вероятную последовательнось, обучаясь на классе good.
Создана презентация всего проекта.
Все загружено на Github.

Name		Name	Last commit message	Last commit date
Latest commit History 59 Commits
germlines		germlines
scripts		scripts
DESCRIPTION.md		DESCRIPTION.md
README.md		README.md