Проект июльской смены Сириус 2016, направление Big Data, команда "Исправление последовательностей антител"
Найти сбивку рамки считывания и исправить последовательность
- Если на вход подается файл из прочтения Illumina, то программа сливает два прочтения последовательностей ДНК - прямое и обратное.
- Классификация последовательностей на good, bad, trash, в good хранятся последовательности, в которых нашлись все четыре FR региона, в bad - последовательности, в которых наелся хотябы один FR-регион, в trash - все остальное.
- Эвристика: класс Bad разделяется на new_bad и new_good, классификация происхоит за счет нахождения FR1 или FR4-регионов, если все остальные FR-регионы уже нашлись.
- Разделение на семейства в зависимости от совпадения FR-регионов.
- Класс bad исправлятся с помощью скрытых Марковских моделей и востанавливает наиболее вероятную последовательнось, обучаясь на классе good.
- Создана презентация всего проекта.
- Все загружено на Github.
- Алёхин Сергей
- Башарин Артём
- Григорян Олег
- Деб Натх Максим
- Калугин Владислав
- Семёнова-Звенигородская София
- Терехова Алина
- Тимонина Мария
- Туркин Игорь
- Федорова Ирина
- Харёв Павел