Skip to content

Latest commit

 

History

History
36 lines (22 loc) · 3.35 KB

README.md

File metadata and controls

36 lines (22 loc) · 3.35 KB

M2.880 · TFM · Área 3 aula 1

2021-2 · Máster universitario en Ciencia de datos (Data science)

Estudios de Informática, Multimedia y Telecomunicación

 

TFM:

Clasificación de imágenes de recursión celular:

El coste de algunos medicamentos y tratamientos médicos ha subido tanto en los últimos años que muchos pacientes tienen que prescindir de ellos. Una de las razones más sorprendentes del coste es el tiempo que se tarda en sacar nuevos tratamientos al mercado. A pesar de las mejoras en la tecnología y la ciencia, la investigación y el desarrollo siguen retrasados. De hecho, encontrar nuevos tratamientos lleva, de media, más de 10 años y cuesta cientos de millones de dólares.

Recursion Pharmaceuticals, creadores del mayor conjunto de datos de imágenes biológicas del sector, generado íntegramente de forma interna, cree que la IA tiene el potencial de mejorar y agilizar drásticamente el proceso de descubrimiento de fármacos. Más concretamente, sus esfuerzos podrían ayudarles a entender cómo interactúan los fármacos con las células humanas.

En este proyecto se tiene que desentrañar el ruido experimental de las señales biológicas reales. La propuesta clasificará imágenes de células sometidas a una de las 1.108 perturbaciones genéticas diferentes. Puedes ayudar a eliminar el ruido introducido por la ejecución técnica y la variación ambiental entre experimentos.

Si se tiene éxito, se podría mejorar drásticamente la capacidad de la industria para modelar imágenes celulares según su biología relevante. A su vez, la aplicación de la IA podría disminuir en gran medida el coste de los tratamientos y garantizar que estos lleguen a los pacientes con mayor rapidez.

El proyecto que se presenta es el reto de la plataforma Kaggle alojado en https://www.kaggle.com/c/recursion-cellular-image-classification. Uno de los principales retos para aplicar la IA a los datos de microscopía biológica es que incluso las réplicas más cuidadosas de un proceso no parecerán idénticas. Este conjunto de datos supone un reto para desarrollar un modelo de identificación de réplicas que sea robusto frente al ruido experimental.

Los mismos siRNAs (perturbaciones genéticas efectivas) se han aplicado repetidamente a múltiples líneas celulares, para un total de 51 lotes experimentales. Cada lote tiene cuatro placas, cada una de las cuales tiene 308 pozos llenos. Para cada pozo, se ha realizado imágenes de microscopio desde dos perspectivas y a través de seis canales de imagen. No todos los lotes tienen necesariamente todos los pozos llenos o todos los siRNA presentes.

Hemos resumido esta descripción a lo esencial; para más detalles, consulte RxRx.ai.

El objetivo principal de la práctica es desarrollar modelos basados en el aprendizaje automático para clasificar con la mayor precisión posible, las perturbaciones genéticas aplicadas a las células.