Skip to content

BenoitFiset/INM-889E

Repository files navigation

INF-889E

Repo pour le cours INF 889E - Projet de ML


Classification par apprentissage automatique du type de cancer à partir de données d'expression génétique de séquençage RNA-Seq

  • Vu la taille des fichiers et le temps de calcul nécessaire une partie du traitement des fichiers ont été effectués sur des serveurs HPC de Calcul Québec (Béluga et Graham):

    • Le téléchargement des fichiers incluant le regroupement et décompression
    • Le regroupement des fichiers individuels en une matrice unifiée de comptes - Tumeurs
    • Le regroupement des fichiers individuels en une matrice unifiée de comptes - Normale
    • Entrainement des modèles (Algo. SVM et Random Forest)
    • “Tuning" des modèles
    • Prediction des modèles
  • Sur l’ordinateur local:

    • Le filtrage des gènes qui ont comportent plus de 95% de comptes de valeur 0
    • Le filtrage des gènes qui ont moins de 1% de comptes
    • La création de le colonne qui sera la “Classe” du projet. Se nomme “Type”
    • Le découpage du jeu de données “Training” 80% et “Test” 20%.
    • Normalisation des données “Training” avec VST de DESeq2
    • Normalisation des données “Test” avec VST de DESeq2
    • Normalisation des données “Normal” avec VST de DESeq2
    • Filtrer les genes qui ont un indice de correlation de plus de 98% (Tumeur et Normal)

Le projet à été fait en R avec les libraires suivantes:
    library(caret)        # caret (Classification And REgression Training) - creating predictive models
    library(DESeq2)       # variance stabilizing transformation (VST) Normalisation  
    library(doParallel)
    library(FactoMineR)   # PCA
    library(kernlab)      # SVM
    library(knitr)        # kable
    library(randomForest)
    library(reshape2)     # melt
    library(stringr)      # str_sub and str_replace
    library(tidyverse)    # purrr, reader, tibble, ...

5 Sections pour ce projet

Note: Le jeu de données d’échantillons Normaux sera utilisé pour tester les prédictions des modèles. Ici le modèle fera des prédictions sur le type de cancer HNSC vs LUSC et non “Tumeur” vs “Normal”. Le jeu de données Normal comporte le type de cancer HNSC et LUSC dans son metadata.**

About

Repo pour le cours INM 889E - Projet de ML

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published