Repo pour le cours INF 889E - Projet de ML
Classification par apprentissage automatique du type de cancer à partir de données d'expression génétique de séquençage RNA-Seq
-
Vu la taille des fichiers et le temps de calcul nécessaire une partie du traitement des fichiers ont été effectués sur des serveurs HPC de Calcul Québec (Béluga et Graham):
- Le téléchargement des fichiers incluant le regroupement et décompression
- Le regroupement des fichiers individuels en une matrice unifiée de comptes - Tumeurs
- Le regroupement des fichiers individuels en une matrice unifiée de comptes - Normale
- Entrainement des modèles (Algo. SVM et Random Forest)
- “Tuning" des modèles
- Prediction des modèles
-
Sur l’ordinateur local:
- Le filtrage des gènes qui ont comportent plus de 95% de comptes de valeur 0
- Le filtrage des gènes qui ont moins de 1% de comptes
- La création de le colonne qui sera la “Classe” du projet. Se nomme “Type”
- Le découpage du jeu de données “Training” 80% et “Test” 20%.
- Normalisation des données “Training” avec VST de DESeq2
- Normalisation des données “Test” avec VST de DESeq2
- Normalisation des données “Normal” avec VST de DESeq2
- Filtrer les genes qui ont un indice de correlation de plus de 98% (Tumeur et Normal)
Le projet à été fait en R avec les libraires suivantes:
library(caret) # caret (Classification And REgression Training) - creating predictive models
library(DESeq2) # variance stabilizing transformation (VST) Normalisation
library(doParallel)
library(FactoMineR) # PCA
library(kernlab) # SVM
library(knitr) # kable
library(randomForest)
library(reshape2) # melt
library(stringr) # str_sub and str_replace
library(tidyverse) # purrr, reader, tibble, ...
- Section 1 - Sélection et Téléchargement des fichiers TCGA
- Section 2 - Pré-Traitement des fichiers (Regroupement des fichiers comptes)
- Section 3 - Pré-Traitement des fichiers (Filtrage, Découpe, Normalisation, Corrélation)
- Lien Rapide: Filtrage des données
- Lien Rapide: Colonne d'identification du Type de l’échantillon
- Lien Rapide: Découpage Training / Test
- Lien Rapide: Normalisation VST
- Lien Rapide: Filtrage avec indices corrélation
- Lien Rapide: Compte final des jeux de donnés
- Lien Rapide: Filtrage et normalisation VST du jeu de test normale
- Section 4 - Entrainement
- Lien Rapide: Comparaison des performances de 6 algorithmes
- Lien Rapide: BoxPlot des resultats de test de performance et choix
- Lien Rapide: Test pour tenter d'améliorer la précision
- Lien Rapide: Resultats et conclusion de ces tests d'amélioration de la précision
- Section 5 - Prédictions et Résultats
- Lien Rapide: Prédictions avec le modèle SVM fitsvmLinear_VST et le jeu de Tests
- Lien Rapide: Prédictions du modèle fitrf_VST (Random Forest) et le jeu de Tests
- Lien Rapide: Prédictions avec le modèle SVM fitsvmLinear_VST et le jeu de donnés Normal
- Lien Rapide: Prédictions du modèle fitrf_VST (Random Forest) et le jeu de donnés Normal