INF-889E

Repo pour le cours INF 889E - Projet de ML

Classification par apprentissage automatique du type de cancer à partir de données d'expression génétique de séquençage RNA-Seq

Vu la taille des fichiers et le temps de calcul nécessaire une partie du traitement des fichiers ont été effectués sur des serveurs HPC de Calcul Québec (Béluga et Graham):
- Le téléchargement des fichiers incluant le regroupement et décompression
- Le regroupement des fichiers individuels en une matrice unifiée de comptes - Tumeurs
- Le regroupement des fichiers individuels en une matrice unifiée de comptes - Normale
- Entrainement des modèles (Algo. SVM et Random Forest)
- “Tuning" des modèles
- Prediction des modèles
Sur l’ordinateur local:
- Le filtrage des gènes qui ont comportent plus de 95% de comptes de valeur 0
- Le filtrage des gènes qui ont moins de 1% de comptes
- La création de le colonne qui sera la “Classe” du projet. Se nomme “Type”
- Le découpage du jeu de données “Training” 80% et “Test” 20%.
- Normalisation des données “Training” avec VST de DESeq2
- Normalisation des données “Test” avec VST de DESeq2
- Normalisation des données “Normal” avec VST de DESeq2
- Filtrer les genes qui ont un indice de correlation de plus de 98% (Tumeur et Normal)

Le projet à été fait en R avec les libraires suivantes:
    library(caret)        # caret (Classification And REgression Training) - creating predictive models
    library(DESeq2)       # variance stabilizing transformation (VST) Normalisation  
    library(doParallel)
    library(FactoMineR)   # PCA
    library(kernlab)      # SVM
    library(knitr)        # kable
    library(randomForest)
    library(reshape2)     # melt
    library(stringr)      # str_sub and str_replace
    library(tidyverse)    # purrr, reader, tibble, ...

5 Sections pour ce projet

Section 1 - Sélection et Téléchargement des fichiers TCGA
Section 2 - Pré-Traitement des fichiers (Regroupement des fichiers comptes)
Section 3 - Pré-Traitement des fichiers (Filtrage, Découpe, Normalisation, Corrélation)
- Lien Rapide: Filtrage des données
- Lien Rapide: Colonne d'identification du Type de l’échantillon
- Lien Rapide: Découpage Training / Test
- Lien Rapide: Normalisation VST
- Lien Rapide: Filtrage avec indices corrélation
- Lien Rapide: Compte final des jeux de donnés
- Lien Rapide: Filtrage et normalisation VST du jeu de test normale
Section 4 - Entrainement
- Lien Rapide: Comparaison des performances de 6 algorithmes
- Lien Rapide: BoxPlot des resultats de test de performance et choix
- Lien Rapide: Test pour tenter d'améliorer la précision
- Lien Rapide: Resultats et conclusion de ces tests d'amélioration de la précision
Section 5 - Prédictions et Résultats
- Lien Rapide: Prédictions avec le modèle SVM fitsvmLinear_VST et le jeu de Tests
- Lien Rapide: Prédictions du modèle fitrf_VST (Random Forest) et le jeu de Tests
- Lien Rapide: Prédictions avec le modèle SVM fitsvmLinear_VST et le jeu de donnés Normal
- Lien Rapide: Prédictions du modèle fitrf_VST (Random Forest) et le jeu de donnés Normal

Note: Le jeu de données d’échantillons Normaux sera utilisé pour tester les prédictions des modèles. Ici le modèle fera des prédictions sur le type de cancer HNSC vs LUSC et non “Tumeur” vs “Normal”. Le jeu de données Normal comporte le type de cancer HNSC et LUSC dans son metadata.**

Name		Name	Last commit message	Last commit date
Latest commit History 163 Commits
figures		figures
BFiset_Projet_Part_01_V01.md		BFiset_Projet_Part_01_V01.md
BFiset_Projet_Part_02_V01.md		BFiset_Projet_Part_02_V01.md
BFiset_Projet_Part_03_V01.md		BFiset_Projet_Part_03_V01.md
BFiset_Projet_Part_04_V01.md		BFiset_Projet_Part_04_V01.md
BFiset_Projet_Part_05_V01.md		BFiset_Projet_Part_05_V01.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

INF-889E

Classification par apprentissage automatique du type de cancer à partir de données d'expression génétique de séquençage RNA-Seq

5 Sections pour ce projet

About

Releases

Packages

BenoitFiset/INM-889E

Folders and files

Latest commit

History

Repository files navigation

INF-889E

Classification par apprentissage automatique du type de cancer à partir de données d'expression génétique de séquençage RNA-Seq

5 Sections pour ce projet

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages