본 프로젝트는 Dataon의 2022 연구 데이터 분석활용 경진대회에 참여하며 진행했습니다.
대회 URL : http://dataon-con.kr/pages/about_new.php
주제 - Gexp : Genemarker Expert 머신러닝 기반 멀티 클래스 분석 바이오 마커 탐지 소프트웨어
이름 | 역할 |
김예지 | Measurement of Ranking and Feature Importance Using Modeling |
한채은 | Measure and Compare Accuracy Using Modeling and Visualization |
이선우 | Data download and extract file Using Web Crawling |
강서연 | Data Visualization Using Heatmap and clustering |
🎉 우수상 수상 🎉
├── download_cancer.py
├── load_labeled_data.py
├── biomarker_rank.py
├── plot_stepwise_accuracy.py
├── describe_genes.py
├── normalize.py
├── plot_heatmap.py
Download cancer data (mRNAseq) from the firebrowse site(http://firebrowse.org/)
Optional Argument
Create a Target variable as part of the preprocessing process
Optional Argument
Measure and rank feature importance by model(RandomForest, EXtraTrees, XGBoost, AdaBoost, DecisionTree)
Optional Argument
Visualization of accuracy by step and model(RandomForest, MLP)
Optional Argument
As a result of performance evaluation, gene information can be viewed as many as the number of genes in the high-performance model
Optional Argument
Visualization with clustermap as normalized data for top N biomarker genes
Optional Arguement