Il progetto del corso di Data Analytics è creare un modello per predirre voto medio di un film, date le sue caratteristiche, utilizzando un dataset proveniente da MovieLens.. Il dataset contiene rating e tag per oltre 60.000 film, raccolti da più di 150.000 utenti negli anni 1995-2019. Ogni file del dataset dispone di un genoma che identifica una caratteristica del film e la sua rilevanza. Il lavoro di predizione è stato affrontato utilizzando varie tecniche di Machine Learning:
- tecniche di ML supervisionate tradizionali quali Linear Regression, SVM, Random Forest Regressor
- tecniche di ML supervisionate basate su Reti Neurali
- tecniche di ML con modelli deep per Tabular Data (TabNet).
L’organizzazione del lavoro è stato diviso in acquisizione e preparazione dei dati,l’analisi esplorativa del dataset, la selezione delle feature rilevanti e la costruzione dei modelli predittivi. Il lavoro è stato diviso in più file, ricalcando la pipeline studiata durante il corso:
- Data Acquisition
- Data Visualization
- Data Preprocessing
- Modeling
- Evaluation