Skip to content

lorisgir/TESI-MAGISTRALE

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

56 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Unsupervised Anomaly Detection for a Manufacturing Industry

This is my Master Thesis at University of Turin.

A PDF of the 🇮🇹 Italian version is available here.

Abstract IT

L’Anomaly Detection è un topic sempre più importante e il suo utilizzo spazia dal campo medico per arrivare a quello finanziario passando anche per approcci più standard come l'analisi di sensori installati su strumenti o macchinari. Il task che risolve è quello di identificare eventi od osservazioni rari oppure che deviano in maniera significativa dalla maggioranza dei dati e che non corrispondono a una definizione di comportamento normale. Ricercare queste anomalie può essere utile quando si devono applicare metodi statistici e una pulizia dei dati è necessaria, ma non solo. In molte applicazioni le anomalie sono di alto interesse in quanto possono contenere informazioni di rilievo e quindi necessitano di attenzione. I metodi di Anomaly Detection si dividono tra Supervisionati, Semi-Supervisionati o Non Supervisionati e un ampio numero di essi sono stati proposti nella letteratura ma non esiste un metodo che sia il più accurato per ogni dataset. Inoltre, la disponibilità di etichette di anomalia per un certo dataset è solitamente bassa o completamente assente nella pratica. L’obiettivo di questa tesi è quello applicare metodi di Non Supervisionati di Anomaly Detection all'interno del progetto Beat 4.0 portato avanti da SKF e ALTEN ITALIA. A seguito di un'introduzione sul contesto in cui si opera, dei problemi e delle principali tecniche proposte nella letteratura, verrà mostrato un algoritmo di Model Selection che va a rispondere alla seguente domanda: dato un dataset senza etichette e un set di Anomaly Detectors, come poter selezionare il modello più accurato? A questo scopo vengono definite tre classi di metriche non supervisionate chiamate Model Centrality, Clustering Coefficient e Performance on Injected Synthetic Anomalies e viene mostrato come queste siano correlate rispetto alla metrica supervisionata F1-Score. Saranno proposti anche diversi metodi di Rank Aggregation: Borda, Robust Borda, AVG Score e Kemeny-Young utilizzati per combinare le tre metriche non supervisionate, e un'analisi approfondita sulle performance di ognuno rispetto a dataset di benchmark provenienti da ODDS e SMD.

Abstract EN

Anomaly Detection is an increasingly important topic, and its use ranges from the medical field to the financial field via more standard approaches such as the analysis of sensors installed on instruments or machinery. The task it solves is to identify events or observations that are rare or deviate significantly from the majority of data and do not fit a definition of normal behavior. Looking for these anomalies can be useful when statistical methods are to be applied and a data cleanup is necessary, but not only that. In many applications, anomalies are of high interest because they may contain important information and therefore need attention. Anomaly Detection methods are divided into Supervised, Semi-Supervised or Unsupervised and a large number of them have been proposed in the literature but there is no method that is the most accurate for every dataset. Moreover, the availability of anomaly labels for a certain dataset is usually low or completely absent in practice. The objective of this thesis is to apply Unsupervised Anomaly Detection methods within the Beat 4.0 project carried out by SKF and ALTEN ITALY. Following an introduction on the context in which it operates, the problems and the main techniques proposed in the literature, a Model Selection algorithm will be shown that goes to answer the following question: given a dataset without labels and a set of Anomaly Detectors, how to be able to select the most accurate model? For this purpose, three classes of unsupervised metrics called Model Centrality, Clustering Coefficient, and Performance on Injected Synthetic Anomalies are defined and it is shown how they are correlated with respect to the supervised metric F1-Score. Several Rank Aggregation methods will also be proposed: Borda, Robust Borda, AVG Score, and Kemeny-Young used to combine the three unsupervised metrics, and an in-depth analysis on the performance of each against benchmark datasets from ODDS and SMD.

About

This is my Master Thesis at University of Turin.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages