You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Prilikom naprednijih obrada i predikcija govora iz audio stream-ova, prethodno je neophodno prepoznati sam jezik govora. Rešenje ovog problema danas često doprinosi poboljšanju perfomansi nekih ozbiljnijih problema kao što su Automatic transcription software i Conversational AI.
Cilj projekta je izvršiti klasifikaciju audio snimaka na osnovu jezika govora. Klase koje postoje su srpski, engleski i špasnki jezik. Ideja je da se analizira Mel-frequency spektogram u obliku slike koji se dobija obradom kratkih audio snimaka. Pošto je prepoznavanje jezika složen zadatak, konvoluciona mreža koja će se koristiti treba da bude dovoljno velika. Opciono će biti dodate i tehnike augmentacije podataka.
Algoritmi
Convolutional neural network (CNN) za problem klasifikacije spektograma
Mel-frequency cepstral coefficients (MFCC) za obradu audio signala
(Opciono) Data Augmentation Techniques
Podaci koji se koriste
Koristiće se dataset audio snimaka sa Mozilla Common Voice za srpski, engleski i španski jezik.
Metrika za merenje perfomansi
Za metriku će se koristiti tačnost klasifikacije, odnosno procenat tačno klasifikovanih audio snimaka.
Validacija rešenja
Ulazni skup podataka će se podeiliti na trening (80%) i test (20%) skup. Opciono će biti moguće prepoznavanje/klasifikacija jezika trenutno snimljenog glasa.
The text was updated successfully, but these errors were encountered:
Članovi tima
SV 30/2020 Jovan Najdovski (grupa 2)
Asistent
Branislav Andjelić
Problem koji se rešava
Prilikom naprednijih obrada i predikcija govora iz audio stream-ova, prethodno je neophodno prepoznati sam jezik govora. Rešenje ovog problema danas često doprinosi poboljšanju perfomansi nekih ozbiljnijih problema kao što su Automatic transcription software i Conversational AI.
Cilj projekta je izvršiti klasifikaciju audio snimaka na osnovu jezika govora. Klase koje postoje su srpski, engleski i špasnki jezik. Ideja je da se analizira Mel-frequency spektogram u obliku slike koji se dobija obradom kratkih audio snimaka. Pošto je prepoznavanje jezika složen zadatak, konvoluciona mreža koja će se koristiti treba da bude dovoljno velika. Opciono će biti dodate i tehnike augmentacije podataka.
Algoritmi
Podaci koji se koriste
Koristiće se dataset audio snimaka sa Mozilla Common Voice za srpski, engleski i španski jezik.
Metrika za merenje perfomansi
Za metriku će se koristiti tačnost klasifikacije, odnosno procenat tačno klasifikovanih audio snimaka.
Validacija rešenja
Ulazni skup podataka će se podeiliti na trening (80%) i test (20%) skup. Opciono će biti moguće prepoznavanje/klasifikacija jezika trenutno snimljenog glasa.
The text was updated successfully, but these errors were encountered: