Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Primena Speech-to-Text modela za izradu AI asistenta #30

Open
tince250 opened this issue May 11, 2023 · 2 comments
Open

Primena Speech-to-Text modela za izradu AI asistenta #30

tince250 opened this issue May 11, 2023 · 2 comments

Comments

@tince250
Copy link

Članovi tima

SV3/2020 Tina Mihajlović (grupa 1)

Asistent

Marko Njegomir

Problem koji se rešava

Komunikacija govorom jeste najprirodniji i najbrži vid komunikacije između ljudi, a poslednjih godina je sve popularniji i pri interakciji ljudi sa računarima tj. programima (pametni AI asistentit poput Siri i Alekse, voice search, voice typing...).
Ideja projekta jeste fine tuning postojecih STT (speech to text) modela baziranih na transformerima, za specifican problem zadavanja određenog skupa komandi na srpskom jeziku, koje bi se zatim transkriptovale u tekst, na osnovu kog bi AI agent prepoznao neku od predefinisanih komandi i izvršio predefinisanu akciju (pretraživanje interneta za zadati prompt, puštanje željene pesme, podaci o prognozi, slanje mail-a/poruke...) - konkretne naredbe će biti naknadno definisane. Omogućiće se i integracija agenta sa ChatGPT API-jem (ili API-jem sličnih besplatnih alternativa), za dobijanje odgovora na vokalne prompt-ove.

Algoritmi

Projekat će se baviti finim podešavanjem pre-trained encoder-decoder transformera (Whisper ili sličnih modela). Dodatno obučavanje biće odrađeno u cilju poboljšanja performansi za zadati problem.

Podaci koji se koriste

Koristiće se Common Voice dataset za srpski jezik, kao i dodatni pogodni izvori podataka i datasetovi, po potrebi.

Metrika za merenje performansi

Procenat uspešnosti odnosiće se na uspešnost finog podešavanja odabranog STT modela, merenog procentom tačno transkriptovanih reči iz audio snimka izgovorenih komandi. Takođe će uzeto u obzir biti i to da je za potrebe AI asistenta dovoljno prepoznati kontekst komande dovoljno dobro, ne i nužno 100% tačno pretočiti govor u tekst. Izvršiće se i poređenje rezultata početnog i fine-tuned modela.

Validacija rešenja

Skup podataka će biti podeljen na trening i test skup.

@njmarko
Copy link

njmarko commented May 18, 2023

Оставите линк ка репозиторијуму.

Тема одобрена. Срећан рад! 👍

@njmarko njmarko self-assigned this May 18, 2023
@tince250
Copy link
Author

tince250 commented Jul 4, 2023

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants