Skip to content
MIchał Zieliński edited this page Mar 28, 2023 · 1 revision
  1. Wake word detection - nasłuchujemy 24/7 Ewentualnie trzymamy filtr, który nam sprawdza ogólnie hałas. Na hałas zaczynamy słuchać i sprawdzamy czy wypowiedziano komendę inicjującą. 1.1. Speaker ID - mamy model ej aj owy który sprawdza nam, czy osoba która mówi jest właścicielem telefonu.

Dalej przesyłamy przeprasowany głos do tekstu do kolejnego modelu który klasyfikuje nam komendę.

  1. Stringa możemy przesyłac dwojako. Pierwsza opcja to chmura i tam możemy sobie wysyłać to do jakiegoś serwisu backendowego na którym będzie drugi model.

Druga opcja to parsowanie tego przez kolejny model w telefonie.

  1. Jak wrzucić model do telefonu? Ghost modele stworzy w PyTorchu. Użycie TensorFlow Lite jak poleca Google (Tensor Flow jest od Googla więc pewnie dlatego poleca) powinno być ostatecznością. Mamy do dyspozycji deployment w PyTorchu https://pytorch.org/mobile/android/

    Oraz w formacie ONNX https://onnxruntime.ai/docs/tutorials/mobile/ Musimy posprawdzać te dwie rzeczy, żeby ogarnąć gdzie są granice ich użyteczności.

    Fajnie by było jakby udało się całość AI trzymać na telefonie. To wyróżniałoby nasze rozwiązanie na rynku. Wydaje się to doable.

  2. Co zrobimy ze sklasyfikowaną komendą? Robimy research co możemy zrobić Alarm - high prio Dzwonienie - high prio Otwieranie apek - spotify puszczanie piosenek Wyszukiwanie Google, Mapy, YouTube, czyli działanie z innymi apkami. https://developer.spotify.com/documentation/android

  3. Granice odpowiedzialności: GHOST daje modele AKAI je deployuje na chmurze lub telefonie

Clone this wiki locally