Benchmarki dla LLM #54

Kleczyk · 2023-12-01T10:33:04Z

Jaki jest cel tego tego zadania

Celem tego zadania jest opracowanie całej logiki przeprowadzania benchmarków, przygotowanie wskaźników określających jakość modeli oraz przygotowanie datasetów dla poszczególnych benchmarków tak aby było to łatow rozszerzalne.

Jak wygląda rozwiązanie?

Rozwiązanie obejmuje stworzenie infrastruktury, w której łatwo można dodawać nowe modele językowe, benchmarki oraz łatwo uruchamiać je na serwerze.

TODO

Baza danych sqlite
Benchmark Filtrujący Słabe Modele
Benchmark Ilościowy w JP (Języku Polskim)
Benchmark Dialogowy
Benchmark Matematyczny
Benchmark Programowania
Benchmark Wyciągania Danych z Źródła Dokumentu
Benchmark z Niepoprawnymi Danymi i Błędami w Pisowni
Benchmark Dotyczący Bezstronności i Etyki

Dodatkowe linki

Kleczyk added this to the v0.1 milestone Dec 1, 2023

Kleczyk self-assigned this Dec 1, 2023

Kleczyk added the research label Dec 1, 2023

finloop added LLM Benchmark labels Dec 1, 2023

TheJimmyNowak removed this from the v0.1 milestone Dec 4, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Benchmarki dla LLM #54

Benchmarki dla LLM #54

Kleczyk commented Dec 1, 2023 •

edited

Loading

Benchmarki dla LLM #54

Benchmarki dla LLM #54

Comments

Kleczyk commented Dec 1, 2023 • edited Loading

Jaki jest cel tego tego zadania

Jak wygląda rozwiązanie?

TODO

Dodatkowe linki

Kleczyk commented Dec 1, 2023 •

edited

Loading