Skip to content

forked base code for GENIAC

License

Notifications You must be signed in to change notification settings

geniacllm/ucllm_nedo_prod

 
 

Repository files navigation

geniac llm

setup:

*please install direnv

cp example.env .env
make start  # open vscode

# todo: .venv setup
# make install

# versions checker
make check-versions-for-llm

lint and format:

*please install ruff and shellcheck

# use ruff
make lint-python
make lint-shell

# use shellcheck
make format-python

LLM開発の標準コード・手順

以下、Geniac LLM開発案件におけるLLM開発コード・手順の標準化です。
利用しても利用しなくても構いません。ご自由にお使いください。
ただし「LLM評価手順」は必ず利用してください(開発したLLMのランキングに使うため)。

ジョブシステム利用手順

サーバにログインしてジョブシステムを利用する手順です。
こちら

データ収集加工手順

LLM学習用データを収集加工する手順です。
mC4(Japanese)のダウンロード、一連の加工処理を含みます。
こちら

LLM学習手順

LLM学習手順です。
トークナイザー学習、事前学習、事後学習(ファインチューニング)を含みます。
こちら

LLM評価手順

LLM評価手順です。
本企画の評価指標であるNejumi leaderboard Neoにおける評価手順となります。
こちら

Contributors

@software{ucllm-nedo,
  author       = {Kawanishi, Hotsuyuki and
                  Shinozuka, Fumiya and
                  Harada, Keno and
                  Alfredo, Solano Martinez and
                  Noumi, Yoshihiro and
                  Yu, Zhenxuan and
                  Kobashi, Yohei and
                  Kojima, Takeshi},
  title        = {Standard Codes and Procedures for LLM Development},
  month        = 3,
  year         = 2024,
  url          = {https://github.com/matsuolab/ucllm_nedo_prod}
}

About

forked base code for GENIAC

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Shell 79.4%
  • Python 19.0%
  • Makefile 1.6%