Skip to content

Commit

Permalink
migrate to Vitepress (#279)
Browse files Browse the repository at this point in the history
* migrate to Vitepress

* set up workflow

* try

* try

* fix

* test

* test

* fix base

* try

* fix logo

* delete logo
  • Loading branch information
kaisugi authored Jun 16, 2024
1 parent 9bea016 commit 9b3422e
Show file tree
Hide file tree
Showing 11 changed files with 968 additions and 94 deletions.
3 changes: 1 addition & 2 deletions .gitattributes
Original file line number Diff line number Diff line change
@@ -1,2 +1 @@
figures/scripts/*.py linguist-vendored
build/*.py linguist-vendored
figures/scripts/*.py linguist-vendored
Original file line number Diff line number Diff line change
@@ -1,5 +1,4 @@
# Sample workflow for building and deploying a Jekyll site to GitHub Pages
name: Deploy Jekyll with GitHub Pages dependencies preinstalled
name: Deploy VitePress site to Pages

on:
# Runs on pushes targeting the default branch
Expand Down Expand Up @@ -28,8 +27,15 @@ jobs:
steps:
- name: Checkout
uses: actions/checkout@v3
- name: Setup Node
uses: actions/setup-node@v4
with:
node-version: 20
cache: yarn
- name: Setup Pages
uses: actions/configure-pages@v3
- name: Install dependencies
run: yarn install
- name: Generate Contributors Image
uses: jaywcjlove/[email protected]
with:
Expand All @@ -43,16 +49,12 @@ jobs:
git add -A
git diff --quiet && git diff --staged --quiet || git commit -m "Update Contributors Image"
git push
- name: Fix Bibtex for Jekyll
run: |
python build/fix_bibtex_codeblock_for_jekyll.py
- name: Build with Jekyll
uses: actions/jekyll-build-pages@v1
with:
source: ./
destination: ./_site
- name: Build with VitePress
run: yarn docs:build
- name: Upload artifact
uses: actions/upload-pages-artifact@v2
with:
path: .vitepress/dist

# Deployment job
deploy:
Expand Down
5 changes: 5 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
node_modules
.yarn
dist
cache
temp
51 changes: 51 additions & 0 deletions .vitepress/config.mts
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
import { defineConfig } from 'vitepress'
import footnote from 'markdown-it-footnote'

// https://vitepress.dev/reference/site-config
export default defineConfig({
title: "LLM-jp",
description: "Overview of Japanese LLMs",
base: '/awesome-japanese-llm/',
themeConfig: {
socialLinks: [
{ icon: 'github', link: 'https://github.com/llm-jp/awesome-japanese-llm' }
],

search: {
provider: 'local'
},

logo: 'https://llm-jp.nii.ac.jp/assets/images/logo2.png',

outline: {
level: [2, 4],
}
},
rewrites: {
'README.md': 'index.md',
'en/README.md': 'en/index.md',
'fr/README.md': 'fr/index.md',
},
markdown: {
config: (md) => {
md.use(footnote)
}
},
lastUpdated: true,
locales: {
root: {
label: '日本語',
lang: 'ja-JP',
},
en: {
label: 'English',
lang: 'en-US',
link: '/en'
},
fr: {
label: 'Français',
lang: 'fr-FR',
link: '/fr/'
},
}
})
16 changes: 16 additions & 0 deletions .vitepress/theme/index.ts
Original file line number Diff line number Diff line change
@@ -0,0 +1,16 @@
// https://vitepress.dev/guide/custom-theme
import { h } from 'vue'
import type { Theme } from 'vitepress'
import DefaultTheme from 'vitepress/theme'

export default {
extends: DefaultTheme,
Layout: () => {
return h(DefaultTheme.Layout, null, {
// https://vitepress.dev/guide/extending-default-theme#layout-slots
})
},
enhanceApp({ app, router, siteData }) {
// ...
}
} satisfies Theme
44 changes: 22 additions & 22 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,8 +1,8 @@
# 日本語LLMまとめ
[ [**English**](./README_en.md) | [**Français**](./README_fr.md) | 日本語 ]
[ [**English**](./en/README.md) | [**Français**](./fr/README.md) | 日本語 ]

<p align="center">
<img src="figures/parameter_size_overview.png" alt="日本語LLM・海外LLMのパラメータサイズの推移">
<img src="./figures/parameter_size_overview.png" alt="日本語LLM・海外LLMのパラメータサイズの推移">
</p>
<figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の <a href="https://lifearchitect.ai/models-table/">Models table</a> を参照しています(ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。</figcaption>

Expand Down Expand Up @@ -353,104 +353,104 @@
<a id="hybrid-benchmark-suites"></a>
### 複合型ベンチマーク

#### [Nejumi LLMリーダーボード Neo](http://nejumi.ai/) (Weights & Biases)
**[Nejumi LLMリーダーボード Neo](http://nejumi.ai/) (Weights & Biases)**

一問一答形式で言語理解を評価する [llm-jp-eval](#llm-jp-eval) とプロンプト対話で生成能力を評価する [Japanese MT-bench](#jp-mt-bench) による総合評価の結果をまとめている。

<a id="basic-benchmark-suites"></a>
### 基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

<a id="llm-jp-eval"></a>
#### [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) (LLM-jp)
**[llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) (LLM-jp)**

複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧は[こちら](https://github.com/llm-jp/llm-jp-eval/tree/main/src/llm_jp_eval/datasets)から確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
評価結果は [llm-jp-eval リーダーボード](http://wandb.me/llm-jp-leaderboard) にまとめられている。

#### [JP Language Model Evaluation Harness](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable) (Stability AI)
**[JP Language Model Evaluation Harness](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable) (Stability AI)**

Stability AI による [EleutherAI/lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。
対応している全データセット一覧は[こちら](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable/lm_eval/tasks/ja)から確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。
rinna による詳細な評価結果まとめがある: [[rinna] Benchmark of Stability-AI/lm-evaluation-harness](https://rinnakk.github.io/research/benchmarks/lm/)

#### [JGLUE](https://github.com/yahoojapan/JGLUE) (早大河原研 & ヤフー)
**[JGLUE](https://github.com/yahoojapan/JGLUE) (早大河原研 & ヤフー)**

[GLUE ベンチマーク](https://gluebenchmark.com/)の日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む([JCoLA](https://github.com/osekilab/JCoLA) は東大大関研により作成)。各タスクの詳細は[こちら](https://www.jstage.jst.go.jp/article/jnlp/30/1/30_63/_article/-char/ja)[こちら](https://techblog.yahoo.co.jp/entry/2022122030379907/)を参照

#### [JMMLU](https://github.com/nlp-waseda/JMMLU) (早大河原研)
**[JMMLU](https://github.com/nlp-waseda/JMMLU) (早大河原研)**

[MMLU ベンチマーク](https://github.com/hendrycks/test)の日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。

#### [日本語 Open LLM Leaderboard](http://wandb.me/llm-jp-openllmleaderboard) (LLM-jp)
**[日本語 Open LLM Leaderboard](http://wandb.me/llm-jp-openllmleaderboard) (LLM-jp)**

Huggingface の [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。

<a id="open-ended-benchmark-suites"></a>
### 人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

<a id="jp-mt-bench"></a>
#### [Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) (Stability AI)
**[Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) (Stability AI)**

マルチターン会話能力を問う [MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge) の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。<br>GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。

#### [Rakuda Benchmark](https://github.com/yuzu-ai/japanese-llm-ranking) (YuzuAI)
**[Rakuda Benchmark](https://github.com/yuzu-ai/japanese-llm-ranking) (YuzuAI)**

日本の地理、歴史、政治、社会に関する[40問の自由質問](https://huggingface.co/datasets/yuzuai/rakuda-questions)に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。

#### [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) (ELYZA)
**[ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) (ELYZA)**

複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。<br>要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。<br>評価結果は[こちら](https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356)や[こちら](https://zenn.dev/elyza/articles/5e7d9373c32a98)を参照。また、より新しいモデルを含む評価結果は[こちら](https://note.com/elyza/n/n5d42686b60b7)を参照。

#### [Japanese Vicuna QA Benchmark](https://github.com/ku-nlp/ja-vicuna-qa-benchmark) (京大 言語メディア研究室)
**[Japanese Vicuna QA Benchmark](https://github.com/ku-nlp/ja-vicuna-qa-benchmark) (京大 言語メディア研究室)**

MT-Bench の前身である [vicuna-blog-eval](https://github.com/lm-sys/vicuna-blog-eval) の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードは[こちら](http://wandb.me/llm-jp-vicunaleaderboard)

<a id="logical-reasoning-benchmark-suites"></a>
### 論理推論能力を測定するベンチマーク/データセット

#### [JFLD (Japanese Formal Logic Deduction)](https://aclanthology.org/2024.lrec-main.832/) (日立製作所)
**[JFLD (Japanese Formal Logic Deduction)](https://aclanthology.org/2024.lrec-main.832/) (日立製作所)**

日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している [FLD (Formal Logic Deduction)](https://github.com/hitachi-nlp/FLD) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。

#### [JHumanEval](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P10-9.pdf) (日本女子大 倉光研)
**[JHumanEval](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P10-9.pdf) (日本女子大 倉光研)**

英語の指示から Python コードの生成能力を評価するベンチマークである [HumanEval](https://huggingface.co/datasets/openai_humaneval) の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。

<a id="domain-specific-benchmark-suites"></a>
### 特定ドメインの性能を測定するベンチマーク/データセット

#### [Japanese Language Model Financial Evaluation Harness](https://github.com/pfnet-research/japanese-lm-fin-harness) (Preferred Networks)
**[Japanese Language Model Financial Evaluation Harness](https://github.com/pfnet-research/japanese-lm-fin-harness) (Preferred Networks)**

金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細は[こちら](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C6-4.pdf)を参照

#### [Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) (ストックマーク)
**[Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) (ストックマーク)**

市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。

<a id="embeddings-benchmark-suites"></a>
### 埋め込みモデルのベンチマーク/データセット

#### [JMTEB](https://jedworkshop.github.io/JLR2024/materials/b-3.pdf) (SB Intuitions)
**[JMTEB](https://jedworkshop.github.io/JLR2024/materials/b-3.pdf) (SB Intuitions)**

[MTEB](https://github.com/embeddings-benchmark/mteb)の日本語版として作成されたベンチマーク。
文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている(その後、リランキングタスクが新たに追加)。

<a id="vl-benchmark-suites"></a>
### 視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

#### [Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) (Turing)
**[Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) (Turing)**

21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。

#### [JA-VLM-Bench-In-the-Wild](https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild) (Sakana AI)
**[JA-VLM-Bench-In-the-Wild](https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild) (Sakana AI)**

Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。

#### [LLaVA-Bench-In-the-Wild (Japanese)](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-in-the-wild) (Turing)
**[LLaVA-Bench-In-the-Wild (Japanese)](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-in-the-wild) (Turing)**

[LLaVA-Bench-In-the-Wild](https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild) を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。

#### [LLaVA-Bench (COCO) Japanese](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-ja) (Turing)
**[LLaVA-Bench (COCO) Japanese](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-ja) (Turing)**

LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。

Expand Down Expand Up @@ -537,7 +537,7 @@ LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL
このプロジェクトに貢献してくれているコントリビューターのみなさんです!

<a href="https://github.com/llm-jp/awesome-japanese-llm/graphs/contributors">
<img src="figures/contributors.svg" />
<img src="./figures/contributors.svg" />
</a>

<a id="citation"></a>
Expand Down
16 changes: 0 additions & 16 deletions build/fix_bibtex_codeblock_for_jekyll.py

This file was deleted.

Loading

0 comments on commit 9b3422e

Please sign in to comment.