migrate to Vitepress (#279)

* migrate to Vitepress * set up workflow * try * try * fix * test * test * fix base * try * fix logo * delete logo
llm-jp · Jun 16, 2024 · 9b3422e · 9b3422e
1 parent 9bea016
commit 9b3422e
Show file tree

Hide file tree

Showing 11 changed files with 968 additions and 94 deletions.
diff --git a/.gitattributes b/.gitattributes
@@ -1,2 +1 @@
-figures/scripts/*.py linguist-vendored
-build/*.py linguist-vendored
+figures/scripts/*.py linguist-vendored
diff --git a/.github/workflows/jekyll-gh-pages.yml → .github/workflows/vitepress-gh-pages.yml b/.github/workflows/jekyll-gh-pages.yml → .github/workflows/vitepress-gh-pages.yml
@@ -1,5 +1,4 @@
-# Sample workflow for building and deploying a Jekyll site to GitHub Pages
-name: Deploy Jekyll with GitHub Pages dependencies preinstalled
+name: Deploy VitePress site to Pages
 
 on:
   # Runs on pushes targeting the default branch
@@ -28,8 +27,15 @@ jobs:
     steps:
       - name: Checkout
         uses: actions/checkout@v3
+      - name: Setup Node
+        uses: actions/setup-node@v4
+        with:
+          node-version: 20
+          cache: yarn
       - name: Setup Pages
         uses: actions/configure-pages@v3
+      - name: Install dependencies
+        run: yarn install
       - name: Generate Contributors Image
         uses: jaywcjlove/[email protected]
         with:
@@ -43,16 +49,12 @@ jobs:
           git add -A
           git diff --quiet && git diff --staged --quiet || git commit -m "Update Contributors Image"
           git push
-      - name: Fix Bibtex for Jekyll
-        run: |
-          python build/fix_bibtex_codeblock_for_jekyll.py
-      - name: Build with Jekyll
-        uses: actions/jekyll-build-pages@v1
-        with:
-          source: ./
-          destination: ./_site
+      - name: Build with VitePress
+        run: yarn docs:build
       - name: Upload artifact
         uses: actions/upload-pages-artifact@v2
+        with:
+          path: .vitepress/dist
 
   # Deployment job
   deploy:

diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,5 @@
+node_modules
+.yarn
+dist
+cache
+temp
diff --git a/.vitepress/config.mts b/.vitepress/config.mts
@@ -0,0 +1,51 @@
+import { defineConfig } from 'vitepress'
+import footnote from 'markdown-it-footnote'
+
+// https://vitepress.dev/reference/site-config
+export default defineConfig({
+  title: "LLM-jp",
+  description: "Overview of Japanese LLMs",
+  base: '/awesome-japanese-llm/',
+  themeConfig: {
+    socialLinks: [
+      { icon: 'github', link: 'https://github.com/llm-jp/awesome-japanese-llm' }
+    ],
+
+    search: {
+      provider: 'local'
+    },
+
+    logo: 'https://llm-jp.nii.ac.jp/assets/images/logo2.png',
+
+    outline: {
+      level: [2, 4],
+    }
+  },
+  rewrites: {
+    'README.md': 'index.md',
+    'en/README.md': 'en/index.md',
+    'fr/README.md': 'fr/index.md',
+  },
+  markdown: {
+    config: (md) => {
+      md.use(footnote)
+    }
+  },
+  lastUpdated: true,
+  locales: {
+    root: {
+      label: '日本語',
+      lang: 'ja-JP',
+    },
+    en: {
+      label: 'English',
+      lang: 'en-US',
+      link: '/en'
+    },
+    fr: {
+      label: 'Français',
+      lang: 'fr-FR',
+      link: '/fr/'
+    },
+  }
+})
diff --git a/.vitepress/theme/index.ts b/.vitepress/theme/index.ts
@@ -0,0 +1,16 @@
+// https://vitepress.dev/guide/custom-theme
+import { h } from 'vue'
+import type { Theme } from 'vitepress'
+import DefaultTheme from 'vitepress/theme'
+
+export default {
+  extends: DefaultTheme,
+  Layout: () => {
+    return h(DefaultTheme.Layout, null, {
+      // https://vitepress.dev/guide/extending-default-theme#layout-slots
+    })
+  },
+  enhanceApp({ app, router, siteData }) {
+    // ...
+  }
+} satisfies Theme
diff --git a/README.md b/README.md
@@ -1,8 +1,8 @@
 # 日本語LLMまとめ
-[ [**English**](./README_en.md) | [**Français**](./README_fr.md) | 日本語 ]
+[ [**English**](./en/README.md) | [**Français**](./fr/README.md) | 日本語 ]
 
 <p align="center">
-  <img src="figures/parameter_size_overview.png" alt="日本語LLM・海外LLMのパラメータサイズの推移">
+  <img src="./figures/parameter_size_overview.png" alt="日本語LLM・海外LLMのパラメータサイズの推移">
 </p>
 <figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の <a href="https://lifearchitect.ai/models-table/">Models table</a> を参照しています（ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む）。修正・追加等ありましたらお知らせ下さい。</figcaption>
 
@@ -353,104 +353,104 @@
 <a id="hybrid-benchmark-suites"></a>
 ### 複合型ベンチマーク
 
-#### [Nejumi LLMリーダーボード Neo](http://nejumi.ai/) (Weights & Biases)
+**[Nejumi LLMリーダーボード Neo](http://nejumi.ai/) (Weights & Biases)**
 
 一問一答形式で言語理解を評価する [llm-jp-eval](#llm-jp-eval) とプロンプト対話で生成能力を評価する [Japanese MT-bench](#jp-mt-bench) による総合評価の結果をまとめている。
 
 <a id="basic-benchmark-suites"></a>
 ### 基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット
 
 <a id="llm-jp-eval"></a>
-#### [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) (LLM-jp)
+**[llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) (LLM-jp)**
 
 複数のデータセットを横断して日本語 LLM を自動評価するツールである。  
 対応している全データセット一覧は[こちら](https://github.com/llm-jp/llm-jp-eval/tree/main/src/llm_jp_eval/datasets)から確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。  
 評価結果は [llm-jp-eval リーダーボード](http://wandb.me/llm-jp-leaderboard) にまとめられている。
 
-#### [JP Language Model Evaluation Harness](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable) (Stability AI)
+**[JP Language Model Evaluation Harness](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable) (Stability AI)**
 
 Stability AI による [EleutherAI/lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness) のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。  
 対応している全データセット一覧は[こちら](https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable/lm_eval/tasks/ja)から確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。  
 rinna による詳細な評価結果まとめがある: [[rinna] Benchmark of Stability-AI/lm-evaluation-harness](https://rinnakk.github.io/research/benchmarks/lm/)
 
-#### [JGLUE](https://github.com/yahoojapan/JGLUE) (早大河原研 & ヤフー)
+**[JGLUE](https://github.com/yahoojapan/JGLUE) (早大河原研 & ヤフー)**
 
 [GLUE ベンチマーク](https://gluebenchmark.com/)の日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む（[JCoLA](https://github.com/osekilab/JCoLA) は東大大関研により作成）。各タスクの詳細は[こちら](https://www.jstage.jst.go.jp/article/jnlp/30/1/30_63/_article/-char/ja)や[こちら](https://techblog.yahoo.co.jp/entry/2022122030379907/)を参照
 
-#### [JMMLU](https://github.com/nlp-waseda/JMMLU) (早大河原研)
+**[JMMLU](https://github.com/nlp-waseda/JMMLU) (早大河原研)**
 
 [MMLU ベンチマーク](https://github.com/hendrycks/test)の日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題（日本問題）を新たに追加しているのが特徴である。
 
-#### [日本語 Open LLM Leaderboard](http://wandb.me/llm-jp-openllmleaderboard) (LLM-jp)
+**[日本語 Open LLM Leaderboard](http://wandb.me/llm-jp-openllmleaderboard) (LLM-jp)**
 
 Huggingface の [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。
 
 <a id="open-ended-benchmark-suites"></a>
 ### 人間らしい応答の生成能力を中心に測定するベンチマーク/データセット
 
 <a id="jp-mt-bench"></a>
-#### [Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) (Stability AI)
+**[Japanese MT-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge) (Stability AI)**
 
 マルチターン会話能力を問う [MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge) の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。<br>GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。
 
-#### [Rakuda Benchmark](https://github.com/yuzu-ai/japanese-llm-ranking) (YuzuAI)
+**[Rakuda Benchmark](https://github.com/yuzu-ai/japanese-llm-ranking) (YuzuAI)**
 
 日本の地理、歴史、政治、社会に関する[40問の自由質問](https://huggingface.co/datasets/yuzuai/rakuda-questions)に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。
 
-#### [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) (ELYZA)
+**[ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) (ELYZA)**
 
 複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。<br>要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。<br>評価結果は[こちら](https://docs.google.com/spreadsheets/d/1mtoy4QAqDPk2f_B0vDogFoOrbA5G42DBEEHdqM4VmDI/edit#gid=1023787356)や[こちら](https://zenn.dev/elyza/articles/5e7d9373c32a98)を参照。また、より新しいモデルを含む評価結果は[こちら](https://note.com/elyza/n/n5d42686b60b7)を参照。
 
-#### [Japanese Vicuna QA Benchmark](https://github.com/ku-nlp/ja-vicuna-qa-benchmark) (京大 言語メディア研究室)
+**[Japanese Vicuna QA Benchmark](https://github.com/ku-nlp/ja-vicuna-qa-benchmark) (京大 言語メディア研究室)**
 
 MT-Bench の前身である [vicuna-blog-eval](https://github.com/lm-sys/vicuna-blog-eval) の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価（勝率計算）のスクリプトも含まれている。リーダーボードは[こちら](http://wandb.me/llm-jp-vicunaleaderboard)
 
 <a id="logical-reasoning-benchmark-suites"></a>
 ### 論理推論能力を測定するベンチマーク/データセット
 
-#### [JFLD (Japanese Formal Logic Deduction)](https://aclanthology.org/2024.lrec-main.832/) (日立製作所)
+**[JFLD (Japanese Formal Logic Deduction)](https://aclanthology.org/2024.lrec-main.832/) (日立製作所)**
 
 日本語 LLM の演繹推論能力を問うデータセット（同著者らが提案している [FLD (Formal Logic Deduction)](https://github.com/hitachi-nlp/FLD) の日本語版）。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。
 
-#### [JHumanEval](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P10-9.pdf) (日本女子大 倉光研)
+**[JHumanEval](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P10-9.pdf) (日本女子大 倉光研)**
 
 英語の指示から Python コードの生成能力を評価するベンチマークである [HumanEval](https://huggingface.co/datasets/openai_humaneval) の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。
 
 <a id="domain-specific-benchmark-suites"></a>
 ### 特定ドメインの性能を測定するベンチマーク/データセット
 
-#### [Japanese Language Model Financial Evaluation Harness](https://github.com/pfnet-research/japanese-lm-fin-harness) (Preferred Networks)
+**[Japanese Language Model Financial Evaluation Harness](https://github.com/pfnet-research/japanese-lm-fin-harness) (Preferred Networks)**
 
 金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細は[こちら](https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/C6-4.pdf)を参照
 
-#### [Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) (ストックマーク)
+**[Stockmark Business Questions](https://huggingface.co/datasets/stockmark/business-questions) (ストックマーク)**
 
 市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。
 
 <a id="embeddings-benchmark-suites"></a>
 ### 埋め込みモデルのベンチマーク/データセット
 
-#### [JMTEB](https://jedworkshop.github.io/JLR2024/materials/b-3.pdf) (SB Intuitions)
+**[JMTEB](https://jedworkshop.github.io/JLR2024/materials/b-3.pdf) (SB Intuitions)**
 
 [MTEB](https://github.com/embeddings-benchmark/mteb)の日本語版として作成されたベンチマーク。  
 文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている（その後、リランキングタスクが新たに追加）。
 
 <a id="vl-benchmark-suites"></a>
 ### 視覚言語モデル (Vision-Language Models) のベンチマーク/データセット
 
-#### [Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) (Turing)
+**[Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) (Turing)**
 
 21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。
 
-#### [JA-VLM-Bench-In-the-Wild](https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild) (Sakana AI)
+**[JA-VLM-Bench-In-the-Wild](https://huggingface.co/datasets/SakanaAI/JA-VLM-Bench-In-the-Wild) (Sakana AI)**
 
 Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。
 
-#### [LLaVA-Bench-In-the-Wild (Japanese)](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-in-the-wild) (Turing)
+**[LLaVA-Bench-In-the-Wild (Japanese)](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-in-the-wild) (Turing)**
 
 [LLaVA-Bench-In-the-Wild](https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild) を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。
 
-#### [LLaVA-Bench (COCO) Japanese](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-ja) (Turing)
+**[LLaVA-Bench (COCO) Japanese](https://github.com/turingmotors/heron/tree/main/playground/data/llava-bench-ja) (Turing)**
 
 LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。
 
@@ -537,7 +537,7 @@ LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL
 このプロジェクトに貢献してくれているコントリビューターのみなさんです！
 
 <a href="https://github.com/llm-jp/awesome-japanese-llm/graphs/contributors">
-  <img src="figures/contributors.svg" />
+  <img src="./figures/contributors.svg" />
 </a>
 
 <a id="citation"></a>

diff --git a/build/fix_bibtex_codeblock_for_jekyll.py b/build/fix_bibtex_codeblock_for_jekyll.py