本專案整理了《LLM 大型語言模型的絕世祕笈:27 路獨步劍法,帶你闖蕩生成式 AI 的五湖四海》書中提及的程式碼資源,此書內容改編自第 15 屆 iThome 鐵人賽 AI & Data 組冠軍系列文章《LLM 學習筆記》,現在可於各大書商通路購買,請各位多多支持!
博碩 | 天瓏 | 博客來 | 金石堂 | momo | 三民 | 誠品 | iThome 系列原文
- Ch 1 - Bigram 語言模型完整程式碼 (Colab)
- Ch 4 - 文字介面聊天範例完整程式碼
- Ch 5 - 貓貓塔羅完整程式碼
- Ch 5 - 停止串流範例完整程式碼
- Ch 8 - Latex 論文閱讀完整程式碼
- Ch 11 - HF Transformers 範例程式碼 (Colab)
- Ch 11 - 速度與記憶體評測完整程式碼
- Ch 13 - StarCoder 2 使用範例程式碼 (Colab)
- Ch 14 - 簡易量化範例程式碼 (Colab)
- Ch 15 - 速度評測完整程式碼
- Ch 19 - N-Gram Search 完整程式碼
- Ch 21 - 中二技能翻譯完整程式碼
因為書本內容受限於筆者撰文當下的時空背景,因此有些事物變遷無法被紀錄進去。此節收錄書中的內文勘誤,在博碩官網亦能找到相關的勘誤資訊,如果發現其他問題也歡迎回報!
圖 1-1 有誤,修正後的圖檔為:
Breeze 是由聯發科技集團的 AI 研究單位聯發創新基地(MediaTek Research)所開發的繁體中文語言模型,架構與權重承襲自 Mistral,同樣為 7B 參數量的模型,但是分詞器有針對繁體中文額外擴充詞表。可能是因為參數量並不大的關係,所以能力上也只是普通而已。
但是,開發團隊後來又推出了 BreeXe-8x7B 的模型,與 Mixtral 一樣採用 MoE 架構,雖然有將近 50B 的參數量,但是能維持 13B 的生成速度,而且生成效果大幅提昇!雖然效果可能不如更大規模的模型,但在同等生成速度下,依然是筆者用過最頂尖的繁體中文模型。模型權重完整開源在 HF Hub 上,筆者亦有轉換並上傳 GGUF 的版本,此外還有官方 Demo 網頁可以做測試,推薦各位一定要去用看看!
註:修正 BreeXe 未開源的描述。
MIT License