Skip to content

penut85420/LLM-Note-Labs

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LLM Note 補充資源

介紹

本專案整理了《LLM 大型語言模型的絕世祕笈:27 路獨步劍法,帶你闖蕩生成式 AI 的五湖四海》書中提及的程式碼資源,此書內容改編自第 15 屆 iThome 鐵人賽 AI & Data 組冠軍系列文章《LLM 學習筆記》,現在可於各大書商通路購買,請各位多多支持!

博碩 | 天瓏 | 博客來 | 金石堂 | momo | 三民 | 誠品 | iThome 系列原文

Cover

相關專案

內文勘誤

因為書本內容受限於筆者撰文當下的時空背景,因此有些事物變遷無法被紀錄進去。此節收錄書中的內文勘誤,在博碩官網亦能找到相關的勘誤資訊,如果發現其他問題也歡迎回報!

1.1 語言模型不能吃

圖 1-1 有誤,修正後的圖檔為:

1-1

12.3.1 Breeze & BreeXe

Breeze 是由聯發科技集團的 AI 研究單位聯發創新基地(MediaTek Research)所開發的繁體中文語言模型,架構與權重承襲自 Mistral,同樣為 7B 參數量的模型,但是分詞器有針對繁體中文額外擴充詞表。可能是因為參數量並不大的關係,所以能力上也只是普通而已。

但是,開發團隊後來又推出了 BreeXe-8x7B 的模型,與 Mixtral 一樣採用 MoE 架構,雖然有將近 50B 的參數量,但是能維持 13B 的生成速度,而且生成效果大幅提昇!雖然效果可能不如更大規模的模型,但在同等生成速度下,依然是筆者用過最頂尖的繁體中文模型。模型權重完整開源在 HF Hub 上,筆者亦有轉換並上傳 GGUF 的版本,此外還有官方 Demo 網頁可以做測試,推薦各位一定要去用看看!

註:修正 BreeXe 未開源的描述。

授權

MIT License

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages