本注音字型專案考量主要用途為教育使用,故目標先不考慮收錄所有歷史讀音、文言文等罕用讀音。 盡量貼近一般教育需求會使用到的讀音。 在蒐集讀音時,採用以下策略:
教育部於1999年3月公告有《國語一字多音審訂表》,已使用多年。後因社會各界批評不斷,2012年12月又公布了修訂版的《國語一字多音審訂表(初稿)》。然而《國語一字多音審訂表(初稿)》直到今日還沒有正式生效,教學現場似乎已有以上兩表混用的情形。
例如舊表「牛仔ㄗˇ褲」,在新表已改為「牛仔ㄗㄞˇ褲」;舊表「莘」字有兩個音ㄒㄧㄣ與ㄕㄣ,在「莘莘學子」一詞念ㄕㄣ,而新表則廢除ㄕㄣ音,併讀為ㄒㄧㄣ。
考慮到新、舊表有一併程度的並存,本專案同時收錄兩表裡出現的讀音。讀音的順序盡量以常用程度排列,難以判斷時依我個人主觀決定順序。
《國語一字多音審訂表(初稿)》共收有5317字,凡本表所收之字,原則上就不再收錄其他讀音(來源F除外,後述)。例如「法」字已不收ㄈㄚˋ音。
例外:《國語一字多音審訂表》不處理變音(一、不)與輕聲化(爸、媽…),這些字有另外收錄多音。
因為《國語一字多音審訂表(初稿)》只收了5317字,超過此範圍的國字,讀音則以《重編國語辭典》為準。 共蒐集到9955字的讀音。
化學領域很多元素用字、化學名詞用字,基於化學造字法,跟古文罕用字恰好長得一樣。 例如「羥」字,原意是一種羊,讀音為「ㄎㄥ」;但在化學領域,則是「氫氧」連讀的「ㄑㄧㄤˇ」音,唸成「ㄎㄥ」反而是不合理的。
在國家教育研究院網站上,有國立編譯館所編訂的《化學命名原則》可供下載。該表對於每個元素的讀音,以及各種難讀的化學用字都有清楚列出讀音。本專案據此來源共收錄232個字音。
當《化學命名原則》所收的文字與《重編國語辭典》重複時,基於這些化學用字之本義讀音在現代應已少用,故將《化學命名原則》所收的讀音收在第一讀音。
對於以上來源均未收的文字,本來打算採用《全字庫》所收的讀音。但《全字庫》所收的讀音實在太雜,最後決定再加入開源的新酷音輸入法詞庫所收的字音。只取這兩個來源有交集的讀音。
人工另外整理收錄詞末輕聲化造成的輕聲。以及台灣當地地名的特殊讀音(目前僅收加「蚋」ㄌㄚˋ)一字。
後來發現1999年原版《國語一字多音審訂表》收錄高達11,075字,之前因不明原因一直參考到不完整的資料。自 v1.3 起把這些讀音全部補充收錄。
但因為舊版本相容的因素,來自(F)源的讀音只能收在每個字的最後面,舊版本曾經所收的讀音都會完整保留。
make_ptable.rb 程式用來整理上述來源的讀音,並輸出完全讀音表 phonic_table_Z.txt。
由於本專案是採用IVS方式選擇破音,為了確保每個依照本專案生成的注音字型能夠相容,必須確保破音順序保持穩定。若每個字型破音順序不同,就無法保證切換字型時讀音不變的特性。
所以實質上,make_ptable.rb 必須讀入上一次釋出的版本,確保順序與之前版本一模一樣。新的讀音只能追加在後方。
所以當發佈新字型版本有變更讀音表時,應將最新的 phonic_table_Z.txt 存入 versions 資料夾內,並改名為字型版號,以便之後程式讀入,並可供未來查詢歷次版本差異之用。
- make_ptable.rb - 讀音整理程式
- phonic_table_A.txt - 程式處理(A)來源產出的讀音表:國語一字多音審訂表(初稿)
- phonic_table_B.txt - 程式處理(B)來源產出的讀音表:重編國語辭典
- phonic_table_C.txt - 程式處理(C)來源產出的讀音表:化學名詞用字之讀音
- phonic_table_D.txt - 程式處理(D)來源產出的讀音表:全字庫/新酷音輸入法詞庫
- phonic_table_E.txt - 人工編輯(E)來源的讀音表:補充輕聲字、地名特殊讀音表
- phonic_table_F.txt - 人工編輯(F)來源的讀音表:國語一字多音審訂表 1999
- phonic_table_Z.txt - 綜合A-F的完整讀音表,供字型生成之用
- phonic_types.txt - 整理後所有讀音排列組合列表