2024 年 12 月至 2025 年 3 月,MozTW 社群與台灣維基媒體協會協力,正在推動六個台灣原住民族語的錄音補貼,以建構第一套自由開放的台灣原住民族語語音資料庫,促進本土語言的語音科技發展。
Common Voice 是什麼?
「Common Voice」開源語音語料收集專案( https://commonvoice.mozilla.org ),是開發 Firefox(火狐瀏覽器)的非營利組織 Mozilla 基金會(Mozilla Foundation)發起的專案。
這個專案的目的是收集世界上各種語言的錄音,並以 CC0 公眾授權(不限制商業用途)免費釋出。本專案自 2017 年開始至今,經由各地社群志工的協力,八年的時間,已經收錄超過 130 種語言。
Mozilla 發起 Common Voice 計劃的理想,是世界上所有的人,不論使用哪一種母語,都能享有語音輸入、語音合成、語音助理(如 Hey Siri 或 OK Google)等語音科技。
目前 Mozilla 自己未進行相關的 ASR 等語音模型開發。本專案僅處理收集、整理與開放資料等流程,並公開資料集,予以世界各地的科技廠商及研究者自由下載、免費使用。
Common Voice 在台灣的歷程
Common Voice 在台灣起始自 2017 年的 Voice Jam 活動。
Common Voice 網站開放之後,MozTW 志工(及廣大的自由軟體社群參與者,如 g0v 成員)即刻於 2018 年開始著手國語(台灣華語)的開設與推廣事宜,至今已累積 125 個小時以上的國語語料。2020 年我們協助 Mozilla 香港社群上線香港廣東話。於 2022 年,我們推動台語錄音上線,至今也累積了 23 小時的免費開放語料。
2024 年末,我們有幸爭取到原廠對於小型語言的補助,開始進行此原住民族語的語音錄音專案。
錄音結果公布在哪?
錄音結果以 CC0 公眾領域授權釋出,Mozilla 不對其作出任何版權限制,任何人跟任何公司都可以自由的下載與使用於自己的研究、開發專案上。
現在你就可以在這邊下載到國語、台語及其他一百三十種語言的錄音檔: https://commonvoice.mozilla.org/datasets
網站上的錄音定期每三個月釋出一次。本次族語錄音的成果,預期將會於 2025 年四月公布於上述頁面。
補助費用細節
本專案經 Mozilla 贊助台灣維基媒體協會進行原住民族語錄音,以建制開放自由的族語語音資料庫。
補助範圍包含以下六大語群,及其下各方言語類:
- 排灣
- 賽德克
- 撒奇萊雅
- 泰雅(含汶水、萬大)
- 魯凱(含多納、萬山、茂林)
- 布農
每個語群我們將補助 20 人次錄製 30 分鐘(每句 3-5 秒,預估 450 句,需操作 2-3 小時),每人次費用新台幣 $2500 元。
如果以語推組織名義申請,我們將區分為:錄音者本人 $1250,語推組織/聯絡小幫手 $1250 元。(語推組織幫手的工作包含協助錄音操作、重聽錄音的驗證工作、協助簽回領據。另小幫手本人也可以參加錄音)
1/31 前,各語言錄音總長度達 5 小時(約莫完成 10 人次),該語言聯絡人及語推組織另有目標獎金 7000 元(按完成長度均分)。
3/15 前,各語言音檔達總長度 10 小時(約莫完成 20 人次),也另有第二階段的目標獎金 7000 元。(按完成長度均分)。
一月中與三月初時,我們會計算每個語言的長度還差多少,請聯絡人協助補足。
最後,如果結案時,我們整個計劃六個語類都有達標(各十小時,總長度 60 小時),那麼每個語言,都將會有額外的結案獎金各 $22,000 元,提供予語推組織及聯絡人!(按照錄製人次均分)
你們是誰?
MozTW, Mozilla 台灣社群
Mozilla 台灣社群( https://moztw.org )是一群在台灣的 Firefox 志工與支持者。我們自 2002 年開始,持續進行 Firefox 等自由軟體跟開放文化相關的翻譯跟推廣活動。
2024 年末,我們有幸爭取到原廠對於小型語言的補助,因此開始推動原住民族語的語音資料收集。
關於 Common Voice 多年來在台灣的進展,推薦閱讀此篇最新的英文專訪,有提到台灣志工參與的脈絡:Mozilla is now offering free AI voice training data in 180 languages - Fast Company
台灣維基媒體協會
台灣維基媒體協會(Wikimedia Taiwan),是台灣的維基媒體分會,維基百科在台灣的志工與編輯社團。過去數年持續推動原住民族語維基百科,如撒奇萊雅語維基百科(Sakizaya Wikipitiya)、泰雅族語維基百科(Wikibitia na Tayal)、排灣族語維基百科(wikipidiya nua pinayuanan)、賽德克/太魯閣族語維基百科(Seediq Wikipidiya)等計畫。
本次的族語錄音補助專案,由台灣維基媒體協會負責財務、稅務跟行政相關事務,並結合族語百科的參與者社群一同進行。
特別感謝
在此感謝以下單位及老師對本專案的鼎力支持:
- 國立政治大學原住民族研究中心 ALCD Center for Aboriginal Studies NCCU 黃季平老師
- 臺灣大學語言學研究所 台大台灣南島語語料庫 NTU Corpus of Formosan Languages 宋麗梅老師
- 教育部葉丙成政務次長
- 教育部國民及學前教育署 授權十二年國教課程原住民族語文教材(九階教材)
相關資訊
最新消息
其他問題 FAQ
請參考 族語補助專案與錄音網站操作手冊
聯絡資料
台灣維基媒體協會
Common Voice 族語錄音補助專案
專案執行 Irvin Chen (陳心一)
0933561278 / irvin@moztw.org