一、語料簡介
本語言資料庫包含語音辨識語料(音檔)、語音合成語料(音檔)以及三族語平行語料(族語及華語對譯),用以發展族語語音合成語料庫及發展族語擬真語音合成模型,可作為基於深度學習之語音合成研究資料。
二、申請方式
請洽本基金會研究發展組聯繫窗口:02-2341-8508分機604,林小姐。
三、授權範圍
本族語AI系統所使用之語料如下列(聲音語料以小時計、文字語料以句數計):
(一)本基金會既有語料
- 族語E樂園:573.19小時、525,968句
- 原住民族語言線上辭典:132.15小時、96,720句
- 原住民族語言資料庫口語語料及逐字稿:45.03小時、59,987句
- 語推組織採集口語語料及逐字稿:5.33小時、8,413句
上述語料業經處理為可機讀語料,處理原則包括:
- 特殊符號修正、文字正規化。若文字中含有括弧或斜線,以致無法確定轉換與否,則略過該語句,以避免模稜兩可的情況。
- 略過了含有阿拉伯數字與中文的語句。
(二)語音辨識語料
本計畫新搜集之聲音語料,包含阿美族五語別、太魯閣族語、賽德克族四語別,朗讀文本經專業族語老師校正後,由各族發音員使用手邊器材(手機、電腦等)錄製而成,每發音員音檔時長約1小時左右,各語別發音員音檔時長統計逾 100 小時。
(三)語音合成語料
包含秀姑巒阿美語、太魯閣語、德固達雅賽德克語三語別,每語別各有2位(含)以上發音員於錄音室錄製文本朗讀,朗讀文本業經專業族語老師校正,每語別各發音員音檔時長合計達10小時。
- 副檔名:WAV
- 音檔規格:24 bt / 192 kHz
- 總時數:達 30 小時
(四)族、華語平行語料
包含阿美族五語別、太魯閣族語、賽德克族四語別共 10 語別之文字語料,其中阿美語達 1.8 萬句、太魯閣語達 1 萬句、賽德克語達 1.3 萬句,每句皆有華語平行對應,作爲基礎翻譯模型訓練用語料,發展族語翻譯模型。
(五)計畫程式碼及計畫模型
本族語AI系統所開發的AI應用程式碼及訓練模型,可供後續有合作需求之學術研究單位參考。考量到模型與程式碼仍為初步成果,其目的在於作為學術研究與技術交流的起點,提供一個可供優化與再開發的基礎,共同為族語AI應用領域做出貢獻。
四、語料範例
秀姑巒阿美語
O ta’akay sato a ’alo^ i, ano awaay ko ’o’ol ato ’aresing no kilakilang ato semosemot i, mimaan a malata’angay a ’alo^?
如此大的河流,如果沒有來自樹木與草地的露水,河流又該如何壯大呢?
太魯閣語
Tgpusu bi knkla kndsan ka kari, ungat ka kari do ungat ka knkla kndsan uri da.
語言是文化的根本,沒有語言就沒有文化。
德固達雅賽德克語
ni hani ba mkela mesa ini slai ka nGaya, nkari Seediq nii.
才發現自己的語言文化竟是如此地豐郁而深富內涵。