語料申請

一、語料簡介

本語言資料庫包含語音辨識語料（音檔）、語音合成語料（音檔）以及三族語平行語料（族語及華語對譯），用以發展族語語音合成語料庫及發展族語擬真語音合成模型，可作為基於深度學習之語音合成研究資料。

請洽本基金會研究發展組聯繫窗口：02-2341-8508分機604，林小姐。

本族語AI系統所使用之語料如下列（聲音語料以小時計、文字語料以句數計）：

（一）本基金會既有語料

上述語料業經處理為可機讀語料，處理原則包括：

（二）語音辨識語料

本計畫新搜集之聲音語料，包含阿美族五語別、太魯閣族語、賽德克族四語別，朗讀文本經專業族語老師校正後，由各族發音員使用手邊器材（手機、電腦等）錄製而成，每發音員音檔時長約1小時左右，各語別發音員音檔時長統計逾 100 小時。

（三）語音合成語料

包含秀姑巒阿美語、太魯閣語、德固達雅賽德克語三語別，每語別各有2位（含）以上發音員於錄音室錄製文本朗讀，朗讀文本業經專業族語老師校正，每語別各發音員音檔時長合計達10小時。

（四）族、華語平行語料

包含阿美族五語別、太魯閣族語、賽德克族四語別共 10 語別之文字語料，其中阿美語達 1.8 萬句、太魯閣語達 1 萬句、賽德克語達 1.3 萬句，每句皆有華語平行對應，作爲基礎翻譯模型訓練用語料，發展族語翻譯模型。

（五）計畫程式碼及計畫模型

本族語AI系統所開發的AI應用程式碼及訓練模型，可供後續有合作需求之學術研究單位參考。考量到模型與程式碼仍為初步成果，其目的在於作為學術研究與技術交流的起點，提供一個可供優化與再開發的基礎，共同為族語AI應用領域做出貢獻。

O ta’akay sato a ’alo^ i, ano awaay ko ’o’ol ato ’aresing no kilakilang ato semosemot i, mimaan a malata’angay a ’alo^?

如此大的河流，如果沒有來自樹木與草地的露水，河流又該如何壯大呢？

Tgpusu bi knkla kndsan ka kari, ungat ka kari do ungat ka knkla kndsan uri da.

語言是文化的根本，沒有語言就沒有文化。

ni hani ba mkela mesa ini slai ka nGaya, nkari Seediq nii.

才發現自己的語言文化竟是如此地豐郁而深富內涵。