一、關於計畫
在《原住民族語言發展法》以及中央近年推動的語言復振政策之下,族語數位化逐漸被視為語言保存與使用的重要環節,而人工智慧(Artificial Intelligence, AI)也因應需求成為協助加速建置族語數位資源的技術之一。
族語 AI 系統為財團法人原住民族語言研究發展基金會自 112 年起推動的族語 AI 翻譯計畫成果之一。此計畫屬於探索性研發,目標是在審慎評估可行性的前提下,利用 AI 技術為臺灣原住民族語建立初步的數位化基礎——族語語音辨識、擬真語音合成與基礎翻譯系統。目前已經完成開發16族42語言別的系統功能,更針對阿美語、賽德克語及太魯閣語三族語建立初步具「可機讀性」語言資料庫。
我們希望透過族語AI系統能夠應用在族語教學、文化傳播及日常溝通提供發展基礎,我們將持續驗證與優化其可用性,期待能為族語復振的漫長道路上,帶來更多實踐的可能性。
在此特別感謝財團法人臺灣聖經公會授權族語聖經(包含有聲聖經)語料,以及Pipalofasaran to Sowal no Pangcah/'Amis 臺灣阿美族語言永續發展學會、臺灣太魯閣族語言發展學會、臺灣原住民族賽德克族語言文化學會、各位族語老師、族語文章作者授權著作。另外,感謝執行本計畫意傳科技有限公司及李鴻欣博士、陳力瑋先生,全心投入 AI 系統開發。
二、語料簡介
本計畫所使用的訓練語料,包含本基金會既有語料(族語E樂園及族語線上辭典等),以及計畫期間所蒐集的語音辨識語料、語音合成語料,阿美語、賽德克語及太魯閣語三族語的平行語料(族語與華語對譯),並建置可機讀語言資料庫。可機讀語言資料庫相關程式碼、模型及語料,皆可對外授權(詳見語料申請頁),供各界學術或研究單位參考,共同為族語 AI 應用做出貢獻。
三、系統簡介
族語語音辨識系統
語音辨識系統(Automatic Speech Recognition, ASR)是將族語口語聲音(包含即時錄音或音檔上傳),轉換為對應的族語文字。系統透過既有語音資料進行模型訓練,處理各族的發音特性、語音變異及語速差異等因素,以提升辨識結果的可用程度。在應用上,系統可處理教學或日常對話,提供語音辨識生成文字的服務;同時,本基金會亦延伸製作了供語推組織及語推人員使用的族語字幕辨識系統,以大幅減少人工繕打逐字稿作業時間、提升語料收集效率。
族語語音合成系統
擬真語音合成系統(Text-to-Speech, TTS)可將族語文字轉換為接近真人的自然語音。系統訓練除運用既有聲音語料外,本基金會亦邀集秀姑巒阿美語、太魯閣語及德固達雅賽德克語族人錄製超過 10 小時的高品質語料,以提升語音合成結果的自然度與可理解度。
此項技術可望應用於族語學習教材、導覽語音、新聞播報等情境,甚至擴展至智慧語音助理等服務,使族語能以更多形式被聽見,降低使用與接觸的門檻,並支持族語在日常中的傳播與運用。
族語基礎翻譯系統beta
族語基礎翻譯系統提供族語與臺灣華語的雙向翻譯功能。系統透過大量平行語料(族語與華語的對照文本)進行模型訓練,並加入臺灣聖經公會授權的族語聖經語料,以提升阿美語、賽德克語與太魯閣語的翻譯品質,使系統能產生初步可供理解的文本翻譯結果。
在應用層面,此系統期能支援教學、語料轉譯等基礎需求。然而,翻譯精確度仍有明顯提升空間,尚不足以作為正式翻譯工具使用;未來本基金會將持續擴充語料、完善模型,逐步提升系統的可用程度。