【蔡依璇/新竹報導】當前全球化與語言同質化加劇,世界上六千多種語言中,有四成被列為瀕危語言,台灣的客語、閩南語及南島語,都面臨語言轉移與傳承斷層,如何運用科技儲存並再現語言,成母語復振的核心課題。政治大學英國語文學系博士後研究員葉秋杏今天(21日)在一項客家國際研討會上指出,「台灣客語語料庫計畫」將於明年推出2.0版,屆時將成全球規模最大的客語語料庫。
全球客家研究聯盟(Consortium of Global Hakka Studies, GHAS)國際學術研討會昨、今兩天,在陽明交通大學客家學院舉行。在推動少數語言保存上,建置語料庫與校園母語教學,是兩個重要的討論方向。
葉秋杏在會中分享台灣首個國家級客語語料庫的建置歷程,及未來在人工智慧及教育推廣上的可能性。聯合大學文化創意與數位行銷學系教授張陳基說,台灣在全球客語語言研究具關鍵地位,公開與標準化語料庫,有助提升研究尺度與國際能見度。聯合大學客家語言與傳播研究所副教授兼所長范瑞玲,則聚焦苗栗地區國中客語教學,探討《國家語言發展法》施行後,國中客語課程的實際成效與挑戰。
語料庫是復振起點 除了保存更要能用
「如何運用科技儲存並再現語言,成為語言復振的核心課題。」葉秋杏說,客家委員會從2017年委託政大啟動「台灣客語語料庫計畫」,打造首座國家級客語語料庫,1.0版於2022年推出,語料涵蓋四縣、海陸、大埔、饒平、詔安、南四縣共六腔跨地區語料,時間跨度自1990年代至今,來源包括出版品、政府文宣、訪談、電視節目、紀錄錄音等。

葉秋杏表示,所有資料都經合法授權、兩次以上校訂與母語審查,目前語料庫收錄超過600萬字書面語與40萬字口語語料,預計明年(2026年)推出2.0版後,總字數將突破千萬,成為全球規模最大的客語語料庫。
「語料庫的使命是讓語言被看見、被使用,成為活的語言,而不是只停留在保存。」葉秋杏說,少數語言的語料庫,不能停留在典藏,更要進一步成為語言學研究與人工智慧開發的基礎,「我們希望語料可以被機器讀懂、可被運算使用,才能真正提高語言活力。」
葉秋杏以紐西蘭毛利語、愛爾蘭語與日本愛努語等案例,比較國際語言復振策略。「國際經驗顯示,語料庫往往是語言復振的重要起點,能同時支撐學術研究、教材編纂、科技工具開發與文化再生。」葉秋杏說,毛利語與愛爾蘭語,都已建立大型語料庫;愛努語從民間文學運動開始,最終促使政府投入文化復興政策。
葉秋杏認為,語料庫不應只是靜態資料庫,而是語言科技的基礎建設。透過自然語言處理技術,未來可發展語音辨識、翻譯系統、語料搜尋工具、語言教學平台與AI對話應用,使客語在更多場景中自然使用。

盼大型客語語言模型進駐校園
張陳基則以使用者角度,分享語料庫應用觀察。他指出,目前語料庫取得,受限於申請程序與著作權授權規範,影響研究者取得完整資料的效率。他舉例,若能釋出可下載的原始資料清單、分詞詞庫或完整的斷詞詞庫,將更有利於語言分析與自然語言處理,類似華文領域常見的「結巴分詞工具」,可讓客語文字處理在學術與科技應用上更具發展空間。

張陳基也表示,現有客語語料約一千多萬字,對AI模型訓練仍偏不足,未來可透過大模型微調( fine-tuning)、資料擴充(reg)或跨來源(cross-sourcing)方式補強,並探索自動審查與即時更新機制,使新世代研究者更便捷取得語料並持續應用。
張陳基說,台灣在全球客語語言研究具關鍵地位,透過語料庫公開與標準化,有助提升研究尺度與國際能見度。現階段跨腔調、跨來源的客語資料系統化整合,是極具意義的成果,未來「大型客語語言模型」若能逐步完善,也可在國中、小語文教學中實際輔助,更有助提升聽說讀寫等面向。
客語課程挑戰多 「三明治教學法」助提升
隨著社會結構變遷與語言態度影響,客語使用領域逐漸萎縮,葉秋杏表示,不僅口語交流減少,書面產出也愈來愈稀少。范瑞玲以苗栗為例說,「苗栗縣客家人口比例高達62.5%,理應是客家文化與語言傳承的重點地區,但20歲以下的年輕人中,近一半(47.5%)不太會說客語。」

《國家語言發展法》公佈後,國中及高中正式納入客語課程。但范瑞玲指出,許多學生在客語演講等競賽中表現優異,日常生活使用客語的能力仍相當有限,顯示教學與實務應用間,仍存在落差。
在教學策略上,除了要說故事吸引學生興趣外,范瑞玲介紹「三明治教學法」,透過「客語—華語—客語」模式循環,引導學生逐步理解語意、強化輸出能力,減少學生因陌生詞彙而失去信心的情況。


范瑞玲研究發現,學生的性別與年級,對學習客語影響不大,但「父親族群別」則有顯著影響;若父親是是客家人,學生不僅在客語能力表現較佳,對課程與教師教學,通常也會給予較高評價。
在學習狀況上,范瑞玲說,讀寫能力是普遍弱項。「客語字與華語字差異大,學生常因字形陌生而不易表達,字彙輸出仍需更完善教材支援。」另外,教師端也面臨時數有限、學生程度差異大、專業資源不足等挑戰。




