超過 2,500 種語言正面臨消失風險
每隔幾個月,就有一種語言更接近滅絕。
隨著母語使用者逐漸老去、學習該語言的人越來越少,語言所承載的實用知識也更難以傳承。當故事與歌謠的歷史逐漸褪色,社群的身分認同也在無聲中瓦解——這種失落是如此貼近人心,而世界也因此少了一分色彩。到本世紀末,上千種語言可能會消失。對風的稱謂,與敬奉土地的祝禱,便成了僅存的迴響。
在意識到情勢如此嚴峻後,UNESCO 將 2022–2032 年訂為「原住民族語言行動十年」。這突顯了全球在語言振興與數位包容方面的努力,也肯定了努納福特等地合作夥伴正在推動的工作。根據 UNESCO 的「世界瀕危語言地圖」,有超過 2,500 種語言面臨消失風險,且每一次語言流失都意味著數百年智慧與傳統的消逝。
「語言決定了誰能夠使用 AI,如果人們無法用自己的母語互動,AI 一樣難以觸及,」Microsoft AI for Good Lab 常務董事 Inbal Becker-Reshef 表示。
努納福特超過 70% 的因紐特人表示伊努克提圖特語是他們的母語。
保存文化遺產,提升社群能力
努納福特是加拿大面積最大的極北領地,涵蓋大部分加拿大北極地區,其中一半位於北極圈內。努納福特有超過 30,000 名原住民居住,在伊努克圖特語中意為「我們的土地」,且這個統稱涵蓋了伊努克提圖特語和伊努維亞盧克通語兩種方言。
長期以來,伊努克圖特語缺乏足以反映其方言的翻譯工具或大型語言模型 (LLM)。因此,透過數位工具替未來世代保存語言幾乎成為了不可能的任務。
為了保存並推進伊努克提圖特語,努納福特政府與 Microsoft 合作,以協助人們用英語和伊努克提圖特語溝通,同時建立社群共同擁有的穩健翻譯記憶庫。透過與努納福特政府和社群緊密合作來收集語言資料,Microsoft 將伊努克圖特語語系加入 Microsoft Translator,讓努納福特的傳統方言得以進入現代數位環境,同時支援由社群主導的保存與使用。
此方法的核心在於跟在地合作夥伴共同設計,以建立治理與同意機制、取得社群核准的文字和音訊資料、與在地審核人員共同整理與標註資料,並依文化和語言規範驗證輸出結果。這個以悉心管理為基礎的過程建立了信任,使得模型能夠反映真實使用的語言,並且被在地人接受。這些互相補強的努力共同改善了真實世界的溝通情況。醫療保健服務提供者能夠更輕鬆地跨距離協作,努納福特的年輕世代能夠與長者更緊密地建立連結,人們也能用自己選擇的語言創作、溝通與翻譯。如今,教育工作者會在學生的成績單上用伊努克提圖特語加入回饋,並與單語家庭建立更好的互動。
這項工作持續與 Microsoft AI for Good Lab 合作,共同開發出讓開放權重大型語言模型 (LLM) 適用於伊努克提圖特語等低資源語言的流程。
「為了讓努納福特政府信任模型,並在最後採用與運用,勢必要與他們建立緊密合作關係,」Inbal Becker-Reshef 表示
努納福特位於加拿大的極北領地,多數人口是因紐特族。
約 85% 的努納福特人口使用具有多種方言的語言,伊努克提圖特語。
在 Translator 應用程式中,使用者可透過照片、語音或文字進行跨語言溝通。
支援所有語言的進展
隨著全球加快了採用 AI 的速度,納入低資源語言已成為關鍵議題。語言是通往教育、醫療保健和經濟機會的門戶;如果無法有意識地納入,整個社群都會面臨落後的風險。Microsoft 採取開放原始碼的做法,確保為語言保存與振興開發的工具和資料集得以供全球社群、研究人員與合作夥伴使用。透過開放這些資源,政府可以更有效地與社群互動,AI 的普及也能讓在地意見共同塑造科技的未來面貌。
「在 Microsoft 內部,我們確保原住民族社群主導合作,讓夥伴關係兼具溫度和嚴謹性。我們會以尊重、同意和共同問責為基礎進行合作,」原住民包容網路執行贊助人 Mike Adams 表示。
Microsoft AI for Good Lab 已開發出可重現的管道,讓開放權重 LLM 適用於低資源語言。此框架提升了合作夥伴的能力,並倡導為其社群量身打造的 AI 工具,無論該語言的數位足跡如何。全球專案涵蓋加拿大的伊努克提圖特語、紐西蘭的毛利語、馬拉威的齊切瓦語,以及東非地區的史瓦希利語。此外,透過 LINGUA 計畫,Microsoft 資助並強化針對歐洲代表性不足語言建立高品質資料集的專案。藉由分享技術藍圖並與在地專家合作,每一種語言都能在最新的 AI 進展中受益。
從文化角度來看,人們必須能夠用自己的語言順暢溝通。AI 為人們帶來了巨大力量,可是人們不應被迫學習另一種語言才能使用它。
為所有人打造 AI 未來
AI for Good Lab 的最新研究突顯了以低資源語言為主的國家,其 AI 採用率明顯較低,表示語言包容本身就是影響 AI 普及的重要獨立因素。網頁內容以英語為主 (全球約一半內容為英語,但其母語人口只有 5% 左右),導致 AI 模型往往難以處理其他語言,進而延續全球不平等的情況。
AI 是史上成長最快的技術,共有 12 億人使用,卻還有數十億人無法使用。許多人都缺乏支撐 AI 的基礎條件,像是電力、網際網路和數位技能。只有在每個人都將新科技融入生活、工作和學習時,才有擴散的可能;但是,如果不正視並縮小落差,我們可能會產生另一種數位鴻溝。為避免重蹈覆轍 (變革性技術過去只惠及部分族群),AI 包容工作必須搭配電力、連線能力和數位技能等基礎條件。因此,讓所有社群都能取得可用的工具,才是真正的民主化流程。
Microsoft 人工智慧經濟研究所的第一份 AI 擴散報告顯示,真正的影響來自擴散,也就是在科技融入真實生活時。在 AI 時代,包容所有語言可啟發每個社群、尊重每種文化,並確保人人都能參與數位時代。透過接納語言多樣性,就能帶來學習、連結與創新的新機會。
真正的重點在於確保公平分配這些對我們而言具有變革性的技術。