pixel

让每种语言都拥有发声的权利

在 AI 时代,包容所有语言对于社群与文化而言至关重要 

超过 2,500 种语言正面临消失的风险

每隔几个月,就有一种语言向消亡更近一步。

随着使用者老龄化、学习人数减少,语言承载的实用知识愈发难以传承。当历史故事与歌谣逐渐淡去,社群的身份认同也在悄然瓦解——这种损失直击人心,让世界也少了一份鲜活。到本世纪末,数千种语言可能不复存在,仅留下风中消散的名称回响,或是那些曾敬奉土地的仪式痕迹。

意识到事态的紧迫性,UNESCO 将 2022-2032 年定为“土著语言十年”。这一举措凸显了全球范围内支持语言复兴与数字包容的努力,而 Nunavut 等地的合作伙伴也在助力推进相关工作。根据 UNESCO 世界濒危语言地图集,超过 2,500 种语言正面临消失风险,每一种语言的消亡,都意味着数世纪的智慧与传统化为乌有。

“语言决定了谁能使用 AI——如果人们无法用自己的母语与之交互,AI 就始终遥不可及。”Microsoft AI 公益实验室常务董事 Inbal Becker-Reshef 表示。
A woman in a blue patterned dress dances with one hand raised, while several people stand and watch her in a room with lockers and coats in the background.

Nunavut 70% 以上的 Inuit 以 Inuktut 为母语

守护文化遗产,赋能社群发展

Nunavut 是加拿大面积最大、最北端的地区,涵盖加拿大北极地区的大部分区域,其中一半位于北极圈内。这里居住着超过 30,000 名土著居民,Nunavut 在 Inuktut 中意为“我们的土地”,该术语也统一指代 Inuktitut 和 Inuinnaqtun 两大方言。

长期以来,Inuktut 缺乏足够的翻译工具,也没有能反映其方言特征的大型语言模型 (LLM),这使得利用数字工具为后代保护该语言几乎成为一项不可能完成的任务。

为了保护和推广 Inuktitut,Nunavut 政府与 Microsoft 展开合作,助力人们实现英语与 Inuktitut 的双向沟通,同时构建一个强大的、由社群自主拥有的翻译记忆库。通过与 Nunavut 政府及当地社群密切合作收集语言数据,Microsoft 将 Inuktut 纳入 Microsoft Translator 体系,支持以社群为主导的语言保护与使用,让 Nunavut 的传统方言融入现代数字环境。

这一合作模式以与当地合作伙伴共同设计为核心,确立治理框架与知情同意机制,收集经社群认可的文本和音频素材,由本地审核人员整理标注数据,并依据文化与语言规范验证输出结果。这一以“托管责任”为基础的流程构建了信任,确保模型能反映真实的语言使用场景并被当地接纳。这些互补性努力共同改善了现实场景中的沟通效率:医疗服务提供者可更便捷地开展远程协作,Nunavummiut 的年轻一代能与长辈建立更紧密的联结,人们得以用自己选择的语言进行创作、沟通与翻译。如今,教育工作者已开始用 Inuktitut 在学生成绩单上添加反馈,更好地与单语家庭互动。

相关工作仍在持续推进,Microsoft AI 公益实验室进一步拓展合作,开发了一套适配流程,将开源大型语言模型 (LLM) 应用于 Inuktitut 这类低资源语言。

“与 Nunavut 政府的紧密合作至关重要,这让他们能够信任这些模型,并最终接受和使用它们。”Inbal Becker-Reshef 表示。

助力所有语言的发展与传承

随着 AI 在全球范围内加速普及,低资源语言的包容已成为关键议题。语言是通往教育、医疗和经济机遇的门户,若缺乏有意识的包容举措,整个社群都可能面临落后的风险。Microsoft 采用开源模式,确保为语言保护与复兴开发的工具和数据集能为全球各地的社群、研究人员和合作伙伴所用。通过开放这些资源,政府能更好地与社群互动,让 AI 的推广过程中融入本土声音,进而塑造技术的未来。

“在 Microsoft,我们始终确保土著社群发挥主导作用,让我们的合作充满人文关怀与严谨态度。我们秉持尊重、知情同意和共同问责的原则开展协作。”Microsoft 土著包容网络执行赞助人 Mike Adams 表示。

Microsoft AI 公益实验室开发了一套可复现的适配流程,将开源 LLMs 应用于低资源语言。这一框架赋予合作伙伴自主权,支持为其社群量身定制 AI 工具,无论该语言的数字资源基础如何。全球范围内的相关项目包括加拿大的 Inuktitut、新西兰的 Māori、马拉维的 Chichewa 以及东非地区的 Swahili。此外,通过“LINGUA 计划”,Microsoft 正为欧洲各地代表性不足的语言资助并强化高质量数据集构建项目。通过分享技术蓝图并与本地专家合作,每种语言都能受益于 AI 的最新进展。

从文化角度而言,人们能够用自己的母语沟通至关重要。AI 为人们带来了巨大的力量,但他们不应为了使用这项技术而被迫学习另一种语言。
Juan M. Lavista Ferres 博士
Microsoft AI 公益实验室主任

构建全民共享的 AI 未来

Microsoft AI 公益实验室的近期研究表明,低资源语言占主导地位的国家,其 AI 普及率显著更低,这说明语言包容是推动 AI 普及的独立且重要的因素。互联网上英语内容占比高达一半,但全球以英语为母语的人口仅占 5%,这种主导地位导致 AI 模型往往在处理其他语言时力不从心,加剧了全球不平等。

AI 是历史上发展最快的技术——目前已有 12 亿人在使用它,但仍有数十亿人无法触及。许多人缺乏使用 AI 的基础条件,如电力、互联网和数字技能。技术普及的关键在于让每个人都能将新技术融入生活、工作和学习,但如果不解决并弥合这些差距,我们可能会陷入新的数字鸿沟。为避免重蹈过往技术变革的覆辙——即变革性技术仅惠及部分人群而非全体——AI 包容必须与电力获取、网络连接和数字技能等基础条件的普及相结合。让所有社群都能获得实用工具,才能真正实现技术的民主化。

Microsoft AI 经济研究所发布的首份 AI 普及报告指出,技术的影响力源于普及——即技术与现实生活的深度融合。在 AI 时代,包容所有语言能够激励每个社群、尊重每种文化,并确保每个人都能参与数字时代。拥抱语言多样性,将为学习、联结与创新带来新的机遇。

这本质上是为了确保这类对我们具有变革性意义的技术能够得到公平分配。
Inbal Becker-Reshef
Microsoft AI 公益实验室常务董事