Meer dan 2.500 talen dreigen te verdwijnen
Om de paar maanden komt een taal dichter bij uitsterven.
Naarmate sprekers ouder worden en minder mensen het leren, wordt de praktische kennis die de taal met zich meebrengt moeilijker door te geven. Terwijl de geschiedenis van verhalen en liederen begint te vervagen, ontrafelt de identiteit van een gemeenschap zich stilletjes: het verlies is intiem, de wereld een beetje minder levendig. Tegen het einde van deze eeuw zouden duizenden talen verdwenen kunnen zijn, waardoor er alleen echo’s overblijven van namen voor de wind of rituelen die het land eren.
UNESCO erkent wat er op het spel staat en heeft 2022-2032 uitgeroepen tot het decennium van de inheemse talen. Dit benadrukt een wereldwijde inspanning om revitalisering en digitale inclusie te ondersteunen, en het werk dat partners in plaatsen als Nunavut helpen bevorderen. Volgens de UNESCO-atlas van bedreigde wereldtalen dreigen er meer dan 2.500 te verdwijnen. En met elk verlies verdwijnen eeuwen van wijsheid en traditie.
“Taal bepaalt wie AI mag gebruiken en blijft ontoegankelijk als mensen er niet in hun eigen taal mee aan de slag kunnen”, zegt Inbal Becker-Reshef, Managing Director, Microsoft AI for Good Lab.
Meer dan 70% van de Inuit in Nunavut geeft aan dat Inuktut hun moedertaal is
Behoud van erfgoed, empowerment van de gemeenschap
Nunavut is het grootste, meest noordelijke gebied van Canada en omvat het grootste deel van het Canadese Noordpoolgebied, waarvan de helft in de poolcirkel. Nunavut is de thuisbasis van meer dan 30.000 inheemse volkeren en betekent “Ons land” in het Inuktut of de verenigende term die zowel de Inuktitut- als de Inuinnaqtun-dialecten omvat.
Lange tijd beschikte Inuktut niet over geschikte vertaaltools of grote taalmodellen (LLM’s) die de dialecten weerspiegelden. Dit maakte het behoud van de taal voor toekomstige generaties met digitale tools een bijna onmogelijke opgave.
In een poging om het Inuktitut te behouden en te bevorderen, werkte de regering van Nunavut samen met Microsoft om mensen te helpen zowel in het Engels als in het Inuktitut te communiceren en tegelijkertijd een robuust vertaalgeheugen op te bouwen dat eigendom is van de gemeenschap. Door nauw samen te werken met de regering van Nunavut en de gemeenschappen om taalgegevens te verzamelen, hielp Microsoft de traditionele dialecten van Nunavut in moderne digitale omgevingen te brengen door de Inuktut-taalfamilie toe te voegen aan Microsoft Translator, ter ondersteuning van door de gemeenschap geleid behoud en gebruik.
De aanpak is gericht op een gezamenlijk ontwerp met lokale partners om governance en toestemming tot stand te brengen, door de gemeenschap goedgekeurde tekst en audio te sourcen, gegevens samen te stellen en te labelen met lokale proeflezers en output te valideren aan de hand van culturele en taalkundige normen. Dat proces – gebaseerd op beheer – bouwt vertrouwen op, zodat modellen de geleefde taal weerspiegelen en lokaal worden omarmd. Samen verbeteren deze complementaire inspanningen de echte communicatie. Zorgverleners kunnen gemakkelijker op afstand samenwerken, jongeren in Nunavummiut-generaties kunnen meer in verbinding staan met ouderen en mensen kunnen creëren, communiceren en vertalen in de taal die ze kiezen. Tegenwoordig voegen docenten feedback toe aan de rapporten van studenten in het Inuktitut, waardoor er betere interactie is met eentalige gezinnen.
Het werk is voortgezet met een partnerschap met het Microsoft AI for Good Lab, waarbij wordt samenwerkt om een pijplijn te ontwikkelen voor het aanpassen van open-weight large language models (LLM’s) aan talen met weinig middelen, zoals het Inuktitut.
“De nauwe samenwerking met de regering van Nunavut was van cruciaal belang voor hen om de modellen te kunnen vertrouwen en ze uiteindelijk aan te passen en te gebruiken”, zegt Inbal Becker-Reshef.
Nunavut ligt in het uiterste noorden van Canada en is de thuisbasis van een meerderheid van de Inuit-bevolking.
Ongeveer 85% van de bevolking van Nunavut spreekt Inuktitut, een taal met verschillende dialecten.
In de Vertaler-app kunnen gebruikers in verschillende talen communiceren met een foto, spraak of tekst.
Ondersteuning van de vooruitgang van alle talen
Naarmate de acceptatie van AI wereldwijd versnelt, is de integratie van talen met weinig middelen een cruciaal probleem geworden. Taal is de toegangspoort tot onderwijs, gezondheidszorg en economische kansen. Zonder bewuste inclusie lopen hele gemeenschappen het risico achterop te raken. De aanpak van Microsoft is open source, zodat de tools en datasets die zijn ontwikkeld voor taalbehoud en -revitalisering beschikbaar zijn voor gemeenschappen, onderzoekers en partners overal. Door deze bronnen toegankelijk te maken, kunnen overheden beter samenwerken met gemeenschappen. De verspreiding van AI zet zich namelijk in voor lokale stemmen om de toekomst van technologie vorm te geven.
“Bij Microsoft zorgen we ervoor dat inheemse gemeenschappen het voortouw nemen en onze partnerschappen versterken. We werken samen met respect, toestemming en gedeelde verantwoordelijkheid”, aldus Mike Adams, Executive Sponsor van het Indigenous Inclusion Network.
Het Microsoft AI for Good Lab heeft een reproduceerbare pijplijn ontwikkeld voor het aanpassen van open-weight LLM’s aan talen met weinig middelen. Dankzij dit kader hebben partners meer mogelijkheden en wordt ingezet op AI-tools die zijn afgestemd op hun gemeenschappen, ongeacht de digitale voetafdruk van de taal. Wereldwijde projecten omvatten Inuktitut in Canada, Māori in Nieuw-Zeeland, Chichewa in Malawi en Swahili in Oost-Afrika. En via het LINGUA-initiatief financiert en versterkt Microsoft projecten die hoogwaardige gegevenssets creëren voor ondervertegenwoordigde talen in heel Europa. Door technische blauwdrukken te delen en samen te werken met lokale experts, kan elke taal profiteren van de nieuwste ontwikkelingen op het gebied van AI.
Vanuit cultureel oogpunt is het van cruciaal belang dat mensen in hun eigen taal kunnen communiceren. AI biedt veel kansen voor mensen, maar ze zouden er geen andere taal moeten voor leren om het te kunnen gebruiken.
Bouwen aan een AI-toekomst voor iedereen
Recent onderzoek van het AI for Good Lab benadrukt dat landen waar talen met weinig middelen overheersen, een aanzienlijk lagere AI-acceptatie vertonen. Dit toont aan dat taalinclusie een onafhankelijke en drijvende kracht is achter AI-verspreiding. De dominantie van het Engels op het web – waar de helft van alle inhoud in het Engels is, maar slechts 5% van de wereld het als moedertaal spreekt – betekent dat AI-modellen vaak worstelen met andere talen. Hierdoor worden wereldwijde ongelijkheden in stand gehouden.
AI is de snelst groeiende technologie in de geschiedenis: 1,2 miljard mensen gebruiken het al, maar miljarden anderen kunnen niet. Velen hebben geen toegang tot de fundamenten die AI mogelijk maken, zoals elektriciteit, internet en digitale vaardigheden. Verspreiding vindt plaats wanneer iedereen nieuwe technologie onderdeel maakt van hoe ze leven, werken en leren. Als we echter de hiaten niet aanpakken en dichten, lopen we het risico een nieuwe digitale kloof te creëren. Als we herhaling van ongelijkheden uit het verleden willen voorkomen – waarbij transformatieve technologieën sommigen, maar niet iedereen bereikten – moet AI-inclusie gepaard gaan met fundamentele toegang tot elektriciteit, connectiviteit en digitale vaardigheden. Door geschikte hulpmiddelen in handen van alle gemeenschappen te krijgen, wordt democratisering werkelijkheid.
Uit het eerste AI Diffusion Report van het Microsoft AI Economy Institute blijkt dat impact voortvloeit uit verspreiding, wanneer technologie integreert met het echte leven. In het tijdperk van AI kan het opnemen van alle talen elke gemeenschap inspireren, elke cultuur eren en ervoor zorgen dat iedereen kan deelnemen aan het digitale tijdperk. Door taalkundige diversiteit te omarmen, ontstaan er nieuwe mogelijkheden om te leren, te verbinden en te innoveren.
Het gaat er echt om ervoor te zorgen dat dit soort technologieën die zo transformerend voor ons zijn, eerlijk worden verdeeld.