pixel

Dát hlas každému jazyku

V době umělé inteligence je začlenění všech jazyků zásadní pro komunity a kulturu

Více než 2 500 jazyků je ohroženo zánikem

Každých pár měsíců se nějaký jazyk přiblíží k zániku.

S tím, jak uživatelé jazyka stárnou a stále méně lidí se jej učí, je stále obtížnější předávat praktické znalosti, které tento jazyk nese. Jak se historie příběhů a písní začíná vytrácet, identita komunity se tiše rozpadá – ztráta je intimní, svět o něco méně živý. Do konce tohoto století by mohly zmizet tisíce jazyků a zůstat jen ozvěny jmen pro vítr nebo rituály, které uctívaly zemi.

UNESCO si uvědomuje, co je v sázce, a vyhlásilo roky 2022–2032 Desetiletím domorodých jazyků. Tím se zdůrazňuje globální úsilí o podporu oživení a digitálního začlenění, a práce, kterou partneři pomáhají prosazovat v místech, jako je Nunavut. Podle Atlasu ohrožených světových jazyků UNESCO hrozí zánik více než 2 500 jazyků a s každou ztrátou mizí staletí moudrosti a tradic.

„Jazyk určuje, kdo může umělou inteligenci používat – a pokud lidé nemohou komunikovat ve svém vlastním jazyce, zůstává pro ně nedostupná,“ říká Inbal Becker-Reshef, výkonná ředitelka laboratoře AI for Good Lab společnosti Microsoft.
A woman in a blue patterned dress dances with one hand raised, while several people stand and watch her in a room with lockers and coats in the background.

Více než 70 % Inuitů v Nunavutu uvádí jako svůj rodný jazyk inuktutštinu

Zachování dědictví, posílení komunity

Nunavut je největší a nejsevernější území Kanady, které zahrnuje většinu kanadské Arktidy, přičemž polovina z ní leží za polárním kruhem. Nunavut, domov více než 30 000 domorodých obyvatel, znamená v inuktutštině „Naše země“ a je sjednocujícím pojmem pro dialekty inuktitutština a inuinnaqtunština.

Po dlouhou dobu neměla inuktitutština adekvátní překladatelské nástroje ani velké jazykové modely (LLM), které by odrážely jeho dialekty. Zachování jazyka pro budoucí generace pomocí digitálních nástrojů se tak stalo téměř nemožným úkolem.

Ve snaze zachovat a rozvíjet inuktitutštinu se vláda Nunavutu spojila se společností Microsoft, aby pomohla lidem komunikovat v angličtině i inuktitutštině a zároveň vytvořila robustní překladovou paměť vlastněnou komunitou. Díky úzké spolupráci s vládou Nunavutu a komunitami při shromažďování jazykových dat pomohla společnost Microsoft přenést tradiční nářečí Nunavutu do moderních digitálních prostředí přidáním rodiny jazyků Inuktut do služby Microsoft Translator, čímž podpořila jejich komunitou vedené uchovávání a používání.

Tento přístup se zaměřuje na společný návrh s místními partnery s cílem zavést správu a souhlas, získat texty a zvukové záznamy schválené komunitou, spravovat a označovat data s místními recenzenty a ověřovat výstupy podle kulturních a jazykových norem. Tento postup – založený na správcovství – buduje důvěru, takže modely odrážejí živý jazyk a jsou přijímány na místní úrovni. Společně tyto vzájemně se doplňující snahy zlepšují komunikaci v reálném světě. Poskytovatelé zdravotní péče mohou snadněji spolupracovat na dálku, mladí lidé v generacích Nunavummiut mohou lépe komunikovat se staršími a lidé mohou tvořit, komunikovat a překládat v jazyce, který si zvolí. V současné době pedagogové přidávají zpětnou vazbu na vysvědčení studentů v inuktitutštině, čímž lépe komunikují s jednojazyčnými rodinami.

Práce pokračovala partnerstvím s laboratoří AI for Good Lab společnosti Microsoft, kde se společně pracovalo na vývoji postupu pro přizpůsobení otevřených velkých jazykových modelů (LLM) jazykům s malým počtem uživatelů, jako je inuktitutština.

„Úzká spolupráce s vládou Nunavutu byla klíčová pro to, aby mohli důvěřovat modelům a nakonec je přizpůsobit a používat,“ říká Inbal Becker-Reshef.

Podpora rozvoje všech jazyků

S celosvětovým rozšiřováním umělé inteligence se začlenění jazyků s malým počtem uživatelů stalo kritickou otázkou. Jazyk je bránou ke vzdělání, zdravotní péči a ekonomickým příležitostem, a bez záměrného začlenění hrozí, že celé komunity budou zaostávat. Přístup společnosti Microsoft je založen na otevřeném zdrojovém kódu, který zajišťuje, že nástroje a datové sady vyvinuté pro zachování a oživení jazyků jsou k dispozici komunitám, výzkumným pracovníkům a partnerům po celém světě. Díky zpřístupnění těchto zdrojů mohou vlády lépe spolupracovat s komunitami, jelikož šíření umělé inteligence podporuje místní hlasy, které utvářejí budoucnost technologie.

„V celé společnosti Microsoft dbáme na to, aby domorodé komunity převzaly vedoucí úlohu a vnášely do našich partnerství srdce a důslednost. Spolupracujeme s respektem, souhlasem a sdílenou odpovědností,“ říká Mike Adams, výkonný sponzor Indigenous Inclusion Network.

Laboratoř AI for Good Lab společnosti Microsoft vyvinula reprodukovatelný postup pro přizpůsobení otevřených LLM jazykům s omezenými zdroji. Tento rámec umožňuje partnerům a zastáncům používání nástrojů umělé inteligence přizpůsobených jejich komunitám, bez ohledu na digitální stopu daného jazyka. Globální projekty zahrnují inuktitutštinu v Kanadě, maorštinu na Novém Zélandu, čichewštinu v Malawi a svahilštinu ve východní Africe. Prostřednictvím iniciativy LINGUA společnost Microsoft financuje a podporuje projekty, které vytvářejí vysoce kvalitní datové sady pro nedostatečně zastoupené jazyky v celé Evropě. Díky sdílení technických plánů a spolupráci s místními odborníky může každý jazyk těžit z nejnovějších pokroků v oblasti umělé inteligence.

Z kulturního hlediska je důležité, aby lidé byli schopni komunikovat ve svém vlastním jazyce. Umělá inteligence přináší lidem velkou sílu, ale neměli by se učit další jazyk, aby ji mohli používat.
Dr. Juan M. Lavista Ferres
Ředitel laboratoře AI for Good Lab společnosti Microsoft

Budování budoucnosti umělé inteligence pro všechny

Nedávný výzkum laboratoře AI for Good Lab poukazuje na to, že země, kde převládají jazyky s malým počtem uživatelů, vykazují výrazně nižší míru přijetí umělé inteligence, což dokazuje, že jazykové začlenění je nezávislým a silným hnacím motorem šíření umělé inteligence. Dominance angličtiny na webu – kde polovina veškerého obsahu je v angličtině, ale pouze 5 % světové populace jí mluví jako mateřským jazykem – znamená, že modely umělé inteligence často mají potíže s jinými jazyky, což přispívá k udržování globálních nerovností.

Umělá inteligence je nejrychleji rostoucí technologií v historii – již ji používá 1,2 miliardy lidí, ale miliardy dalších ji používat nemohou. Mnozí nemají přístup k základům, které umělou inteligenci umožňují, jako je elektřina, internet a digitální dovednosti. K šíření technologie dochází, když si všichni osvojí nové technologie jako součást svého života, práce a učení, ale pokud se nezabýváme a nevyrovnáme rozdíly, riskujeme vytvoření nové digitální propasti. Abychom se vyhnuli opakování minulých nerovností, kdy na přelomové technologie dosáhli jen někteří, ale ne všichni, musí být začlenění umělé inteligence spojeno se základním přístupem k elektřině, připojení k internetu a digitálním dovednostem. Demokratizace se stane skutečností, až budou všechny komunity mít k dispozici účinné nástroje.

První zpráva o šíření umělé inteligence od Microsoft AI Economy Institute odhaluje, že dopad pochází ze šíření – tedy z integrace technologie do reálného života. V době umělé inteligence může začlenění všech jazyků inspirovat každou komunitu, ctít každou kulturu a zajistit, že se každý může podílet na digitálním věku. Přijetím jazykové rozmanitosti se otevírají nové příležitosti pro učení, propojování a inovace.

Jde především o to, aby tyto technologie, které pro nás znamenají takovou změnu, byly spravedlivě přístupné všem.
Inbal Becker-Reshef
Výkonná ředitelka laboratoře AI for Good Lab společnosti Microsoft