Ein Screenshot, auf dem das Logo des Ministry of Tribal Affairs und indigene Symbole zu sehen sind.
„Wie ein Baby, das eine Sprache lernt“

KI-App soll vom Aussterben bedrohte Sprachen retten

Neu-Delhi  ‐ Mit mehr als 400 indigenen Sprachen und zahlreichen Dialekten ist Indien eines der sprachlich vielfältigsten Länder der Welt. Künstliche Intelligenz soll nun dabei helfen, diese lebendig zu erhalten – nicht nur in Indien.

Erstellt: 13.11.2025
Aktualisiert: 07.11.2025
Lesedauer: 
Von Michael Lenz (KNA)

Indien hat die KI-Übersetzungsplattform „Adi Vaani“ für indigene Sprachen eingeführt. Das Sanskrit-Wort bedeutet in etwa „Originalstimme“. Die App soll marginalisierten Gruppen in ihren Sprachen den Zugang zu Online-Informationen und staatlichen Diensten ermöglichen, aber auch vom Aussterben bedrohte Sprachen retten.

Seit 1961 sind bereits etwa 250 Sprachen verloren gegangen. Fachleute befürchten, dass in Indien bis zu 400 weitere Sprachen – die meisten davon von indigenen Gruppen und teilweise von weniger als 5.000 Menschen gesprochen – innerhalb weniger Jahrzehnte verschwinden könnten.

„Adi Vaani ist ein KI-basiertes Übersetzungstool, das als Grundlage für ein zukünftiges großes Sprachmodell für indigene Sprachen dient. Das Projekt kombiniert fortschrittliche KI-Technologien mit gemeinschaftsorientierten Ansätzen, um indigene Sprachen und Kulturen in ganz Indien zu schützen, zu fördern und wiederzubeleben“, teilte das Ministerium für indigene Angelegenheiten mit und betonte: „Adi Vaani ist mehr als nur ein Übersetzungstool – es ist eine nationale Mission“.

Internet und entsprechende Empfangsgeräte sind in Indien fast omnipräsent. Rund 1,2 der über 1,4 Milliarden Menschen im Land verfügen über mobile Internetverbindungen; in der Altersgruppe der 15- bis 29-Jährigen besitzen nahezu 100 Prozent ein Mobiltelefon. Eine hohe Verbreitungsrate bedeute aber nicht immer gleichmäßige Nutzungsmuster, sagen Experten. Vor allem in ländlichen Gebieten könne der Zugang zu Apps, Hochgeschwindigkeitsverbindungen und digitalen Diensten variieren.

Das Projekt steckt noch in den Kinderschuhen. Die Beta-Version umfasst je nach Bundesstaat die vier Sprachen Santali in Odisha, Bhili in Madhya Pradesh, Mundari in Jharkhand und Gondi in Chhattisgarh. Aktuell kann die App aus dem Google Play Store heruntergeladen werden. Eine Version für Apple soll in Kürze folgen.

Inhaltlich stellen viele der Sprachen die Entwickler vor Herausforderungen. „Es mangelt an Fachvokabular und administrativen Begriffen. Verfügbare Ressourcen wie Wörterbücher liegen, falls überhaupt vorhanden, nicht in digitaler Form vor“, sagt Computerlinguistin Radhika Mamidi im Gespräch mit der Katholischen Nachrichten-Agentur. „Es ist sehr schwierig, Muttersprachler zu finden, die sowohl die Technologie beherrschen als auch eine Lingua Franca sprechen, um mit ihnen kommunizieren zu können.“

Die Expertin vom Internationalen Institut für Informationstechnologie“ (IIIT) in Hyderabad war an der Entwicklung der App beteiligt. „Einige der Sprachen haben eigene Schriftsysteme entwickelt. Die meisten aber basieren auf mündlicher Überlieferung“, erklärt sie. „Daher wurde früher keine eigene Schrift entwickelt. Dafür verwenden die meisten die Schrift der in der Region vorherrschenden Sprache.“ Das gelte auch in den Schulen: Hindi oder Englisch seien die dominierenden Unterrichtssprachen. Zudem gebe es nur wenige Schulen, in denen die jeweilige spezifische Sprache gelehrt werde.

Vorbild für andere Weltregionen

Ähnliche Anstrengungen werden auch im Ausland unternommen. In Neuseeland nutzt die gemeinnützige Medienorganisation „Te Hiku Media“ KI-Tools zur Transkription von „Te Reo Maori“, der indigenen Sprache des Landes. In Indonesien wurde das KI-Modell „Komodo 7B“ auf Bahasa Indonesia und mehreren regionalen Sprachen wie Javanisch, Balinesisch und Sundanesisch trainiert. Laut einer japanischen Studie ist KI zudem eine gute Option zur Erhaltung gefährdeter Sprachen in Kenia.

In den USA wurde ein „Machine Translation System“ für Cherokee und Englisch entwickelt. In Island wird laut Medienberichten mit KI-Forschern daran gearbeitet, die isländische Sprache gegenüber dem dominierenden Englisch zu stärken. In diesem Fall geht es weniger um eine seltene, sondern um eine kleine Sprache unter globalem Druck. Die App Woolaroo von Google ermöglicht es derweil, durch Fotoerkennung Wörter in 30 bedrohten Sprachen zu lernen. KI-Dienste wie ChatGPT geben an, begrenzte Übersetzungen ins Santali und Mundari anzubieten – aber ihre Ergebnisse sind offenbar voller Ungenauigkeiten.

Bereits 2022 hat die indische Regierung zur Förderung der sprachlichen Vielfalt Indiens das integrative Technologie-Ökosystem „Bhashini-Projekt“ gestartet. Ziel ist es, Datensätze für das Training von KI-Modellen für indische Sprachen zu entwickeln – einschließlich solcher mit geringen Ressourcen.

Das IIIT Hyderabad mit Erfahrung in der Entwicklung von Systemen zur maschinellen Übersetzung indischer Sprachen wie Hindi und Telugu hat die rund zwei Millionen Wörter der Santali-Sprache genutzt, um das erste Sprachmodell für die Santali-Funktion für die App „Adi Vaani“ zu entwickeln. Die rund 7,5 Millionen Sprecher des Santali gehören dem den Santal an, von denen die meisten im Osten und Nordosten Indiens leben. Auf überregionaler Ebene ist Santali als eine der 22 Verfassungssprachen Indiens anerkannt.

Das KI-Modell für Santali sei durch das Feedback von Übersetzern weiter verfeinert worden, erklärt Expertin Mamidi. „Man muss das Modell zunächst aufbauen und ihm dann immer mehr Daten zuführen, um es zu optimieren.“ Sie fügt hinzu: „Das ist wie bei einem Baby, das eine Sprache lernt.“

Mehr zum Thema