Das Verständnis für regionale Dialekte in der digitalen Welt hat bislang einige Defizite gezeigt, wie eine aktuelle Untersuchung der Johannes Gutenberg-Universität Mainz (JGU) auf erschreckende Weise offenbart. Im Rahmen ihrer Studie, die auf der Language Resources and Evaluation Conference in Palma de Mallorca präsentiert wurde, hat das Forschungsteam um Minh Duc Bui und Prof. Dr. Katharina von der Wense untersucht, wie gut moderne Sprachmodelle den Mainzer Dialekt, bekannt als Meenzerisch, verstehen können. Diese Sprachforschung ist besonders relevant, da Meenzerisch nicht nur Teil der regionalen Sprachkultur ist, sondern auch durch seine Präsenz in den Büttenreden der Mainzer Fastnacht berühmt wurde.

Doch die Ergebnisse dieser Studie sind ernüchternd: Aktuelle KI-Modelle haben erhebliche Schwierigkeiten, den Dialekt korrekt zu verstehen. So beträgt die Trefferquote bei der Generierung von Wortdefinitionen gerade einmal 4,24%. Das Erzeugen eines Dialektworts aus einer gegebenen Definition gelingt den Modellen sogar nur in 0,56% der Fälle. Diese Werte zeigen eindrucksvoll, dass die digitale Sprachforschung bisher kaum Achtung für regionale Variationen findet. JGU berichtet, dass der Mangel an Textdaten für Dialekte ein entscheidender Faktor für diese Schwächen ist.

Hintergrund und Methodik der Studie

In der vorliegenden Arbeit, die unter dem Titel „Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect“ eingereicht und zuletzt im März 2026 überarbeitet wurde, stellen die Forschenden die ersten Ergebnisse zur Verarbeitung des Meenzerischen durch große Sprachmodelle vor. Der Datensatz, der für die Untersuchung verwendet wurde, basiert auf einem Wörterbuch aus dem Jahr 1966 und wurde eigens für diese Forschungsarbeit digitalisiert. Insgesamt umfasst das Lexikon 2.351 Dialektwörter mit entsprechenden Definitionen im Hochdeutschen, was eine wertvolle Ressource für die Forschung darstellt. Laut dem Artikel sind derartige gezielte Studien im Bereich Natural Language Processing (NLP) für den Dialekt von Mainz ein Novum.

Die Forschungsfragen drehten sich darum, ob moderne große Sprachmodelle, auch genannt LLMs, in der Lage sind, Definitionen für Dialektwörter zu generieren und Wörter aus diesen Definitionen zu kreieren. Die bisherigen Resultate zeigen, dass die beste Genauigkeit bei der Definitionserstellung 6,27% beträgt, während bei der Wortgenerierung die höchste Trefferquote bei 1,51% liegt. Trotz zusätzlicher Versuche zur Verbesserung der Ergebnisse, wie etwa durch Few-Shot-Learning, bleibt die Genauigkeit unter zehn Prozent.

Gesellschaftliche Implikationen der Forschung

Ein zentraler Aspekt der Studie ist auch das Erbe und der Erhalt von Dialekten, die, wie das Meenzerische, vom Aussterben bedroht sind. Bisher hat NLP-Forschung wenig zur Erhaltung dieser sprachlichen Vielfalt beigetragen. Prof. Dr. Peter Herbert Kann hebt hervor, dass kleinere Sprachformen in digitalen Anwendungen oft unsichtbar werden können, was die Notwendigkeit unterstreicht, Modelle zu entwickeln, die regionale und kulturell bedeutsame Sprachvarianten verarbeiten können.

Werbung
Hier könnte Ihr Advertorial stehen
Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

Zusätzlich zu den technischen Herausforderungen beleuchtet die Forschung auch tiefere gesellschaftliche Vorurteile. Eine andere Studie von Prof. Dr. Katharina von der Wense und Minh Duc Bui hat gezeigt, dass große Sprachmodelle wie GPT-5 und Llama Sprecher deutscher Dialekte systematisch schlechter bewerten. Dialekte wurden mit negativen Eigenschaften verknüpft, während Standarddeutsch-Sprecher positiver wahrgenommen wurden. Diese Vorurteile und stereotype Denkmuster werden häufig an KI-Systeme weitergegeben, was bedeutet, dass regionale Sprachvielfalt nicht nur in der technischen Verarbeitung, sondern auch in der gesellschaftlichen Wahrnehmung der Sprecher benachteiligt wird. IDW berichtet, dass diese Diskriminierung durch spezifische Hinweise auf den Dialekt in den KI-Systemen verstärkt wird und die Suche nach Lösungen bei der aktuellen Forschung im Fokus steht.

Insgesamt zeigt die Arbeit der Mainzer Forschenden, dass für die künftige Entwicklung von digitalen Sprachmodellen dringend neue Datensätze und Trainingsansätze benötigt werden, um die sprachliche und kulturelle Vielfalt im digitalen Raum zu fördern. Dies könnte nicht nur Meenzerisch, sondern auch andere bedrohte Dialekte retten und der Vielfalt der deutschen Dialekte wieder zu mehr Sichtbarkeit verhelfen.