Ein Forschungsteam der Johannes Gutenberg-Universität Mainz (JGU) hat die Herausforderungen von Künstlicher Intelligenz (KI) bei der Verarbeitung des Mainzer Dialekts, bekannt als Meenzerisch, untersucht. Die Ergebnisse dieser Studie werden im Mai 2026 auf der Language Resources and Evaluation Conference (LREC 2026) in Palma de Mallorca veröffentlicht. Meenzerisch, das durch die Büttenreden der Mainzer Fastnacht bekannt ist, ist ein wesentlicher Bestandteil der regionalen Sprachkultur.
Die Studie, geleitet von Minh Duc Bui und Prof. Dr. Katharina von der Wense, hat gezeigt, dass die aktuellen Sprachmodelle erhebliche Schwierigkeiten haben, den Dialekt korrekt zu verstehen. Diese Erkenntnis beleuchtet das bestehende Defizit in der digitalen Sprachforschung, die regionale Dialekte bislang kaum berücksichtigt hat. Ein zentraler Bestandteil der Forschung war die Erstellung eines neuen Datensatzes zum Mainzer Dialekt, der auf einem Wörterbuch von 1966 basiert.
Ergebnisse der Studie
Das digitale Lexikon enthält 2.351 Dialektwörter mit Definitionen im Standarddeutschen, was die Basis für zahlreiche Tests mit mehreren Open-Source-Sprachmodellen bildete. Die Ergebnisse waren ernüchternd. Beim Generieren von Wortdefinitionen erreichten die Modelle eine Trefferquote von nur 4,24%. Bei der Genauigkeit, wenn es darum ging, ein Dialektwort aus einer Definition zu erzeugen, lag die Quote sogar bei mageren 0,56%.
Selbst zusätzliche Hilfestellungen und Methoden, die darauf abzielen, die Genauigkeit zu steigern, führten nur zu marginalen Verbesserungen. In den Tests blieb die Genauigkeit der Modelle stets unter zehn Prozent. Diese niedrigen Werte lassen auf einen kritischen Mangel an Textdaten für Dialekte als mögliche Ursache für die Schwierigkeiten der Modelle schließen. Prof. Dr. Peter Herbert Kann betont, dass kleinere Sprachformen in digitalen Anwendungen häufig unsichtbar werden, was die Problematik zusätzlich verstärkt.
Langfristige Perspektiven
Die Ergebnisse der Studie sind nicht nur eine Feststellung bestehender Probleme, sondern heben auch den langfristigen Bedarf an Modellen hervor, die regionale und kulturell bedeutsame Varietäten verarbeiten können. Die Forschung wird durch die Carl-Zeiss-Stiftung im Rahmen des JGU-Forschungsprojekts „Trading off Non-Functional Properties of Machine Learning“ (TOPML) gefördert.
Diese Arbeit, die unter dem Titel „Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect“ im Februar 2026 eingereicht und zuletzt am 4. März 2026 überarbeitet wurde, ist die erste ihrer Art, die sich explizit mit dem Meenzer Dialekt im Rahmen der Natural Language Processing (NLP) Forschung beschäftigt. Das Ziel ist klar: NLP könnte eine entscheidende Rolle bei der Erhaltung und Wiederbelebung von Sprachen und Dialekten spielen, die bedrohlich vom Aussterben sind, ähnlich wie viele andere deutsche Dialekte. In den experimentellen Ergebnissen wurde die beste Genauigkeit für Definitionen bei 6,27% und für die Wortgenerierung bei 1,51% erreicht. Trotz dieser Ansätze bleibt der Bedarf an zusätzlichen Ressourcen und intensiveren Forschungsanstrengungen für deutsche Dialekte offensichtlich.