News

Sorbisch verstehen

21.02.2022

Ein Team um Professor Alexander Fraser hat eine Übersetzungssoftware programmiert für eine Sprache, die nur noch von knapp 20.000 Menschen gesprochen wird.

© IMAGO / Winfried Rothermel

Wie übersetzt man eine Sprache, die man nicht kennt? Übersetzungen arbeiten meist mit zwei Sprachversionen, der Originalsprache und der zu übersetzenden Sprache. In manchen Fällen gibt es allerdings nur wenige sogenannte Paralleldaten: Die exakte Übersetzung von Sätzen, Grammatik, weitreichendem Vokabular. Das erschwert die Arbeit von Informatikern wie Professor Alexander Fraser vom Centrum für Informations- und Sprachverarbeitung an der LMU. Im Rahmen seines ERC-Starting-Grants untersuchte Fraser Sprachen ohne Paralleldaten.

„Ich bin auf Sorbisch aufmerksam geworden, weil es zwar digitale Spuren der Sprache gab, etwa ein kleines sorbisches Wikipedia“, erinnert sich Fraser. Paralleldaten, also Wort-für-Wort-Übersetzungen, habe er aber nicht gefunden. Sorbisch ist eine geschützte Sprache im deutschen Sprachraum und teilt sich in zwei Schriftsprachen auf: Nieder- und Obersorbisch.

Professor Fraser nahm Kontakt mit dem sorbischen Sprachzentrum Witaj auf, das bereits an einer Übersetzungs-Software arbeitete. „Mit meinem Team habe ich einen internationalen Wettbewerb ins Leben gerufen, bei dem wir unsere Übersetzungs-Anwendungen ausprobiert haben. Wir haben uns dabei erst einmal auf Obersorbisch konzentriert“, erzählt Fraser. Dafür musste sein Team erst eine Methode erarbeiten, die Übersetzungen ohne Paralleldaten anfertigen kann.

Aufwendige Analysen

In sogenannten „überwachten“ Übersetzungen werden normalerweise bis zu drei Millionen Sätze in das maschinelle Übersetzungs-System eingespeist. Das verknüpft daraufhin die Daten- und Übersetzungsstränge und kann dann einzelne Vokabeln oder Sätze in beide Richtungen übersetzen.

Dieser Vorgang war hier nicht möglich, es lagen den Forschenden zu wenige Paralleldaten vor. Das Team entwickelte daher ein „unüberwachtes“ Übersetzungs-System. „Das war extrem spannend für uns, denn Übersetzungs-Systeme zu entwerfen, ohne die exakten Übersetzungen zu kennen, ist sehr aufwendig“, erinnert sich Fraser.

Anhand von statistischen Modellen können die Übersetzungs-Programme die Korrelationen in beiden Sprachen lernen. Die Forschenden erstellen dafür für jede Sprache eine Datenstruktur, in die das gesuchte Wort verwoben ist, das Wort-Umfeld wird miteinbezogen. Beide Datenstrukturen werden dann miteinander verknüpft. Das ist ein sehr fehleranfälliger Prozess, der mehrmals angewendet wird, um die Ergebnisse zu verbessern.

Übersetzungssoftware Sotra

In enger Zusammenarbeit mit dem sorbischen Sprachzentrum Witaj entstand dann der Übersetzer „sotra“, kurz für sorbic translator. Nach den ersten unüberwachten Übersetzungen erarbeitete die sorbische Gemeinschaft Parallel-Übersetzungen, die die Software lernte. Das Programm basiert jetzt auf einem Korpus von etwa 200.000 obersorbisch-deutschen Satzpaaren aus unterschiedlichen Lebensbereichen.

Ziel ist es nun, auch die niedersorbische Sprache mitaufzunehmen. Seit dem 21. Februar 2022 bietet auch der Microsoft-Übersetzter obersorbische Übersetzungen an, inspiriert von dem sotra-Projekt. „Das ist ein wichtiger Schritt für die sorbische Community“, sagt Fraser, „denn das sorgt für mehr Aufmerksamkeit.“

Wonach suchen Sie?