06. März 2026

Effizientes Training

Alan Akbik, Professor für Maschinelles Lernen an der Humboldt-Universität zu Berlin, arbeitet an smarteren Lösungen für Sprachmodelle

Machine-Learning-Professor Alan Akbik © WISTA Management GmbH

ChatGPT benötigt gigantische Datenmengen und kostet viel Geld. Alan Akbik, Professor für Maschinelles Lernen an der Humboldt-Universität, arbeitet an smarteren Lösungen. Ein Text über Sprachmodelle als Schlüsseltechnologie im Bereich der künstlichen Intelligenz, der nicht durch eine KI generiert wurde.

Als er im Januar 2020 kurz vor dem ersten Lockdown an die Humboldt-Universität zu Berlin wechselte, war das ein „Ein-Mann-Lehrstuhl“, sagt Alan Akbik. Zuvor hatte der Informatiker einige Jahre in der Industrie gearbeitet, war lange bei Zalando in der Forschungsabteilung für Machine Learning tätig und davor bei IBM in Kalifornien.

In den sechs Jahren seiner Professur für Maschinelles Lernen hat sich viel getan, und das nicht nur am Lehrstuhl, den Akbik neu aufgebaut hat und inzwischen knapp 20 Wissenschaftlerinnen und Wissenschaftler beschäftigt. Der Durchbruch mit ChatGPT hat vieles verändert, die rasante Entwicklung der Sprachmodelle kam selbst für ihn als Experten überraschend. Früher hätten ihn Leute in seinem Umfeld für verrückt gehalten, denn Sprache und Computer passe doch überhaupt nicht zusammen, erinnert sich Akbik. „Doch seit ChatGPT Einzug in unseren Alltag gehalten hat, muss ich mich nicht mehr dafür rechtfertigen, warum ich an dem Thema arbeite.“

Sein Fachgebiet: Natural Language Processing (NLP) sowie maschinelles Lernen. Alan Akbik beschäftigt sich mit Fragen danach, welche Rolle Sprachmodelle als Schlüsseltechnologie im Bereich der künstlichen Intelligenz spielen, wie diese sogenannten Large Language Models (LLM) aufgebaut sind und – vor allem, wie diese effizienter trainiert werden können als bisher.

„Ein Sprachmodell wie ChatGPT ist nichts anderes als ein Vorhersagemodell, das grundsätzlich so trainiert wird, dass es plausiblen Text erzeugt“, sagt er. So ein Modell wird mit einer riesigen Textmenge gefüttert und lernt in einer Sequenz von Wörtern, auch Tokens genannt, welches Wort am wahrscheinlichsten als nächstes kommt. Zum Beispiel sollte das Modell einen Satz wie „Ich war im Zoo und mir gefiel besonders die X“, plausibel ergänzen, etwa durch das Token „Giraffe“. Mehr können diese Maschinen nicht. „Das ist das Einzige, was sie lernen.“

Das Problem: Dafür werden gigantische Datenmengen benötigt und das ist unglaublich teuer. Ein Modell wie ChatGPT benötigt riesige Rechenkapazitäten, die wiederum enorm viel Strom verbrauchen. „Aktuell können nur sehr große Firmen mit den entsprechenden Ressourcen und sehr viel Geld solche Modelle bauen“, sagt Akbik.

Genau an diesem Punkt setzt der Informatiker an. In seiner Forschung geht es um die Frage, ob sich vergleichbare Sprachmodelle nicht smarter und effizienter entwickeln lassen, indem sie mit deutlich weniger Datenmengen genauso gut trainiert werden. „Wir wollen die Effizienz steigern, damit auch eine Universität in die Lage versetzt wird, gute NLP-Modelle zu trainieren“, sagt Akbik.

In Kürze wird er ein neues, eigenes, an seinem Lehrstuhl entwickeltes, deutsches Sprachmodell vorstellen. Es nennt sich „Boldt“, benannt nach Humboldt ohne „Hum“. „Dazu haben wir einen Webcrawl mit deutschsprachiger Datenbasis verwendet, der standardmäßig in der Forschung eingesetzt wird“, erklärt Akbik. Um die Datenmenge zu reduzieren, hat sein Team eine Methode entwickelt, die Webseiten filtert. Sie werden danach bewertet, ob der darin enthaltene deutsche Text sinnvoll ist, um damit ein Sprachmodell zu trainieren: „Für die automatische Bewertung der Texte haben wir verschiedene Kriterien definiert, wie etwa Kohärenz oder Faktengehalt“. Auf diese Weise schrumpfte der Datenkorpus von etwa 400 Milliarden Tokens auf rund 28 Milliarden. Das ist zwar immer noch immens viel, aber machbar. Das Ergebnis stimmt ihn zuversichtlich: „Unsere Ergebnisse zeigen, dass Boldt in standardisierten Tests sehr gute Ergebnisse erzielt.“

Neben Sprachmodellen arbeiten der Informatiker und sein Team auch an der sogenannten Informations-Extraktion, also daran, gezielt Wissen aus großen Textmengen zu ziehen. Zum Beispiel: Wie oft taucht der Begriff „Coronaimpfstoff“ in einem negativen oder positiven Kontext auf. Dafür entwickelte Akbik das Open-Source-Framework „Flair“, das inzwischen weltweit in Tausenden von Projekten steckt. Solche Stimmungs- oder Meinungsanalysen können in vielen anderen Fachwissenschaften eingesetzt werden. „Die von uns entwickelte Technologie ist als Open-Source-Software frei verfügbar, um derartige Anwendungen in anderen Forschungsbereichen oder Institutionen zu ermöglichen“, sagt Akbik.

An einer Universität im Bereich KI zu forschen, hat für ihn viele Vorteile. Am eigenen Lehrstuhl kann er längerfristiger und freier forschen als in der Industrie. Zudem stellen Universitäten andere Fragen als Firmen, zum Beispiel solche nach Fairness und Ethik. Ihm ist es wichtig, eigene Sprachmodelle zu trainieren für eine unabhängige Forschung: „Damit wir nicht nur danebenstehen und beobachten, was passiert, sondern als Universität aktiv mitgestalten können.“

Heike Gläser für Adlershof Journal

Alan Akbik - Professor of Machine Learning

Meldungen

Effizientes Training

Alan Akbik, Professor für Maschinelles Lernen an der Humboldt-Universität zu Berlin, arbeitet an smarteren Lösungen für Sprachmodelle

Adlershof Journal März/April 2026

HU-Forschende schaffen „OpinionGPT“ zur Untersuchung von Voreingenommenheiten in KI-Sprachmodellen

Hey, Fremdsprache!