Effiziente "Tokenizer"-Auswahl für Kostensenkung bei großen Sprachmodellen

Ali Mehdi Bild: Sven Doering

Der Einsatz von großen KI-Sprachmodellen (LLMs) in Unternehmensprozessen wird immer wichtiger. Die Optimierung ihrer Vorverarbeitungsschritte kann erhebliche Vorteile für die Betriebskosten bringen. Das zeigt die aktuelle Studie "Tokenizer Choice For LLM Training: Negligible or Crucial?"

Hier haben wir den bedeutenden, aber oft übersehenden Einfluss der Tokenisierer-Auswahl auf die Leistung, den Energieverbrauch und die Kosteneffizienz von LLMs untersucht. Tokenisierung ist ein Vorverarbeitungsschritt, welcher Text in kleinere Einheiten, sogenannte Tokens, zerlegt. Diese Tokens können Wörter, Subwörter oder sogar einzelne Zeichen sein. Tokenisierer sind essenziell für LLMs, da diese Text in einer Form benötigen, die sie verarbeiten können.

In unserer Forschungsarbeit haben wir 24 ein- und mehrsprachige LLMs mit jeweils 2,6 Milliarden Parametern trainiert und evaluiert, um zu untersuchen, wie verschiedene Tokenisierung-Algorithmen und Konfigurationen die Leistung des Modells sowie die Trainingskosten beeinflussen. Die Ergebnisse zeigen, dass die Wahl des Tokenisierers die nachgelagerte Leistung des Modells in Anwendungen drastisch beeinflussen kann. Nicht optimal konfigurierte Tokenisierer können zu erhöhten Trainings- und Betriebskosten führen.

Für mehrsprachige Modelle zeigt die Studie: Tokenisierer, die für mehrere Sprachen konzipiert sind, benötigen einen deutlich größeren Wortschatz im Vergleich zu englischsprachigen Tokenisierern (wie in etwa bei der Llama Produktfamilie). Eine effizientere Tokenisierung führt nachgelagert zu einem bis zu 68 Prozent geringeren Energieverbrauch und geringeren Trainingskosten.

Michael Fromm

Für Anwender und Betreiber von großen Sprachmodellen liegen die Auswirkungen auf der Hand: Die strategische Auswahl von Modellen mit mehrsprachigem Tokenisierer kann zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führen. Durch die Optimierung der Tokenisierungsprozesse können Unternehmen den Energieverbrauch und die Betriebskosten senken sowie die Gesamtleistung ihrer großen Sprachmodelle verbessern und so einen Wettbewerbsvorteil auf dem Markt erzielen. ±

Zur vollständige Studie

 

Der Beitrag ist zuerst In EXXECNEWS INSTITUTIONAL ENI 05 erschienen.

Dr. Mehdi Ali ist Innovationsgruppenleiter für Foundation Model Research am Fraunhofer IAIS und am Lamarr-Institut. Er ist verantwortlich für die Entwicklung von Foundation Modellen und arbeitet an nationalen und internationalen Projekten wie OpenGPT-X, TrustLLM und EuroLingua-GPT, die das Training europäischer Sprachmodelle zum Ziel haben.

Dr. Michael Fromm ist Principal Scientist for Foundation Models am Fraunhofer IAIS. Er arbeitet in nationalen und internationalen Projekten wie OpenGPT-X, TrustLLM und EuroLingua-GPT am Training europäischer Sprachmodelle.

Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS mit Sitz in Sankt Augustin/Bonn und einem Standort in Dresden ist eines der führenden Wissenschaftsinstitute auf den Gebieten Künstliche Intelligenz (KI), Maschinelles Lernen und Big Data in Deutschland und Europa.

www.iais.fraunhofer.de

Zurück

Gastbeiträge
Ronny Pifko

Wohnimmobilien haben sich als robuster Anker in wirtschaftlich unsicheren Zeiten ...

Jens Bodem

Das Thema Wohnen und insbesondere die Wohnungsknappheit bleibt auch bei der ...

Datenschutzeinstellungen

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell, während andere uns helfen, diese Website und Ihre Erfahrung zu verbessern.
In dieser Übersicht können Sie, einzelne Cookies einer Kategorie oder ganze Kategorien an- und abwählen. Außerdem erhalten Sie weitere Informationen zu den verfügbaren Cookies.
Gruppe Essenziell
Name Contao CSRF Token
Technischer Name csrf_contao_csrf_token
Anbieter
Ablauf in Tagen 0
Datenschutz
Zweck Dient zum Schutz der Website vor Fälschungen von standortübergreifenden Anfragen . Nach dem Schließen des Browsers wird das Cookie wieder gelöscht
Erlaubt
Gruppe Essenziell
Name PHP SESSION ID
Technischer Name PHPSESSID
Anbieter
Ablauf in Tagen 0
Datenschutz
Zweck Cookie von PHP (Programmiersprache), PHP Daten-Identifikator. Enthält nur einen Verweis auf die aktuelle Sitzung. Im Browser des Nutzers werden keine Informationen gespeichert und dieses Cookie kann nur von der aktuellen Website genutzt werden. Dieses Cookie wird vor allem in Formularen benutzt, um die Benutzerfreundlichkeit zu erhöhen. In Formulare eingegebene Daten werden z. B. kurzzeitig gespeichert, wenn ein Eingabefehler durch den Nutzer vorliegt und dieser eine Fehlermeldung erhält. Ansonsten müssten alle Daten erneut eingegeben werden.
Erlaubt
Gruppe Analyse
Name Google Analytics
Technischer Name _gat,_ga_gid
Anbieter Google
Ablauf in Tagen 1
Datenschutz https://policies.google.com/privacy
Zweck Tracking
Erlaubt
Gruppe Essenziell
Name Contao HTTPS CSRF Token
Technischer Name csrf_https-contao_csrf_token
Anbieter
Ablauf in Tagen 0
Datenschutz
Zweck Dient zum Schutz der verschlüsselten Website (HTTPS) vor Fälschungen von standortübergreifenden Anfragen. Nach dem Schließen des Browsers wird das Cookie wieder gelöscht
Erlaubt
Gruppe Essenziell
Name FE USER AUTH
Technischer Name FE_USER_AUTH
Anbieter
Ablauf in Tagen 0
Datenschutz
Zweck Speichert Informationen eines Besuchers, sobald er sich im Frontend einloggt.
Erlaubt