Effiziente "Tokenizer"-Auswahl für Kostensenkung bei großen Sprachmodellen

Der Einsatz von großen KI-Sprachmodellen (LLMs) in Unternehmensprozessen wird immer wichtiger. Die Optimierung ihrer Vorverarbeitungsschritte kann erhebliche Vorteile für die Betriebskosten bringen. Das zeigt die aktuelle Studie "Tokenizer Choice For LLM Training: Negligible or Crucial?"
Hier haben wir den bedeutenden, aber oft übersehenden Einfluss der Tokenisierer-Auswahl auf die Leistung, den Energieverbrauch und die Kosteneffizienz von LLMs untersucht. Tokenisierung ist ein Vorverarbeitungsschritt, welcher Text in kleinere Einheiten, sogenannte Tokens, zerlegt. Diese Tokens können Wörter, Subwörter oder sogar einzelne Zeichen sein. Tokenisierer sind essenziell für LLMs, da diese Text in einer Form benötigen, die sie verarbeiten können.
In unserer Forschungsarbeit haben wir 24 ein- und mehrsprachige LLMs mit jeweils 2,6 Milliarden Parametern trainiert und evaluiert, um zu untersuchen, wie verschiedene Tokenisierung-Algorithmen und Konfigurationen die Leistung des Modells sowie die Trainingskosten beeinflussen. Die Ergebnisse zeigen, dass die Wahl des Tokenisierers die nachgelagerte Leistung des Modells in Anwendungen drastisch beeinflussen kann. Nicht optimal konfigurierte Tokenisierer können zu erhöhten Trainings- und Betriebskosten führen.
Für mehrsprachige Modelle zeigt die Studie: Tokenisierer, die für mehrere Sprachen konzipiert sind, benötigen einen deutlich größeren Wortschatz im Vergleich zu englischsprachigen Tokenisierern (wie in etwa bei der Llama Produktfamilie). Eine effizientere Tokenisierung führt nachgelagert zu einem bis zu 68 Prozent geringeren Energieverbrauch und geringeren Trainingskosten.

Für Anwender und Betreiber von großen Sprachmodellen liegen die Auswirkungen auf der Hand: Die strategische Auswahl von Modellen mit mehrsprachigem Tokenisierer kann zu erheblichen Kosteneinsparungen und Effizienzsteigerungen führen. Durch die Optimierung der Tokenisierungsprozesse können Unternehmen den Energieverbrauch und die Betriebskosten senken sowie die Gesamtleistung ihrer großen Sprachmodelle verbessern und so einen Wettbewerbsvorteil auf dem Markt erzielen. ±
Zur vollständige Studie
Der Beitrag ist zuerst In EXXECNEWS INSTITUTIONAL ENI 05 erschienen.
Dr. Mehdi Ali ist Innovationsgruppenleiter für Foundation Model Research am Fraunhofer IAIS und am Lamarr-Institut. Er ist verantwortlich für die Entwicklung von Foundation Modellen und arbeitet an nationalen und internationalen Projekten wie OpenGPT-X, TrustLLM und EuroLingua-GPT, die das Training europäischer Sprachmodelle zum Ziel haben.
Dr. Michael Fromm ist Principal Scientist for Foundation Models am Fraunhofer IAIS. Er arbeitet in nationalen und internationalen Projekten wie OpenGPT-X, TrustLLM und EuroLingua-GPT am Training europäischer Sprachmodelle.
Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS mit Sitz in Sankt Augustin/Bonn und einem Standort in Dresden ist eines der führenden Wissenschaftsinstitute auf den Gebieten Künstliche Intelligenz (KI), Maschinelles Lernen und Big Data in Deutschland und Europa.

Stabilität und Chancen in turbulenten Zeiten
