Large Language Models: Entstehung-Nutzung-Weiterentwicklung

…s’il se trouvait un perroquet qui répondît à tout, je prononcerais sans balancer que c’est un être pensant…

Denis Diderot

(1713 – 1784)

Große Sprachmodelle oder Large Language Models (LLMs) haben im Gebiet der maschinellen Sprachverarbeitung (Natural Language Processing, NLP) in den letzten fünf Jahren sowohl im Verständnis (Natural Language Understanding, NLU) als auch in der Erzeugung (Natural Language Generation, NLG) einen Quantensprung in der Entwicklung der Kommunikation mit Computern gemacht. Das ist mit ChatGPT auch einer breiten Öffentlichkeit bewusst geworden. Die Nutzungsmöglichkeiten in Unternehmen beginnen mehr und mehr relevant zu werden. In einer kleinen Serie von Beiträgen sollen die Entstehung, die Einbindungsmöglichkeiten in Prozesse und Auswirkungen der LLMs beschrieben werden:

  1. Entstehungsgeschichte der LLMs
  2. Eigenschaften der LLMs, Foundation Models und Anwendungsoptionen
  3. Einbindung optimierter LLMs in Anwendungen
  4. Status und Entwicklungsaussichten des Einsatzes LLM-basierter Lösungen
  5. Auswirkungen und Handlungsoptionen für die Finanzwirtschaft

In diesem Beitrag soll die Entstehungsgeschichte der LLMs bis zum heutigen Status dargelegt werden, mit dem Ziel, auf dieser Grundlage im nächsten Beitrag Stärken, Schwächen und Erscheinungsformen darzustellen.

Im November 2022 wurde die Software ChatGPT der Firma Open AI per Twitter in Form einer einfachen Webanwendung als kleines Update bestehender Modelle zugänglich gemacht, mit der Bitte es auszuprobieren und zur Verbesserung Feedback zu geben.[1] Kurz darauf waren eine, nach zwei Monaten hundert Millionen von Nutzern überrascht, begeistert und verunsichert, dass sie mit einer Software, sogar halbwegs anspruchsvoll, wie mit Menschen sprechen konnten. Ermöglicht hat das eine Software aus der Generative Pretrained Transformer (GPT-n) Reihe, deren Herzstück, ein vielschichtiges Neuronales Netz mit 175 Milliarden Parametern[2] ist. Entstanden ist sie durch ein langes Training auf einer riesigen Menge Daten und einer Farm von Spezial-Hardware.

Dieser Aufwand an Ressourcen sowie die ambivalente Haltung zur künstlichen Intelligenz führte neben der großen Öffentlichkeitswirksamkeit auch zu ungewöhnlichen Beiträgen, wie dem Vergleich mit dem Manhattan Projekt[3] und dem Moratoriumsaufruf[4] bekannter Akteure in diesem Umfeld, vielleicht zum Teil auch durch den Wettbewerb motiviert. Ein enormer Forschungs- und Innovationsschub sorgte nunmehr dafür, dass z.B. Neuveröffentlichungen im KI-Bereich bereits nach wenigen Wochen veralten oder verbesserungswürdig sind. Das hält bis heute an.

Der Vergleich mit dem Manhattan Projekt war sicher ein wenig abwegig. Allerdings entstanden zumindest die wesentlichen Visionen zu dieser Zeit. Mit dem Bau des ersten digitalen Computers entstand die Vision der natursprachlichen Kommunikation zwischen Mensch und Computer. Das Thema Natural Language Processing (NLP) wurde gefördert durch die im kalten Krieg in den fünfziger Jahren motivierte Aufgabe, ein automatisches Übersetzungsprogramm, insbesondere vom Russischen ins Englische zu schaffen. Allerdings unterschätzte der Ansatz der Computerlinguisten, die Komplexität, über manuelle Regeln die jeweilige Bedeutung von Worten so in Kontextmodellen einzubinden, das Sprachverständnis zumindest hinreichend simuliert werden kann. Dieser symbolische NLP-Ansatz scheiterte. Allerdings trug er dazu bei, dass in Folge Software-Bibliotheken mit direkten Lösungen für NLP-Aufgaben entstanden.[5]

Die Regeln zur Sprachfähigkeit des Computers musste dieser offensichtlich selbst erzeugen, mit seiner zwischenzeitlich hochentwickelten Rechenkapazität mit GPUs[6] für diesen Zweck. Durch maschinelles Lernen, self supervised[7] (mit vielschichtigen Neuronalen Netzen und anhand einer Unmenge von Daten, die nunmehr ja in der digitalen Welt zur Verfügung standen) wurde das Ziel angestrebt.

Die Grundidee, von der Syntax zur Semantik zu kommen, ist „die Bedeutung der Worte“ einzufangen und operabel zu machen durch die Berücksichtigung der Menge an Kontexten, in denen diese Worte vorkommen.[8]

Das Lernziel für das Neuronale Netz ist es, bei gegebener Wort-Sequenz das nächste passende Wort vorherzusagen.[9] Dafür muss jeweils in den Lernzyklen die ganze Sequenz von Worten beachtet werden, um der obigen Grundidee, die Semantik zu erfassen, gerecht zu werden.

Methodisch wird dies durch das Aufmerksamkeitskonzept erreicht (vgl. Bahdanau, et al., 2015)[10]; passend umgesetzt hat es das Transformer-Konzept, indem auch noch die Parallelisierung der Berechnungen möglich wurden. Dieser Beitrag „Attention is all you need“[11] von A. Vaswani, N. Shazeer, N. Parmar et al. hat 2017 zu einem Durchbruch geführt.

Stark vereinfacht stellt sich der Transformer mit einem Encoder und einem Decoder-Teil dar, die dafür sorgen, dass in den Lernzyklen die Sequenz-Wörter passend zu Vektoren in einem hochdimensionalen Vektorraum (über 700, meist über 1000 Dimensionen[12]) eingeordnet werden, in dem bedeutungsähnliche Wörter Vektoren haben, die nahe beieinander liegen.

Damit wird aus der sehr großen Datenmenge das „Sprachverständnis“ hinreichend zu einem Latenten (oder Repräsentanten-) Raum[13] filtriert, der es ermöglicht, mittels ebenfalls erzeugter Wahrscheinlichkeitsverteilungen synthetische Worte zu erzeugen, die sich sinnvoll zu Sätzen im passenden Kontext zusammensetzen. Der genaue Mechanismus des gelernten Neuronalen Netzes bleibt (zunächst?) verborgen, was wichtig für die weiteren Betrachtungen ist.

Fast alle heute existierenden Sprachmodelle sind Transformer orientiert und lassen sich einteilen in solche, die dem Konzept strikt folgen und solche, die Encoder- oder Decoder orientiert sind. Beispiele für Letztere sind die ersten im Juni bzw. Oktober 2018 veröffentlichten Sprachmodelle: GPT (Generative pre-trained transformers, von Open AI) (vgl. Radford et al., 2018) und BERT (Bidirectional Encoder Representations from Transformers, von Google) (vgl. Devlin, Chang, Lee & Toutanova, 2018). Große Sprachmodelle (Large Language Models, LLMs) entstehen normalerweise in einem mehrstufigen Prozess.

Nach dem (Pre-) Training ist ein Grundmodell (Pretrained Language Model, PLM) entstanden, das in Folge noch „finegetuned“[14] werden muss, z.B. um Gespräche führen oder bestimmte Funktionen besser ausführen zu können. Dies ist mittels Reinforcement Learning und menschlicher Bewertung (Reinforcement learning from human feedback, RLHF)[15] und Finetuning-Verfahren möglich und geschieht „supervised“:

(Bildquelle: Raschka. Build a Large Language Model (From Scratch) Version 4, Manning Early Access Program 2024, erscheint Ende 2024 vollständig bei Manning Publications)

Von Large Language Models spricht man eigentlich erst, wenn eine Parameterzahl von 1 Milliarde überschritten ist. Die Basisvariante „Base“ von BERT hat 110 Millionen trainierbare Parameter. BERTLarge 340 Millionen Parameter. Diese Modelle dienen als Grundlage für eine Reihe von „Abkömmlingen“, die auf Spezialdomänen oder -fragen zugeschnitten sind.

GPT-1 hatte 117 Millionen Parameter, aber GPT-2 im November 2019 bereits 1,5 Milliarden und GPT-3 im Mai 2020 schon 175 Milliarden Parameter.

Natürlich haben zahlreiche andere Firmen auch LLMs veröffentlicht. Auf einige gehen wir später ein. Insgesamt existieren heute ebenfalls tausende LLMs, auch als Abkömmlinge einiger Vorreiter (vgl. S. Gao, A. K. Gao, 2023).

Grundsätzlich folgen GPT und BERT unterschiedlichen Entwicklungslinien. BERT hat sich auf die Anpassung an spezielle Aufgaben mit einer relativ kleinen Parameterzahl konzentriert. BERT ist Encoder orientiert und Open Source und lässt sich wegen seiner Größe gut anpassen.

Deshalb existieren extrem viele Publikationen zu den unterschiedlichsten Anwendungsgebieten und sehr viele BERT-Abkömmlinge, die verfügbar und spezialisiert sind. Bei Hugging Face sind tausende Modelle aufgeführt.[16]

Der Weg der GPT-n Reihe (Decoder orientiert und Lizenz) ist anders, die Größe wuchs enorm an. GPT 3 mit 175 Milliarden Parametern ist noch einmal zehn bzw. hundert Mal größer als die Vorgänger. Es handelt sich auch nicht um eine Open Source-Lösung, sondern sie kann über eine kostenpflichtige API bei OpenAI genutzt werden.  

Bildquelle: Zhao. et al. “A survey of large language models”, arXiv:2303.18223, 2023

Zur vorerst abschließenden Entwicklung von ChatGPT wurde GPT-3 nochmals insbesondere durch ein Training auf „Codegenerierung“ und dem „Verständnis von Instruktionen“ in zwei Punkten verbessert: Einerseits über das Code-Thema hinaus zu Fähigkeiten bei Schlussfolgerungen und bei der Lösung komplexer Aufgaben. Mittels des Reinforcement Learnings mit menschlicher Beurteilungshilfe (RLHF) hatte man GPT-2 schon für NLP-Aufgaben verbessert, und nun GPT-3 (über InstructGPT) in der Dialogfähigkeit nach vorn gebracht.

Mit ChatGPT ist nun über die Strecke von 80 Jahren Fortschritten und Rückschlägen das Ziel einer Software erreicht, die dem Computer eine überraschend gute Sprachfähigkeit verschafft hat.


Bibliography

Bahdanau, D., Cho, KH., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. https://arxiv.org/pdf/1409.0473

Devlin, J., Chang, M., Lee, K., &Toutanova, K. (2019). BERT: pre-training of deep bidirectional transformers for language understanding. NAACL-HLT, Burstein, J., Doran, C., & Solorio, T. Eds. Association for Computational Linguistics, 1, 4171–4186.

Gao, S.,  Gao, A. K. (2023). On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models. https://arxiv.org/ftp/arxiv/papers/2307/2307.09793.pdf

Radford, A., Narasimhan, K., Salimans, T., Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

Tunstall, L., von Werra, L., Wolf, T. (2023). Natural Language Processing mit Transformern. German Edition, O’Reilly.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems December 4- 9, 2017, Long Beach, CA, USA, 5998–6008.

Yildiz, M., Hattatoglu, F., Erdogan, M., Erboga, M. (2023). Generative AI and Large Language Models: An Overview of Current Trends and Terminology in the Field. Independently published.


[1] OpenAI. (@OpenAI), “OpenAI on Twitter: ‘Try talking with ChatGPT, our new AI system which is optimized for dialogue. Your feedback will help us improve it.’” Twitter. https://twitter.com/OpenAI/status/ 1598014522098208769?cxt=HHwWgsCi-bfvpK0sAAAA

[2] Beim “Lernprozess” veränderbare Gewichte eines Neuronalen Netzes

[3] Militärisches Atomgroßforschungsprojekt, das mit sehr großem Ressourcenaufwand zum Bau der ersten Atombombe 1945 führte

[4] Siehe z. B. https://taz.de/Moratorium-ueber-Umgang-mit-KI/!5925502/

[5] Zum Beispiel spaCy (https://spacy.io)

[6]Graphics processing unit (GPU)

[7] Überwachtes Machine Learning mit Labels (Annotationen), die ohne menschliches Zutun erzeugt werden

[8] Dieser Hintergrund der semantischen Herangehensweise entstammt auch der „Distributional Hypothesis“, die aussagt: „A word is characterized by the company it keeps“ aus den 50er Jahren, J.R. Firth zugeschrieben

[9] Anwendung auf die gegeben Daten (Texte) ermöglicht offensichtlich Self-Supervised Learning (Lernmethode, die durch Abdecken von Worten in Sätzen, wobei die Worte geschätzt werden, funktioniert)

[10] Aufmerksamkeitsprinzip noch für Recurrent Neural Networks (RNNs) mit Long Short Term Memory (LSTM)

[11] Dieser Titel inspirierte nicht weniger als 50 Folgeartikel (https://oreil.ly/wT8Ih) „all you need“ in ihren Titeln aufzunehmen

[12] Um mit Wörtern rechnen zu können, müssen diese in Zahlenraum (Vektorraum) übersetzt werden. Das Thema wird später in der Serie unter „Embedding“ näher erläutert

[13] Vgl. https://en.wikipedia.org/wiki/Latent_space

[14] Anpassung des Modells auf spezielle Anforderungen durch Nachtrainieren

[15] Reinforcement Learning (bestärkendes Lernen) ist eine Unterart des Machine Learnings durch Rückmeldung in Form von „Belohnung und Bestrafung“, RLHF durch menschliches Feedback.

[16] https://huggingface.co/models?p=3&sort=trending&search=bert

Wilhelm Niehoff
Latest posts by Wilhelm Niehoff (see all)

Was sind Deine Erfahrungen mit dem Thema? (Kommentieren geht auch ohne Anmeldung oder Einloggen; einfach kommentieren, auf Freigabe warten und fertig!)