LLMs

Dies ist eine alte Version des Dokuments!

LLM steht für Large Language Models (deutsch: grosse Sprachmodelle) und bildet die Grundlage moderner KI-Systeme wie Chatbots. Diese Modelle sind in der Lage, Texte zu verfassen und zusammenzufassen, Fragen zu beantworten, Programme zu schreiben und viele weitere sprachbezogene Aufgaben zu übernehmen.

Grundidee: Ein LLM sagt das nächste Token in einem Text vorher.

Beispiel: Beim Satz «Im Osten geht die Sonne …» würde das LLM als Nächstes «auf» vorschlagen.

Ein LLM arbeitet nicht direkt mit Wörtern, sondern mit Tokens. Ein solches Token kann verschiedene Formen haben z.B.

ein ganzes Wort (Baum)
Wortteile (un) (glaublich)
einzelne Zeichen (#) (a)

Durch diese Zerlegung kann das Modell flexibel mit Sprache umgehen und auch unbekannte oder seltene Wörter verarbeiten.

Der Output eines LLMs besteht jedoch nicht nur aus einem einzelnen Wort, sondern aus mehreren möglichen Tokens mit jeweils zugehörigen Wahrscheinlichkeiten. So könnte ein möglicher Output aussehen:

Token	Wahrscheinlichkeit
auf	30%
unter	10 %
Westen	1 %
ab	0.1 %
…

Das Modell wählt dabei nicht immer strikt das wahrscheinlichste Token aus, sondern variiert seine Auswahl leicht, um natürlichere und abwechslungsreichere Texte zu erzeugen. Dies erklärt, weshalb bei identischen Eingaben unterschiedliche Antworten entstehen können.

Um solche Wahrscheinlichkeiten berechnen zu können, wird ein LLM mit enormen Mengen an Textdaten trainiert, die häufig aus dem Internet stammen.

Für das Training kann man sich das LLM wie eine riesige Maschine mit unzähligen Hebeln vorstellen, die richtig eingestellt werden muss. Wird die Position eines Hebels verändert, also die Einstellungen verstellt, kommt ein anderes Ergebnis heraus. Bei einem LLM sind es jedoch keine Hebel, sondern sogenannte Weights (Gewichte)/Parameter, die je nach Einstellung andere Wahrscheinlichkeiten für die Tokens berechnen.

Für ein LLM kann es Milliarden von verschiedenen Parametern geben, die alle richtig eingestellt werden müssen. Dies wird jedoch nicht von einem Menschen gemacht, sondern von dem LLM selbst. Zu Beginn werden diese zufällig gesetzt, wodurch die ersten Ausgaben des Modells weitgehend unverständlich sind.

Da kommen die Trainingstexte ins Spiel. Es nimmt einen Text/ Abschnitt/ Satz und lässt das letzte Token weg. Danach versucht das LLM selbst eine Vorhersage für das letzte Token zu treffen. Anschliessend vergleicht es die Vorhersage mit dem ursprünglichen letzten Token. Einstellungen werden nun so verändert, dass das wirkliche letzte Token wahrscheinlicher ist und alle anderen unwahrscheinlicher. Dieser Prozess wird sehr oft wiederholt. Dadurch lernt das Modell sprachliche Muster, grammatische Strukturen und stilistische Eigenschaften und kann schliesslich auch für unbekannte Texte sinnvolle Vorhersagen treffen.

Die Anzahl an Berechnungen, die es braucht, um ein LLM zu trainieren, sind unglaublich zahlreich. Dies liegt unter anderem an den vielen Parametern, die eingestellt werden müssen, und an den Bergen von Trainingsdaten, die dazu verwendet werden.

Gedankenexperiment: Stell dir vor, pro Sekunde könnte man eine Milliarde Additionen und eine Milliarde Multiplikationen durchführen. Wie lange würde es wohl gehen, um ein LLM zu trainieren? 1 Woche? 1 Jahr? 1'000 Jahre?

Es sind über 100'000'000 Jahre!

Nach dem ersten Trainingsschritt kann das Modell zwar Texte vervollständigen, ist jedoch noch nicht optimal auf die Interaktion mit Menschen abgestimmt. Deshalb werden zusätzliche Trainingsschritte durchgeführt, bei denen Menschen die Antworten des Modells bewerten. Das Modell erhält Rückmeldungen darüber, welche Antworten hilfreich und korrekt sind und welche nicht. Auf dieser Grundlage wird es weiter optimiert, um als hilfreicher Assistent zu fungieren.

Moderne LLMs basieren auf der sogenannten Transformer-Architektur. Frühere Modelle verarbeiteten Texte strikt Token für Token, was zu verschiedenen Problemen führte. Dazu gehören Mehrdeutigkeiten von Wörtern («Maus» als Tier oder Computergerät), die Bedeutung der Wortreihenfolge («Hund beisst Mensch» vs. «Mensch beisst Hund») sowie Bezüge innerhalb eines Satzes. («Der Hund, den ich gestern gesehen habe, war gross.» Das Wort «war» bezieht sich auf den Hund und nicht auf Gestern)

Der Transformer ermöglicht es, einen gesamten Textabschnitt gleichzeitig zu analysieren und Zusammenhänge zwischen verschiedenen Teilen des Textes herzustellen.

Da ein Transformer nicht direkt mit rohem Text arbeiten kann, wird dieser zunächst in Tokens zerlegt (Tokenisierung). Anschliessend werden die Tokens in sogenannte Vektoren umgewandelt, die in einem mehrdimensionalen Raum angeordnet sind. Diese Vektoren werden als Embeddings bezeichnet. Wörter mit ähnlicher Bedeutung liegen dabei nahe beieinander, während inhaltlich unterschiedliche Wörter weiter voneinander entfernt sind. Die Vektoren für «Mann» und «Frau» liegen nahe beieinander, während der Vektor für «König» viel weiter weg ist. Die Bedeutung wird als Position im Raum dargestellt.

Der Transformer besteht aus wiederkehrenden Schichten von Attention-Mechanismen und FNN.

Attention-Mechanismus (Aufmerksamkeitsmechanismus)
FNN: Feedforward-Neuronal-Networks

Der Aufmerksamkeitsmechanismus ermöglicht dem LLM, sich auf relevante Teile der Daten zu konzentrieren und irrelevante Details zu ignorieren. Indem Tokens je nach Kontext als unterschiedlich wichtig gewertet werden, können Zusammenhänge besser dargestellt und verstanden werden.

Für das Beispiel mit der Doppelbedeutung des Wortes Maus von oben würde das bedeuten, dass hier auch der restliche Satz/ Abschnitt angeschaut wird. Es wird erkannt, dass, wenn das Wort «Käse» im gleichen Satz verwendet wird, es sich um ein Tier handelt, und wenn das Wort «Computer» vorkommt, es eine Computermaus ist.

Sogenannte Kontextfenster bestimmen, wie viel Text das Modell gleichzeitig berücksichtigt. Kleinere Modelle berücksichtigen ca. 2'000 Tokens, grössere Modelle über 100'000 Tokens. Nur die Inhalte, die in diesem Kontextfenster vorkommen, werden auch für das Generieren der Antworten berücksichtigt.

Die FNN sind einfache neuronale Netzwerke, die Informationen von einer Schicht zur nächsthöheren weitergeben. Sie werden verwendet damit das Gelernte aus dem Training angewendet werden kann.

Die Daten durchlaufen mehrfach diese Schichten, wodurch das Modell schrittweise ermittelt, welche Informationen entscheidend sind, um das nächste Token vorherzusagen.

Am Ende dieses Prozesses wird der letzte Vektor vorhergesagt, der von allen vorhergegangenen Vektoren und auch dem Wissen aus dem Training beeinflusst werden konnte. Auch hier ist der Output eine Liste von Token und deren Wahrscheinlichkeiten, als Nächstes zu kommen.

Sobald ein Token dem Text hinzugefügt wurde, beginnt das Ganze von neuem und der nächste Token wird vorhergesagt. Nun gehört das vorher generierte Token zum Kontext. Es folgt also einem autoregressiven Modell.

Beispiel: Starttext: «Der Hund». Das LLM ergänzt das Token «rennt». Nun ist der neue Kontext: «Der Hund rennt» und ein neues Token wird generiert.

Wissenschaftler haben das Grundgerüst von diesen Transformern gebaut, doch wie sie sich dann verhalten, hängt davon ab, wie die Parameter im Training eingestellt worden sind. Darum ist es äusserst schwierig zu sagen, warum ein LLM ein Token vorschlägt. Doch die Ergebnisse sprechen für sich: LLM produzieren flüssige Texte, die kaum mehr zu unterscheiden sind von Texten, die von Menschen geschrieben wurden.

Um LLMs herzustellen, braucht man spezielle Computerchips, die viele Rechnungen gleichzeitig durchführen können. Diese werden GPUs genannt.

LLMs erfordern erhebliche Ressourcen für Entwicklung und Training. Häufig werden grössere Modelle auf bereits bestehenden Basismodellen aufgebaut, die ein grundlegendes Sprachverständnis besitzen.
Da LLMs auf Wahrscheinlichkeiten basieren, können sie Antworten erzeugen, die überzeugend wirken, jedoch faktisch falsch sind. Diese bezeichnet man als Halluzinationen.
Selbst wenn die LLM durch Transformer riesige Teile des Textes beachten, bleibt die Kapazität endlich. Das LLM kann nur Informationen anschauen, welche in einem begrenzten Kontextfenster liegen. Dies führt dazu, dass frühere Gesprächsteile vergessen werden oder Zusammenhänge verloren gehen. Dies passiert insbesondere bei sehr langen Argumentationen.
LLMs verstehen nichts im menschlichen Sinne. Sie haben Probleme mit logischen Schlussfolgerungen, dem Übertragen von Wissen auf neue Kontexte und ähnlichen aufgaben.
Da LLMs mit menschengemachten Texten trainiert werden, können Vorurteile aus den Trainingsdaten übernommen werden. Es entstehen Verzerrungen (Bias). Siehe 6. Gruppe.
Zudem ist das Wissen eines LLMs in der Regel auf den Trainingszeitraum beschränkt und wird nicht automatisch aktualisiert. Dadurch fehlen Informationen über aktuelle Entwicklungen oder neue wissenschaftliche Erkenntnisse.
Schliesslich kann bereits eine kleine Veränderung der Eingabe (Prompt) zu deutlich unterschiedlichen Ergebnissen führen, da das Modell auf statistischen Mustern basiert und nicht auf einem echten Verständnis der Bedeutung.

Begriff	Erklärung
LLM (Large Language Model)	Ein LLM ist ein KI-Modell, das darauf spezialisiert ist, Sprache zu verarbeiten und zu erzeugen, indem es Wahrscheinlichkeiten für mögliche Textfortsetzungen berechnet.
Token	Ein Token ist eine kleine Spracheinheit (Wort, Wortteil oder Zeichen), mit der ein LLM arbeitet, anstatt ganze Wörter direkt zu verarbeiten.
Wahrscheinlichkeitsverteilung	Das Modell berechnet für mehrere mögliche nächste Tokens jeweils eine Wahrscheinlichkeit und wählt daraus eine passende Fortsetzung aus.
Parameter (Weights/Gewichte)	Parameter sind die verstellbaren Werte im Modell, die bestimmen, wie wahrscheinlich bestimmte Vorhersagen sind und die während des Trainings angepasst werden.
Training mit Internettexten	Beim Training lernt das Modell, fehlende Wörter vorherzusagen, indem es seine Vorhersagen mit echten Texten vergleicht und daraus Muster ableitet.
RLHF (Reinforcement Learning with Human Feedback)	Dabei wird das Modell durch menschliches Feedback verbessert, sodass es hilfreichere und passendere Antworten gibt.
GPU	Eine GPU ist ein spezieller Computerchip, der viele Berechnungen gleichzeitig durchführen kann und deshalb für das Training von LLMs notwendig ist.
Transformer	Der Transformer ist die Architektur moderner LLMs, die es ermöglicht, ganze Textabschnitte gleichzeitig zu analysieren und Zusammenhänge zu erkennen.
Attention-Mechanismus	Dieser Mechanismus sorgt dafür, dass das Modell wichtige Teile eines Textes stärker berücksichtigt und so den Kontext besser versteht.
Embedding	Ein Embedding ist eine numerische Darstellung eines Tokens als Vektor, bei der ähnliche Bedeutungen räumlich nahe beieinander liegen.
Feedforward-Neuronales Netzwerk (FNN)	Ein FNN verarbeitet die Informationen innerhalb des Modells weiter und hilft, komplexe Muster aus den Daten zu nutzen.
Autoregressives Modell	Das Modell erzeugt Text Schritt für Schritt, wobei jedes neu erzeugte Token wieder Teil des Kontexts wird.
Kontextfenster	Das Kontextfenster bestimmt, wie viel Text das Modell gleichzeitig berücksichtigen kann, und begrenzt somit sein „Gedächtnis“.
Halluzinationen	Damit bezeichnet man falsche, aber plausibel klingende Antworten, die durch die probabilistische Arbeitsweise des Modells entstehen.

Arize AI, ‘Embeddings: Meaning, Examples, and How to Compute’, o. D., https://arize.com/blog-course/embeddings-meaning-examples-and-how-to-compute/, zuletzt abgerufen am 21. April 2026.
IBM, ‘What Are Embeddings?’, o. D., https://www.ibm.com/de-de/think/topics/embedding, zuletzt abgerufen am 21. April 2026.
IBM, ‘What Is an Attention Mechanism?’, o. D., https://www.ibm.com/de-de/think/topics/attention-mechanism, zuletzt abgerufen am 21. April 2026.
Informatik Aktuell, ‘Wie funktionieren Transformer? Definition und Praxis’, o. D., https://www.informatik-aktuell.de/betrieb/kuenstliche-intelligenz/wie-funktionieren-transformer-definition-und-praxis.html, zuletzt abgerufen am 21. April 2026.
IONOS Redaktion, ‘Feedforward Neural Network’, o. D., https://www.ionos.de/digitalguide/websites/web-entwicklung/feedforward-neural-network/, zuletzt abgerufen am 21. April 2026.
Moin.ai, ‘Große Sprachmodelle (LLMs)’, o. D., https://www.moin.ai/chatbot-lexikon/grosse-sprachmodelle-llms, zuletzt abgerufen am 21. April 2026.
Red Hat, ‘What Are Large Language Models?’, o. D., https://www.redhat.com/de/topics/ai/what-are-large-language-models, zuletzt abgerufen am 21. April 2026.
YouTube, ‘3Blue1Brown’, o. D., https://www.youtube.com/watch?v=LPZh9BOjkQs, zuletzt abgerufen am 21. April 2026.

Arize AI, ‘Embeddings: Meaning, Examples, and How to Compute’, o. D., https://arize.com/blog-course/embeddings-meaning-examples-and-how-to-compute/, zuletzt abgerufen am 21. April 2026.
YouTube, ‘3Blue1Brown’, o. D., https://www.youtube.com/watch?v=LPZh9BOjkQs, zuletzt abgerufen am 21. April 2026.