Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- ef:ki:llm [2026/04/23 00:52] – [6. Grenzen und Probleme von LLMs] emmeneggerg
+++ ef:ki:llm [2026/04/23 12:32] (aktuell) – [5. GPUs] emmeneggerg
@@ Zeile 11: / Zeile 11: @@
 </WRAP>
-<WRAP important>
+<WRAP info>
 Ein LLM arbeitet nicht direkt mit Wörtern, sondern mit Tokens. Ein solches Token kann verschiedene Formen haben z.B.
   * ein ganzes Wort (Baum)
@@ Zeile 43: / Zeile 43: @@
 Für das Training kann man sich das LLM wie eine riesige Maschine mit unzähligen Hebeln vorstellen, die richtig eingestellt werden muss. Wird die Position eines Hebels verändert, also die Einstellungen verstellt, kommt ein anderes Ergebnis heraus. Bei einem LLM sind es jedoch keine Hebel, sondern sogenannte Weights (Gewichte)/Parameter, die je nach Einstellung andere Wahrscheinlichkeiten für die Tokens berechnen.
 {{ :ef:ki:gewichtseinstellungen.png?900 |Je nach Einstellung der Parameter ändern sich die Vorhersagen.}}
+//Je nach Einstellung der Parameter ändern sich die Vorhersagen.//
 ==== Training Schritt 1 ====
@@ Zeile 65: / Zeile 66: @@
 Der Transformer ermöglicht es, einen gesamten Textabschnitt gleichzeitig zu analysieren und Zusammenhänge zwischen verschiedenen Teilen des Textes herzustellen.
+{{ :ef:ki:altes_vs._neues_model.png?nolink&600 |}}
+//Bild: Wie frühere Modelle Sätze bearbeiten und wie Transformer dies tun.//
 Da ein Transformer nicht direkt mit rohem Text arbeiten kann, wird dieser zunächst in Tokens zerlegt (Tokenisierung). Anschliessend werden die Tokens in sogenannte Vektoren umgewandelt, die in einem mehrdimensionalen Raum angeordnet sind. Diese Vektoren werden als Embeddings bezeichnet. Wörter mit ähnlicher Bedeutung liegen dabei nahe beieinander, während inhaltlich unterschiedliche Wörter weiter voneinander entfernt sind. Die Vektoren für «Mann» und «Frau» liegen nahe beieinander, während der Vektor für «König» viel weiter weg ist. Die Bedeutung wird als Position im Raum dargestellt.
-{{:bild_embeddings.png|}}
+{{ :ef:ki:embeddings.png?nolink&600 |Beispiel wie Wörter als Embeddings dargestellt werden}}
+//Bild: Beispiel wie Wörter als Embeddings dargestellt werden//
 Der Transformer besteht aus wiederkehrenden Schichten von Attention-Mechanismen und FNN.
+<WRAP info>
-===Attention-Mechanismus (Aufmerksamkeitsmechanismus)===
+**Attention-Mechanismus (Aufmerksamkeitsmechanismus)**
 Der Aufmerksamkeitsmechanismus ermöglicht dem LLM, sich auf relevante Teile der Daten zu konzentrieren und irrelevante Details zu ignorieren. Indem Tokens je nach Kontext als unterschiedlich wichtig gewertet werden, können Zusammenhänge besser dargestellt und verstanden werden.
@@ Zeile 78: / Zeile 84: @@
 Sogenannte Kontextfenster bestimmen, wie viel Text das Modell gleichzeitig berücksichtigt. Kleinere Modelle berücksichtigen ca. 2'000 Tokens, grössere Modelle über 100'000 Tokens. Nur die Inhalte, die in diesem Kontextfenster vorkommen, werden auch für das Generieren der Antworten berücksichtigt.
+</WRAP>
-===FNN: Feedforward-Neuronal-Networks===
+<WRAP info>
+**FNN: Feedforward-Neuronal-Networks**
 Die FNN sind einfache neuronale Netzwerke, die Informationen von einer Schicht zur nächsthöheren weitergeben. Sie werden verwendet damit das Gelernte aus dem Training angewendet werden kann.
+</WRAP>
 Die Daten durchlaufen mehrfach diese Schichten, wodurch das Modell schrittweise ermittelt, welche Informationen entscheidend sind, um das nächste Token vorherzusagen.
+{{ :ef:ki:transformer_2.png?nolink&600 |}}
-Am Ende dieses Prozesses wird der letzte Vektor vorhergesagt, der von allen vorhergegangenen Vektoren und auch dem Wissen aus dem Training beeinflusst werden konnte. Auch hier ist der Output eine Liste von Token und deren Wahrscheinlichkeiten, als Nächstes zu kommen.
-{{:bild_transformer.png|Bild: Beispiel, wie sich Vektoren beeinflussen, um Kontext zu verstehen und somit ein nächstes Token zu berechnen.}}
+Am Ende dieses Prozesses wird der letzte Vektor vorhergesagt, der von allen vorhergegangenen Vektoren und auch dem Wissen aus dem Training beeinflusst werden konnte. Auch hier ist der Output eine Liste von Token und deren Wahrscheinlichkeiten, als Nächstes zu kommen.
+{{ :ef:ki:vektoren.png?nolink&400 |Beispiel, wie sich Vektoren beeinflussen, um Kontext zu verstehen und somit ein nächstes Token zu berechnen.}}
+//Bild: Beispiel, wie sich Vektoren beeinflussen, um Kontext zu verstehen und somit ein nächstes Token zu berechnen.//
@@ Zeile 94: / Zeile 106: @@
 Um LLMs herzustellen, braucht man spezielle Computerchips, die viele Rechnungen gleichzeitig durchführen können. Diese werden GPUs genannt.
-{{:bild_gpu.png|}}
+{{ :ef:ki:gpu.png?nolink&300 |Beispiel eines GPUs}}
 ===== 6. Grenzen und Probleme von LLMs =====
   * LLMs erfordern erhebliche Ressourcen für Entwicklung und Training. Häufig werden grössere Modelle auf bereits bestehenden Basismodellen aufgebaut, die ein grundlegendes Sprachverständnis besitzen.
+  * LLMs verstehen nichts im menschlichen Sinne. Sie haben Probleme mit logischen Schlussfolgerungen, dem Übertragen von Wissen auf neue Kontexte und ähnlichen Aufgaben.
   * Da LLMs auf Wahrscheinlichkeiten basieren, können sie Antworten erzeugen, die überzeugend wirken, jedoch faktisch falsch sind. Diese bezeichnet man als Halluzinationen.
   * Selbst wenn die LLM durch Transformer riesige Teile des Textes beachten, bleibt die Kapazität endlich. Das LLM kann nur Informationen anschauen, welche in einem begrenzten Kontextfenster liegen. Dies führt dazu, dass frühere Gesprächsteile vergessen werden oder Zusammenhänge verloren gehen. Dies passiert insbesondere bei sehr langen Argumentationen.
-  * LLMs verstehen nichts im menschlichen Sinne. Sie haben Probleme mit logischen Schlussfolgerungen, dem Übertragen von Wissen auf neue Kontexte und ähnlichen Aufgaben.
   * Da LLMs mit menschengemachten Texten trainiert werden, können Vorurteile aus den Trainingsdaten übernommen werden. Es entstehen Verzerrungen (Bias). Siehe 6. Gruppe.
   * Zudem ist das Wissen eines LLMs in der Regel auf den Trainingszeitraum beschränkt und wird nicht automatisch aktualisiert. Dadurch fehlen Informationen über aktuelle Entwicklungen oder neue wissenschaftliche Erkenntnisse.