Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| ef:ki:bild [2026/03/19 15:40] – baechlerl | ef:ki:bild [2026/04/22 09:34] (aktuell) – [Was ist generative KI?] baechlerl | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| ====== Bild- und Videogeneratoren mit KI ====== | ====== Bild- und Videogeneratoren mit KI ====== | ||
| - | Diese Seite erklärt, wie KI-gestützte | + | Stell dir vor, du schreibst „ein futuristisches Zürich bei Nacht“, und eine KI erzeugt daraus in wenigen Sekunden ein realistisches Bild oder sogar ein Video. |
| + | Genau das machen moderne | ||
| + | Diese Seite erklärt, wie solche Systeme | ||
| <WRAP tip> | <WRAP tip> | ||
| Zeile 11: | Zeile 13: | ||
| ==== Was ist generative KI? ==== | ==== Was ist generative KI? ==== | ||
| - | Normale KI-Programme erkennen Dinge – zum Beispiel, ob auf einem Foto eine Katze zu sehen ist. Generative KI macht etwas anderes: Sie erzeugt neue Inhalte, also etwa ein Bild, das es vorher noch nicht gab. Das Programm lernt dazu aus sehr vielen Beispielen, welche Bilder, Texte oder Videos „typisch" | + | <wrap 100px> |
| - | Bild- und Videogeneratoren sind eine Art generativer | + | Normale KI-Programme erkennen Dinge wie zum Beispiel, ob auf einem Foto eine Katze zu sehen ist. Generative KI macht etwas anders. Sie erzeugt neue Inhalte, wie beispielsweise ein Bild, das es vorher noch nicht gab. Das Programm lernt dazu aus sehr vielen Beispielen. Welche Bilder, Texte oder Videos " |
| + | |||
| + | Bild- und Videogeneratoren sind eine Art generative | ||
| ^ Begriff ^ Erklärung ^ | ^ Begriff ^ Erklärung ^ | ||
| Zeile 19: | Zeile 23: | ||
| | Seed | Eine Zahl, die den Zufallsstart festlegt. Mit demselben Seed und Prompt bekommt man immer dasselbe Bild | | | Seed | Eine Zahl, die den Zufallsstart festlegt. Mit demselben Seed und Prompt bekommt man immer dasselbe Bild | | ||
| | Latenter Raum | Eine stark vereinfachte, | | Latenter Raum | Eine stark vereinfachte, | ||
| - | | Training | Das Lernen des Modells aus sehr vielen Beispielbildern | + | | Training | Das Lernen des Modells aus sehr vielen Beispielbildern. Das passiert einmal, bevor man das Tool nutzt | |
| - | | Inference | Die eigentliche Nutzung: Man gibt einen Prompt ein und das fertig trainierte Modell erzeugt das Bild | | + | | Inference | Die eigentliche Nutzung. Man gibt einen Prompt ein und das fertig trainierte Modell erzeugt das Bild | |
| ==== Was macht einen guten Prompt aus? ==== | ==== Was macht einen guten Prompt aus? ==== | ||
| Zeile 37: | Zeile 41: | ||
| ==== Trainingsdaten ==== | ==== Trainingsdaten ==== | ||
| - | Damit ein Bildgenerator lernen | + | Damit ein Modell Bilder erzeugen |
| + | Beim Training sieht es Millionen von Bildern zusammen mit passenden | ||
| + | So lernt das Modell, was Begriffe | ||
| Zeile 43: | Zeile 49: | ||
| <WRAP info> | <WRAP info> | ||
| - | Dieser Abschnitt erklärt, was im Hintergrund | + | Dieser Abschnitt erklärt |
| </ | </ | ||
| ==== Neuronale Netze ==== | ==== Neuronale Netze ==== | ||
| - | Ein neuronales Netz ist eine Art Computerprogramm, | + | Ein neuronales Netz ist ein Computerprogramm, |
| + | Es besteht aus vielen kleinen Recheneinheiten, | ||
| + | Beim Training werden diese Verbindungen so angepasst, dass das Netz sinnvolle Ergebnisse | ||
| ==== Transformer und Attention ==== | ==== Transformer und Attention ==== | ||
| - | Transformer sind eine bestimmte | + | Transformer sind eine spezielle |
| + | Zum Beispiel | ||
| + | Der Mechanismus dahinter heisst Attention. Das Modell | ||
| ==== U-Net ==== | ==== U-Net ==== | ||
| - | Viele ältere Bildgeneratoren benutzen eine Architektur | + | Viele ältere Bildgeneratoren benutzen eine Struktur |
| ==== Variational Autoencoder (VAE) ==== | ==== Variational Autoencoder (VAE) ==== | ||
| Zeile 64: | Zeile 75: | ||
| - Decoder: Aus dieser kompakten Form wird das Bild wieder aufgebaut. | - Decoder: Aus dieser kompakten Form wird das Bild wieder aufgebaut. | ||
| - | Das klingt zunächst nutzlos, ist aber sehr praktisch: Das Modell | + | So muss das Modell |
| ==== Diffusionsmodelle ==== | ==== Diffusionsmodelle ==== | ||
| - | Diffusionsmodelle sind das Herzstück moderner Bildgeneratoren. Die Grundidee kommt aus der Physik: Wenn man einen Tintentropfen ins Wasser gibt, verteilt er sich langsam gleichmässig | + | Diffusionsmodelle sind das Herzstück moderner Bildgeneratoren. Die Grundidee kommt aus der Physik. Wenn man einen Tintentropfen ins Wasser gibt, verteilt er sich langsam gleichmässig, das nennt man Diffusion. KI-Diffusionsmodelle machen das mit Bildern: |
| - Vorwärtsprozess: | - Vorwärtsprozess: | ||
| - Rückwärtsprozess: | - Rückwärtsprozess: | ||
| - | - Anwendung: Man beginnt mit purem Rauschen und lässt das Modell es Schritt für Schritt | + | - Anwendung: Man beginnt mit purem Rauschen und lässt das Modell es Schritt für Schritt |
| <WRAP tip> | <WRAP tip> | ||
| Zeile 80: | Zeile 91: | ||
| ==== Latent Diffusion Models (LDM) ==== | ==== Latent Diffusion Models (LDM) ==== | ||
| - | Diffusion direkt auf einem Bild in voller Auflösung wäre viel zu langsam. | + | Diffusion direkt auf einem Bild in voller Auflösung wäre viel zu langsam. |
| - | Ausserdem wird der Textprompt über einen Mechanismus namens Cross-Attention in den Prozess eingebunden | + | Ausserdem wird der Textprompt über einen Mechanismus namens Cross-Attention in den Prozess eingebunden. So weiss das Modell, welches Bild es erzeugen soll. Das ist die Grundlage für Tools wie Stable Diffusion. |
| Zeile 88: | Zeile 99: | ||
| ^ Modelltyp ^ Wie es funktioniert ^ Bedeutung heute ^ | ^ Modelltyp ^ Wie es funktioniert ^ Bedeutung heute ^ | ||
| - | | GANs | Zwei Netze konkurrieren: eines erzeugt Bilder, das andere versucht, echte von falschen zu unterscheiden | War lange führend, heute für Text-to-Image weitgehend durch Diffusion ersetzt | | + | | GANs | Zwei Netze konkurrieren. Eines erzeugt Bilder, das andere versucht, echte von falschen zu unterscheiden | War lange führend, heute für Text-to-Image weitgehend durch Diffusion ersetzt | |
| | VAE | Encoder komprimiert, | | VAE | Encoder komprimiert, | ||
| | DDPM | Iteratives Entrauschen | Basis aller modernen Diffusionsmodelle | | | DDPM | Iteratives Entrauschen | Basis aller modernen Diffusionsmodelle | | ||
| | LDM | Diffusion im latenten Raum + Textsteuerung | Grundlage von Stable Diffusion & Co. | | | LDM | Diffusion im latenten Raum + Textsteuerung | Grundlage von Stable Diffusion & Co. | | ||
| - | | DiT | Transformer statt U-Net im Diffusionsmodell | Skaliert sehr gut; Basis neuerer Modelle wie FLUX und Sora | | + | | DiT | Transformer statt U-Net im Diffusionsmodell | Skaliert sehr gut. Basis neuerer Modelle wie FLUX und Sora | |
| Zeile 100: | Zeile 111: | ||
| <WRAP box> | <WRAP box> | ||
| - | - Textverstehen: | + | - Textverstehen: |
| - | - Rauschen erzeugen: | + | - Rauschen erzeugen: |
| - | - Schrittweises Entrauschen: | + | - Schrittweises Entrauschen: |
| - | - Guidance: | + | - Guidance: |
| - | - Dekodierung: | + | - Dekodierung: |
| </ | </ | ||
| Zeile 117: | Zeile 128: | ||
| ==== ControlNet ==== | ==== ControlNet ==== | ||
| - | Mit ControlNet kann man einem Diffusionsmodell zusätzliche Hinweise geben – zum Beispiel ein Kantenbild, eine Körperhaltung oder eine Tiefenkarte. Das Modell übernimmt dann die Struktur dieser Vorlage, aber erzeugt den Stil aus dem Prompt. So bekommt man viel mehr Kontrolle über Komposition und Aufbau des Bildes.((theblue.ai: | + | Mit ControlNet kann man einem Diffusionsmodell zusätzliche Hinweise geben, zum Beispiel ein Kantenbild, eine Körperhaltung oder eine Tiefenkarte. Das Modell übernimmt dann die Struktur dieser Vorlage, aber erzeugt den Stil aus dem Prompt. So bekommt man viel mehr Kontrolle über Komposition und Aufbau des Bildes.((theblue.ai: |
| ===== 5. Video-Generatoren ===== | ===== 5. Video-Generatoren ===== | ||
| - | Video bedeutet | + | Video bedeutet |
| <WRAP important> | <WRAP important> | ||
| - | Die einzelnen Bilder müssen zeitlich zusammenpassen. Figuren sollen nicht von Frame zu Frame ihr Gesicht verändern, und Bewegungen sollen flüssig wirken | + | Die einzelnen Bilder müssen zeitlich zusammenpassen. Figuren sollen nicht von Frame zu Frame ihr Gesicht verändern, und Bewegungen sollen flüssig wirken. Das nennt man zeitliche Konsistenz |
| </ | </ | ||
| Zeile 133: | Zeile 144: | ||
| | Video Diffusion | Direkte Erweiterung der Bilddiffusion auf mehrere Frames gleichzeitig | | | Video Diffusion | Direkte Erweiterung der Bilddiffusion auf mehrere Frames gleichzeitig | | ||
| | Kaskaden-Ansatz | Zuerst ein grobes Video, dann wird es mit weiteren Modellen verfeinert und schärfer gemacht (z.B. Imagen Video) | | | Kaskaden-Ansatz | Zuerst ein grobes Video, dann wird es mit weiteren Modellen verfeinert und schärfer gemacht (z.B. Imagen Video) | | ||
| - | | Make-A-Video | Das Modell lernt, wie Dinge aussehen, aus Bild-Text-Paaren | + | | Make-A-Video | Das Modell lernt, wie Dinge aussehen, aus Bild-Text-Paaren und wie sie sich bewegen, aus Videomaterial ohne Beschriftungen | |
| | Latent Video Diffusion | Video-Diffusion im latenten Raum, mehrstufiges Training (z.B. Stable Video Diffusion) | | | Latent Video Diffusion | Video-Diffusion im latenten Raum, mehrstufiges Training (z.B. Stable Video Diffusion) | | ||
| - | | Spacetime Patches | Videos werden in kleine Bausteine (Patches) über Raum und Zeit zerlegt und mit einem Transformer verarbeitet – so funktioniert Sora((DOCMA: | + | | Spacetime Patches | Videos werden in kleine Bausteine (Patches) über Raum und Zeit zerlegt und mit einem Transformer verarbeitet – so funktioniert |
| ==== Tipps für Video-Prompts ==== | ==== Tipps für Video-Prompts ==== | ||
| - | Bei Video-Prompts reicht eine reine Inhaltsbeschreibung oft nicht. Man sollte auch beschreiben, | + | Bei Video-Prompts reicht eine Inhaltsbeschreibung oft nicht. Man sollte auch beschreiben, |
| * Kamerabewegung angeben: //" | * Kamerabewegung angeben: //" | ||
| Zeile 160: | Zeile 171: | ||
| ===== 7. Anwendungsbereiche ===== | ===== 7. Anwendungsbereiche ===== | ||
| - | KI-Bild- und Videogeneratoren werden | + | KI Bild und Videogeneratoren werden in vielen Bereichen eingesetzt. Um einen besseren Überblick zu behalten, kann man die Anwendungen in verschiedene Kategorien einteilen: |
| - | * Kreativbranche: | + | ==== Kreative Anwendungen ==== |
| - | * Bildung: Anschauungsmaterial und Visualisierungen | + | |
| - | * Forschung: Synthetische Trainingsdaten für andere KI-Modelle | + | |
| - | * Industrie: Produktdesign, | + | |
| - | * Unterhaltung: | + | |
| + | * Kunst und Design: Unterstützung bei Ideen, Entwürfen und Visualisierungen | ||
| + | * Film und Medien: Erstellung von Storyboards, | ||
| + | * Spieleentwicklung: | ||
| - | ===== 8. Risiken | + | ==== Praktische |
| - | ==== Deepfakes | + | * Architektur |
| + | * Marketing: Erstellung von Bildern und Videos für Werbung und soziale Medien | ||
| + | * Bildung: Veranschaulichung von komplexen Inhalten, z. B. historische Szenen oder wissenschaftliche Prozesse | ||
| - | Generative Modelle können täuschend echte Bilder | + | ==== Wissenschaft |
| - | Laut einer Studie der IU Internationalen Hochschule (2025) wissen nur 34,3 % der Menschen in Deutschland, | + | * Forschung: Generierung |
| + | * Medizin: Simulationen und Visualisierungen, | ||
| - | Die Bundeszentrale für politische Bildung (bpb) betont, dass Medienkompetenz deshalb immer wichtiger wird.((bpb: Deepfakes – Wenn man Augen und Ohren nicht mehr trauen kann. https:// | + | ==== Alltag ==== |
| - | ==== Herkunftsnachweise und Watermarking ==== | + | * Private Nutzung: Erstellung von Bildern, Videos oder kreativen Projekten |
| + | * Social Media: Inhalte für Posts, Profile oder persönliche Projekte | ||
| - | Als technische Gegenmassnahmen gibt es zwei Ansätze: | ||
| - | * C2PA ist ein Standard, der Herkunftsinformationen direkt in eine Datei einbettet. Man kann so nachverfolgen, | + | ===== 8. Risiken |
| - | * SynthID (Google DeepMind) bettet unsichtbare Wasserzeichen in KI-generierte Bilder | + | |
| - | ==== Regulierung: EU AI Act ==== | + | ==== Deepfakes und Desinformation ==== |
| + | |||
| + | Mit generativer KI lassen sich sehr realistische Bilder und Videos von Personen erzeugen, sogenannte Deepfakes. | ||
| + | Diese können gezielt eingesetzt werden, um falsche Informationen zu verbreiten oder Menschen Dinge in den Mund zu legen, die sie nie gesagt haben. | ||
| + | Das Problem ist, dass solche Inhalte für viele Menschen kaum von echten Aufnahmen zu unterscheiden sind. | ||
| + | Dadurch wird es schwieriger, | ||
| + | |||
| + | |||
| + | ==== Verlust von Vertrauen | ||
| + | |||
| + | Wenn immer mehr Inhalte künstlich erzeugt werden, kann das langfristig das Vertrauen in Medien schwächen. | ||
| + | Fotos und Videos galten früher oft als Beweis. Heute ist das nicht mehr selbstverständlich. | ||
| + | Das betrifft zum Beispiel Journalismus, | ||
| - | In der EU schreibt der AI Act vor, dass KI-generierte Inhalte als solche gekennzeichnet werden müssen – besonders Deepfakes. Soziale Plattformen wie YouTube und Meta setzen das bereits mit „Made with AI" | ||
| ==== Urheberrecht und Autorschaft ==== | ==== Urheberrecht und Autorschaft ==== | ||
| - | Wem gehört | + | Ein zentrales Problem ist die Frage, wem ein KI erzeugtes |
| + | In vielen Fällen gilt: Wenn kein Mensch kreativ beteiligt ist, gibt es kein klassisches | ||
| + | Schwierig wird es, wenn ein Mensch aktiv am Ergebnis mitarbeitet, | ||
| + | Hier ist die Rechtslage noch nicht eindeutig geklärt. | ||
| - | Schwieriger wird es, wenn ein Mensch viel kreative Arbeit in den Prompt gesteckt und das Ergebnis nachbearbeitet hat. Dann könnte ein Urheberrecht entstehen. Die genaue Grenze ist rechtlich noch nicht abschliessend geklärt.((Verbraucherportal BW: Das Urheberrecht und die Fallen bei Nutzung von generativer KI. https:// | ||
| ==== Bias und Repräsentation ==== | ==== Bias und Repräsentation ==== | ||
| - | KI-Modelle lernen aus Internetdaten – und das Internet | + | KI Modelle lernen aus grossen Datenmengen aus dem Internet. |
| + | Das kann dazu führen, dass bestimmte | ||
| + | Solche Verzerrungen nennt man Bias und sie spiegeln gesellschaftliche Ungleichheiten wider. | ||
| + | |||
| + | |||
| + | ==== Missbrauch und Manipulation ==== | ||
| + | |||
| + | Neben Deepfakes gibt es weitere Risiken: | ||
| + | |||
| + | * Erstellung von Fake Bildern für Betrug | ||
| + | * Manipulation von Beweismaterial | ||
| + | * Automatisierte Propaganda | ||
| + | |||
| + | Dadurch entsteht ein neues Feld von digitalen Sicherheitsproblemen. | ||
| ==== Umwelt und Ressourcen ==== | ==== Umwelt und Ressourcen ==== | ||
| - | Das Training grosser | + | Das Training grosser Modelle |
| + | Das führt zu einem hohen Stromverbrauch | ||
| + | Neue Methoden versuchen, diese Kosten zu reduzieren, aber das Problem bleibt bestehen. | ||
| + | |||
| + | ===== 9. Spannende | ||
| + | <WRAP download> | ||
| + | "AI, Machine Learning, Deep Learning and Generative AI Explained" | ||
| + | |||
| + | " | ||
| + | |||
| + | " | ||
| + | |||
| + | </ | ||
| - | ===== 9. Zusammenfassung ===== | + | ===== 10. Zusammenfassung ===== |
| <WRAP round tip> | <WRAP round tip> | ||