Was sind KI-generierte Bilder?

KI-generierte Bilder sind Bilder, die nicht von einem Menschen gemacht wurden also weder Gemälde noch Fotos, sondern durch Künstliche Intelligenz nach Vorgaben (siehe Prompt) erzeugt wurden. Es ergeben sich so neue Möglichkeiten Bilder nache dem eingenen Geschmack zu erstellen, oder viel eigene Leistung investieren zu müssen. Hört sich zwar an, als wäre man faul, aber das stimmt nicht, man kann einfach der KI schreiben an was man gerade denkt und die KI versucht diesen Text zu analysieren und so zu interpretieren, dass man ein Bild davon bekommt. Je genauer die Informationen sind, die man der KI gibt, desto besser und detailreicher ist auch das Bild das erzeugt wurde.

Wer sich mit KI-Bildern beschäftigt, stolpert unweigerlich über diese Begriffe, die ich hier versucht habe, einfach und verständlich zu erklären. Da es sich aber um Spezialbegriffe handelt, kommt man um bestimmt Ausdrucksweisen leider nicht drumherum.

Grundbegriffe:
Prompt / Model / LoRAs / Textual Inversion / Seed / Scheduler bzw. Sampler und Steps/Guidance Scale kurz erklärt:

Prompt – Ein Prompt ist der Befehl, die Information, die man dem Model gibt, um ein bestimmtes Ergebnis zu erzielen. z.B. “Wiese im Sonnenschein mit vielen farbigen Blumen”. Über das Prompt werden auch Anpassungen an das Model weitergegeben, wie das Bildformat, die Auflösung, bestimmte spezielle Parameter wie die Verwendung von bestimmten Renderer (UnrealEngine, CryEngine, …) oder in welchem Stil das Bild erstellt werden soll (Surrealismus, Expressionismus, Dali, Monet, etc.). Zu den Prompt gehören auch sogenannte “Negative Prompts”, das heißt Begriffe, die in dem zu erzeugenden Bild nicht sichtbar sein sollen. Bei der Generierung von Personen wären das z.B. Begriffe wie Brille, Schal, Mütze oder aber auch genauere Anweisungen “Schuhe, aber keine Stiefel”. Somit kommt das Wort “Schuhe in der Prompt, das Wort “Stiefel” in die Negative Prompts. Prompt und Negative Prompt können theoretisch unendlich lang sein, was aber die Berechnung extrem in die Länge ziehen kann.

Models sind die Algorithmen, die verwendet werden um die Bilder zu erzeugen. Je nachdem, wie die KI trainiert wurde, sprich aus welchen Daten Sie gelernt hat, erzeugt sie unterschiedliche Bilder, obwohl man der KI die gleiche Aufgabe stellt, jedoch einen anderen Algorithmus auswählt. So gibt es z.B. Algorithmen die “universell” einsetzbar sind, welche, die bessere Ergebnisse erziehen zum Thema Anime, oder fotorealistische Bilder, oder die für Kunst und 3D-Art trainiert wurden.

LoRA – LowRank Adaption: LoRAs dienen der Feinabstimmung des Models und sind spezialisiert auf bestimmte Dinge, das heißt sie werden trainiert um bestimmte Details, die das Model generieren soll, feiner abzustimmen, und somit die Daten, die verwendet werden müssen um ein Ergebnis zu erziehen, zu minimieren. Dies wird erreicht indem LoRA redundante oder unwichtige Daten entfernt und wird verwendet um Rauschen zu reduzieren, Daten zu komprimieren oder Muster in Daten zu finden. Ein LoRA kann das Endergebnis massiv beeinflussen.

Textual Inversion: Textual Inversion wird verwendet um das Prompt umzuformulieren und so zu optimieren. So kann beispielsweise “Das Wetter heute ist sonnig und schön” zu “Heute ist ein herrlicher sonniger Tag” geändert werden, ohne dass der Sinn oder die Aufgabe verändert wird. Die Textual Inversion kann hilfreich sein, um die Vielfalt von Textausgaben zu erhöhen, Stilvariationen zu erzielen oder spezifische Anforderungen an den Text oder das Bild zu erfüllen. Die Qualität der Textual Inversion ist abhängig davon, wie gut trainiert ein Model ist.

Seed – Der Seed ist eine Zufallszahl, die verwendet werden kann, um Bilder in gewisser Art zu reproduzieren. Seeds sind jedoch nur ein Anfangswert und nicht eine Zahl für ein fertiges Bild – sprich, trotz gleichem Seed wird sich das Bild, wenn es neu generiert wird, von dem ursprünglichen Bild unterscheiden. Dies gilt besonders in Bezug auf die Verwendung von unterschiedlichen Models bei gleichem Seed.

Scheduler: Scheduler sind Algorithmen, die werden verwendet um die Aufgabe zu timen um u.a. das Rauschen raus zurechnen, um ein besseren Bild zu erzeugen. Scheduler sind bei KI-generierten Bilder sind abhängig von der Anzahl der Schritte (Steps), die die KI machen soll um ein Bild zu erzeugen – je höher die Schritte, desto detailreicher ist das Bild am Ende.

Zu diesen Parametern gehört auch die Guidance Scale, die bestimmt, wie eng das eingegebene Prompt interpretiert werden soll und wie viel “Freiheit” der KI gelassen wird. So kann die Guidance Scale aus dem Prompt “rote Jacke” eine orangene oder grüne Jacke machen, wenn die Guidance Scale sehr niedrig gewählt wird. Eine höhere GS kann aber unter Umständen dazu führen, dass sich die KI nichts unter den Begriffen “vorstellen” kann und somit ein nicht passendes bzw. unerwartetes Bild erzeugt. Zu diesem Teil der KI gehören auch die “Sampler“, die Stichproben oder Beispiele aus einem Datensatz beziehen, die dann repräsentativ für den ganzen Datensatz stehen.

CLIP – Contrastive Language-Image Pre-Training ist ein Algorithmus, der dazu wendet wird, um möglichst alle Details eines Prompts zu berücksichtigen und so genauere der Vorstellung des Menschen entsprechende Resultate zu liefern. CLIP ist ein KI-Netzwerk, dass auf einer Vielzahl von Bild-/Test-Paaren trainiert wurde, um so in natürlicher Sprache angesprochen zu werden. Wird CLIP deaktiviert, bekommt die KI mehr Freiraum für Selbstinterpretationen, da gewisse Details im Prompt nicht beachtet werden. Die Beeinflusst natürlich das Aussehen des Bilder, aber nicht die Qualität.

ControlNet: Wird im Bereich Bild-zu-Bild (Image2Image) verwendet und kann auf verschiedene Weisen, ein neues Bild aus einem vorhandenen erzeugen. “Canny” beeinflusst das Aussehen des neuen Bildes (z.B. Rotes Haus wird grün), “Pose” kann z.B. aus einem hüpfenden Mann eine hüpfende Frau machen, ohne die eigentliche Pose zu verändern. “HED” (Holistically-Nested Edge Detection) kann verwendet werden um ein Bild einzufärben und zu verbessern, ohne dass dabei Details verloren gehen. “Depth” behält die Proportionen und die Tiefe eines Bildes bei um ein neues Bild zu erzeugen. “Normal” ist ähnlich dem Depth-ControlNet benutzt aber eine andere Map um das ursprüngliche Bild zu analysieren.


Schematische Darstellung, wie die KI ein Bild erstellt. Hier 6 Schritte. Je mehr Schritte, desto besser das Endergebnis.

Bilder: Photorealismus, Anime, Fantasy, Food, Art, Interior

Das Bild unten zeigt, wie sich LoRAs auf ein und das selbe Prompt auswirken – 1. Ohne LoRA / 2. LoRA zum Thema Landschaften / 3. LoRA zum Thema Anime-Landschaften. Bei 1 und 2 ist deutlich zu erkennen, das sich das Bild vom Prinzip her sehr ähnlich sieht, aber Details anders herausgearbeitet sind.

 Letztes Update: Mo, 31. Jul. 2023
Ursprünglich veröffentlicht:  Do, 06. Jul. 2023

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert