3D Model Generierung mit KI¶

Der Unterschied zwischen 3D Modellen für die produzierende Industrie und Modellen für die Unterhaltungsindustrie liegen im Wesentlichen in der Datenstruktur und wie Präzision bzw. Performance gehandhabt werden. Dieses Handout bezieht sich auf 3D Modelle, die für die Unterhaltungsindustrie erstellt werden(Games, Filme, VFX).

Prozedurale Generierung¶

3D Modelle werden durch Algorythmen generiert
Es werden Regeln und Zufall vorgegeben, woraus ein Computer Modelle und Texturen generiert

Aus prozedural berechneten Punkten wird ein 3D-Mesh erstellt
Geometrischen Formen, die aus verkleinerten Kopien ihrer selbst zusammengesetz werden

(Fraktale) bilden die Grundlage solch einer Generierung
- Basierend auf Code. Algorithmik + Zufallsfunktionen + Wiederholungsmuster

Diffusionsmodelle und Gaussian-Splatting¶

Diffusionsmodelle erzeugen neue Inhalte durch schrittweises Ent-Rauschen (Erschaffen von 3D Daten). -> Erzeugen Punktwolken
Gaussian Splats(3D Daten anzeigen) sind 3D Punkte, die sich aus folgenden Parametern zusammensetzen: Position, Größe, Farbe, Ausrichtung und Dichte
Diese Splats überlappen sich um eine nahtlose Darstellung zu repräsentieren
Jeder einzelne Punkt, der aus der Diffusion entstanden ist wird durch ein Gaussian Splat ersetzt (Konvertiert)

Multi-View-Diffusion und Echtzeit-Modelle¶

Anstatt eines einzelnen Bildes (wie Diffusionsmodelle generieren), werden mit dieser Technik
mehrere Ansichten eines Bildes gleichzeitig erstellt

Es werden 4D Raster aus Bildern erzeugt. Somit werden mehrere Bilder gleichzeitig entrauscht, wobei die Konsistenz zwischen allen Ansichten beibehalten wird

Dadurch entstehen Bilderserien, aus denen dann 3D Daten wie Gaussian Splats rekonstruiert werden können

Transformer-& Feed-forward-3D-Generierung¶

3D Daten (Punktwolken, Gaussians und Multi-View-Bilder) werden nicht durch Diffusion, sondern durch direkte Vorwärtsberechnung (Feed-forward) bzw. durch Transformer entrauscht
Feed-forward Modelle gibt mit einem einzigen Vorwärtslauf (anstatt hunderter Diffusionsschritte) direkt eine 3D Struktur aus(Punktwolke oder Gaussian Splats)
Transformer bilden aus 3D Daten einzelne Tokens durch deren zusammenhang wird dann Token für Token zu einem 3D Model konstruiert

Kurzübersicht über Vor- und Nachteile aller genannten Modelle¶

Modelltyp	Vorteile	Nachteile
Diffusion	Detailqualität,gute Texturen,robust gegen Fehler	Langsam,hoher Rechenaufwand
Gaussians	Schnelles Rendering, fotorealistisch	schwer zu bearbeiten
Multi-View-Diffusion	Konsistennte 3D-Geometrie, realistische Ansichten, gute Texturqualität	Langsamer als einfache Diffusion, Fehler in 3D-Form möglich
Transformer	Gute Strukturqualität, kann komplexe Formen lernen	Hohe Speicherlast, langsamer als Feed-Forward,weniger Details als bei Diffusion
Feed-Forward	Extrem schnell(ms-s)	Wenige Details, wenig Texturqualität, inkonsistenz in komplexer Geometrie

Handoutquellen (Emfehlungen für tieferes, technisches Verständnis)¶

Handout zur Präsentation “Entwicklung der 3D Model Generierung mit KI“ von Isabell Grimm für den Kurs „KI in Medienanwendung“