3D Model Generierung mit KI¶
Der Unterschied zwischen 3D Modellen für die produzierende Industrie und Modellen für die Unterhaltungsindustrie liegen im Wesentlichen in der Datenstruktur und wie Präzision bzw. Performance gehandhabt werden. Dieses Handout bezieht sich auf 3D Modelle, die für die Unterhaltungsindustrie erstellt werden(Games, Filme, VFX).
Prozedurale Generierung¶
- 3D Modelle werden durch Algorythmen generiert
- Es werden Regeln und Zufall vorgegeben, woraus ein Computer Modelle und Texturen generiert
- Aus prozedural berechneten Punkten wird ein 3D-Mesh erstellt
- Geometrischen Formen, die aus verkleinerten Kopien ihrer selbst zusammengesetz werden
- (Fraktale) bilden die Grundlage solch einer Generierung
- Basierend auf Code. Algorithmik + Zufallsfunktionen + Wiederholungsmuster
Diffusionsmodelle und Gaussian-Splatting¶
- Diffusionsmodelle erzeugen neue Inhalte durch schrittweises Ent-Rauschen (Erschaffen von 3D Daten). -> Erzeugen Punktwolken
- Gaussian Splats(3D Daten anzeigen) sind 3D Punkte, die sich aus folgenden Parametern zusammensetzen: Position, Größe, Farbe, Ausrichtung und Dichte
- Diese Splats überlappen sich um eine nahtlose Darstellung zu repräsentieren
- Jeder einzelne Punkt, der aus der Diffusion entstanden ist wird durch ein Gaussian Splat ersetzt (Konvertiert)
Multi-View-Diffusion und Echtzeit-Modelle¶
- Anstatt eines einzelnen Bildes (wie Diffusionsmodelle generieren), werden mit dieser Technik
- mehrere Ansichten eines Bildes gleichzeitig erstellt
Es werden 4D Raster aus Bildern erzeugt. Somit werden mehrere Bilder gleichzeitig entrauscht, wobei die Konsistenz zwischen allen Ansichten beibehalten wird
- Dadurch entstehen Bilderserien, aus denen dann 3D Daten wie Gaussian Splats rekonstruiert werden können
Transformer-& Feed-forward-3D-Generierung¶
- 3D Daten (Punktwolken, Gaussians und Multi-View-Bilder) werden nicht durch Diffusion, sondern durch direkte Vorwärtsberechnung (Feed-forward) bzw. durch Transformer entrauscht
- Feed-forward Modelle gibt mit einem einzigen Vorwärtslauf (anstatt hunderter Diffusionsschritte) direkt eine 3D Struktur aus(Punktwolke oder Gaussian Splats)
- Transformer bilden aus 3D Daten einzelne Tokens durch deren zusammenhang wird dann Token für Token zu einem 3D Model konstruiert
Kurzübersicht über Vor- und Nachteile aller genannten Modelle¶
| Modelltyp | Vorteile | Nachteile |
|---|---|---|
| Diffusion | Detailqualität,gute Texturen,robust gegen Fehler | Langsam,hoher Rechenaufwand |
| Gaussians | Schnelles Rendering, fotorealistisch | schwer zu bearbeiten |
| Multi-View-Diffusion | Konsistennte 3D-Geometrie, realistische Ansichten, gute Texturqualität | Langsamer als einfache Diffusion, Fehler in 3D-Form möglich |
| Transformer | Gute Strukturqualität, kann komplexe Formen lernen | Hohe Speicherlast, langsamer als Feed-Forward,weniger Details als bei Diffusion |
| Feed-Forward | Extrem schnell(ms-s) | Wenige Details, wenig Texturqualität, inkonsistenz in komplexer Geometrie |
Handoutquellen (Emfehlungen für tieferes, technisches Verständnis)¶
- von Grae n, 26.10.2023, Dreamgaussian (3d gaussian splatting + dream fusion)
- von Bilawal Sidhu, 05.11.2023, 3D Gaussian Splatting
- von Deepia, 17.05.2025, Diffusion Models: DDPM
- von Paper With Video, 17.10.2024, CAT3D: Create Anything in 3D with Multi-View Diffusion Models
- von AllLinkDeep Tech, 08.01.2025, Transformer3D | Transformer3D Architecture | Transformer for 3D Models
Handout zur Präsentation “Entwicklung der 3D Model Generierung mit KI“ von Isabell Grimm für den Kurs „KI in Medienanwendung“