Skip to content

3D Model Generierung mit KI

Der Unterschied zwischen 3D Modellen für die produzierende Industrie und Modellen für die Unterhaltungsindustrie liegen im Wesentlichen in der Datenstruktur und wie Präzision bzw. Performance gehandhabt werden. Dieses Handout bezieht sich auf 3D Modelle, die für die Unterhaltungsindustrie erstellt werden(Games, Filme, VFX).

Prozedurale Generierung

  • 3D Modelle werden durch Algorythmen generiert
  • Es werden Regeln und Zufall vorgegeben, woraus ein Computer Modelle und Texturen generiert

  • Aus prozedural berechneten Punkten wird ein 3D-Mesh erstellt
  • Geometrischen Formen, die aus verkleinerten Kopien ihrer selbst zusammengesetz werden

  • (Fraktale) bilden die Grundlage solch einer Generierung
    • Basierend auf Code. Algorithmik + Zufallsfunktionen + Wiederholungsmuster

Diffusionsmodelle und Gaussian-Splatting

  • Diffusionsmodelle erzeugen neue Inhalte durch schrittweises Ent-Rauschen (Erschaffen von 3D Daten). -> Erzeugen Punktwolken
  • Gaussian Splats(3D Daten anzeigen) sind 3D Punkte, die sich aus folgenden Parametern zusammensetzen: Position, Größe, Farbe, Ausrichtung und Dichte
  • Diese Splats überlappen sich um eine nahtlose Darstellung zu repräsentieren
  • Jeder einzelne Punkt, der aus der Diffusion entstanden ist wird durch ein Gaussian Splat ersetzt (Konvertiert)

Multi-View-Diffusion und Echtzeit-Modelle

  • Anstatt eines einzelnen Bildes (wie Diffusionsmodelle generieren), werden mit dieser Technik
  • mehrere Ansichten eines Bildes gleichzeitig erstellt

Es werden 4D Raster aus Bildern erzeugt. Somit werden mehrere Bilder gleichzeitig entrauscht, wobei die Konsistenz zwischen allen Ansichten beibehalten wird

  • Dadurch entstehen Bilderserien, aus denen dann 3D Daten wie Gaussian Splats rekonstruiert werden können

Transformer-& Feed-forward-3D-Generierung

  • 3D Daten (Punktwolken, Gaussians und Multi-View-Bilder) werden nicht durch Diffusion, sondern durch direkte Vorwärtsberechnung (Feed-forward) bzw. durch Transformer entrauscht
  • Feed-forward Modelle gibt mit einem einzigen Vorwärtslauf (anstatt hunderter Diffusionsschritte) direkt eine 3D Struktur aus(Punktwolke oder Gaussian Splats)
  • Transformer bilden aus 3D Daten einzelne Tokens durch deren zusammenhang wird dann Token für Token zu einem 3D Model konstruiert

Kurzübersicht über Vor- und Nachteile aller genannten Modelle

Modelltyp Vorteile Nachteile
Diffusion Detailqualität,gute Texturen,robust gegen Fehler Langsam,hoher Rechenaufwand
Gaussians Schnelles Rendering, fotorealistisch schwer zu bearbeiten
Multi-View-Diffusion Konsistennte 3D-Geometrie, realistische Ansichten, gute Texturqualität Langsamer als einfache Diffusion, Fehler in 3D-Form möglich
Transformer Gute Strukturqualität, kann komplexe Formen lernen Hohe Speicherlast, langsamer als Feed-Forward,weniger Details als bei Diffusion
Feed-Forward Extrem schnell(ms-s) Wenige Details, wenig Texturqualität, inkonsistenz in komplexer Geometrie

Handoutquellen (Emfehlungen für tieferes, technisches Verständnis)


Handout zur Präsentation “Entwicklung der 3D Model Generierung mit KI“ von Isabell Grimm für den Kurs „KI in Medienanwendung“