Session 7: Rehearsal of theory topics¶
Date: 2025-11-13
Overview¶
Students present their current research findings on specific application areas of generative AI as a rehearsal for the final presentations in the upcoming sessions.
Plan¶
Rehearsal presentations of theory topics researched by students.
Topics¶
Students present on their chosen application areas:
- (Flavio) Image generation with Foundation Models (Diffusion, GAN or others) (focus on how the models generate individual images and graphics)
- (Leon) Video generation with Foundation Models (focus on short video clips)
- (Isabell) 3D model generation with Foundation Models (focus on generation of 3D objects and scenes)
- (Chantal) Audio generation with Foundation Models (focus on music, speech, sound effects)
-
(Ali) Code generation with LLMs (focus on program code, software development)
-
(Athanasios) and (Alyssa) will be absent this week.
Materials¶
Presentation materials prepared by students based on their research.
Results¶
Image generation with Foundation Models
- AARON als erstes Kunstprogramm
- GANs als erstes erfolgreiches Tool
- Dann Dall-E 1-3
- GANs --> schwer zu trainieren, warum?
- Diffusionsmodell
- Warum heißt es Diffusion?
- Warum schrittweise?
- Flow matching Modell
- keine Diffusionsschritte notwendig
- deterministisch statt stochastisch
- sensibler für Fehler?
- Beispiel mit welchem Modell?
Video generation with Foundation Models
- Text to video
- Beispiel Sora 1?
- Je detailierter der Prompt, desto detailierter das Video?
- "KI versteht was vorkommt", "Bedeutung davon" --> wirklich?
- "es wird ein Bild von einem Hund gesucht" ?
- was genau macht der VAE? Was für ein Decoder macht das Video daraus?
- DiT --> wer hat es erfunden?
- "ihr kennt doch bestimmt" --> einfach zeigen
- wie kommt physikalisches Verständnis rein?
- wie hoch ist der Rechenaufwand?
3D model generation with Foundation Models
- manuell erstellte 3D Modelle (CAD, Blender, Maya) --> Folie fehlt
- prozedurale Generierung, Perlin-Noise
- Kombination aus Diffusion und Gaussian Splatting, Quelle?
- Multi-view diffusion, Quelle?
- neuester Ansatz: VAT.IO, Quelle?
- Tools:
- StableFast 3D
- Luma AI Genie
Audio generation with Foundation Models
- Audio braucht mehr Daten als Bilder?
- Convolution ist ja aus CV/DL bekannt
- VQ-VAE und CLAP als Grundlagen
- WaveGAN 2018,
- OpenAI Jukebox, 2020
Feedback¶
- Technik (Bildschirm, Beamer, Ton, usw.) beherrschen, auch Folienablauf
- Motivation als Einstieg
- Gliederung nicht vorlesen
- klare Prozesse sind einfacher zu erklären --> Ablauf visualisieren
- Ablauf wovon, Training oder Inferenz?
- Tabellen nicht vorlesen, sondern vorstellen
- Im Fazit nichts Neues
- Tippfehler vermeiden
- Auf die Zeit achten --> üben, üben, üben!