Skip to content

Session 7: Rehearsal of theory topics

Date: 2025-11-13

Overview

Students present their current research findings on specific application areas of generative AI as a rehearsal for the final presentations in the upcoming sessions.

Plan

Rehearsal presentations of theory topics researched by students.

Topics

Students present on their chosen application areas:

  • (Flavio) Image generation with Foundation Models (Diffusion, GAN or others) (focus on how the models generate individual images and graphics)
  • (Leon) Video generation with Foundation Models (focus on short video clips)
  • (Isabell) 3D model generation with Foundation Models (focus on generation of 3D objects and scenes)
  • (Chantal) Audio generation with Foundation Models (focus on music, speech, sound effects)
  • (Ali) Code generation with LLMs (focus on program code, software development)

  • (Athanasios) and (Alyssa) will be absent this week.

Materials

Presentation materials prepared by students based on their research.

Results

Image generation with Foundation Models

  • AARON als erstes Kunstprogramm
  • GANs als erstes erfolgreiches Tool
  • Dann Dall-E 1-3
  • GANs --> schwer zu trainieren, warum?
  • Diffusionsmodell
  • Warum heißt es Diffusion?
  • Warum schrittweise?
  • Flow matching Modell
  • keine Diffusionsschritte notwendig
  • deterministisch statt stochastisch
  • sensibler für Fehler?
  • Beispiel mit welchem Modell?

Video generation with Foundation Models

  • Text to video
  • Beispiel Sora 1?
  • Je detailierter der Prompt, desto detailierter das Video?
  • "KI versteht was vorkommt", "Bedeutung davon" --> wirklich?
  • "es wird ein Bild von einem Hund gesucht" ?
  • was genau macht der VAE? Was für ein Decoder macht das Video daraus?
  • DiT --> wer hat es erfunden?
  • "ihr kennt doch bestimmt" --> einfach zeigen
  • wie kommt physikalisches Verständnis rein?
  • wie hoch ist der Rechenaufwand?

3D model generation with Foundation Models

  • manuell erstellte 3D Modelle (CAD, Blender, Maya) --> Folie fehlt
  • prozedurale Generierung, Perlin-Noise
  • Kombination aus Diffusion und Gaussian Splatting, Quelle?
  • Multi-view diffusion, Quelle?
  • neuester Ansatz: VAT.IO, Quelle?
  • Tools:
  • StableFast 3D
  • Luma AI Genie

Audio generation with Foundation Models

  • Audio braucht mehr Daten als Bilder?
  • Convolution ist ja aus CV/DL bekannt
  • VQ-VAE und CLAP als Grundlagen
  • WaveGAN 2018,
  • OpenAI Jukebox, 2020

Feedback

  • Technik (Bildschirm, Beamer, Ton, usw.) beherrschen, auch Folienablauf
  • Motivation als Einstieg
  • Gliederung nicht vorlesen
  • klare Prozesse sind einfacher zu erklären --> Ablauf visualisieren
  • Ablauf wovon, Training oder Inferenz?
  • Tabellen nicht vorlesen, sondern vorstellen
  • Im Fazit nichts Neues
  • Tippfehler vermeiden
  • Auf die Zeit achten --> üben, üben, üben!