Session 12: Final presentation of projects¶
Date: 2025-12-18
Overview¶
Continuation of final project presentations.
Plan¶
Remaining students present their completed practical projects:
- Selected tool and its capabilities
- Project implementation
- Results and findings
- Lessons learned
Looking Ahead¶
Reflection sessions scheduled for January 2026.
Notes from the presentations¶
-
(Athanasios) Eigener Chatbot mit RAG --> Ollama ChatBot mit Llama3 als Modell, private Nachrichten importiert um den Schreibstil zu kopieren, funktioniert einigermaßen, entweder Vergleich mit einem kleineren Modell oder ein Experiment, ob der ChatBot uns täuschen kann.
- Experiment zeigt, dass der ChatBot schnell erkannt wird.
- Je mehr Daten und je größer das Modell, desto besser die Ergebnisse.
- Herausforderung bei der Vorberarbeitung der Text-Daten.
-
(Alyssa) Grenzen des Image captioning? --> Montagsmaler fertiggestellt, Layout noch nicht optimal, Vergleich mit Open Vocabulary
- Erste Erfahrungen mit dem Arbeiten an den Hyperparametern gesammelt.
- Größte Herausforderung war es den Code zum Laufen zu bekommen und das Frontend mit dem Backend zu verbinden.
- Keine Open Vocabiulary Lösung sondern nur ein vergrößertes CLIP Datenset verwendet. Hier zeigt sich schon, dass es nicht gut funktioniert.
-
(Flavio) Warum können Modelle bestimmte Bilder nicht generieren? z.B. "Randvolles Weinglas" --> Verschiedene Modelle in ComfyUI ausprobiert, benötigt aber mindestens 15 Minuten pro Bild
- Vergleich der Text-to-Image Modelle: Z-Turbo, Flux-2, Gemini, GPT5.2
- Modelle generieren nur das Gelernte und da vermutlich keine Bilder mit randvollem Weinglas im Training waren, klappt es nicht.
- Je mehr Parameter, desto besser die Ergebnisse.
- Gelernt: Unterschiede in den Modellen bei der Anzahl der Parameter.
- Schwierigkeiten es mit der AMD Grafikkarte zum Laufen zu bringen.
-
(Leon) Video Generatoren vergleichen, lokales Modell (WAN-2) mit Cloud-Anbietern? --> nur 0,4 Sekunden Videos auf dem Mac möglich, auf dem Windows Rechner zu Hause läuft es besser, es gibt eine Reihe von Videos, ein Vergleich Sora und WAN ist möglich
- Verschiedene Tests mit Sora und WAN-2 gemacht.
- Modelle verhalten sich unterschiedlich.
- Es wurde klar, warum RAM so teuer geworden ist.
- Herausforderung: Videos lokal zu generieren, da die Modelle CUDA benötigen. Geht nicht auf dem Mac.
-
(Isabell) Freie, lokale Tools ausprobieren, --> 3D Modelle mit depthAnything 3 generiert, als PointCloud exportiert und in Blender weiterverarbeitet zu einem Mesh
- Objekte werden eher nur von einer Seite generiert.
- Rekonstruktion eines Berges aus mehreren Bildern klappte okay.
- Funktioniert erstaunlich gut, aber es entstehen keine brauchbaren 3D Modelle.
- Remeshing ist recht schwierig.
-
(Chantal) Voice cloning, elevenlabs ? --> Code umstrukturiert, Embeddings werden wiederverwendet, Vergleich mit einem Online Tool, Vergleiche verschiedener Samples und Embeddings
- Mehr Input ist hilfreich, Qualität der Samples ist wichtig.
- Online Tool liefert vor allem längere und überwiegend bessere Ergebnisse.
- Verzerrte Ergebnisse klingen zum Teil sehr verstörend.
- Es ist nicht so einfach die eigene Stimme zu klonen.
-
(Ali) Mittelgroßes SW Projekt generieren, Vibe coden ? --> nicht anwesend