Wie man Text mit AI Fusion Video in eine Serie verwandelt

Wir kennen das alle: Man hat eine großartige Videoidee oder sogar ein fertiges Skript, aber alles stockt in der Produktionsphase. Man muss Footage finden, Bilder generieren, alles irgendwie zusammenfügen und dann feststellen, dass sich der visuelle Stil der Aufnahmen in verschiedene Richtungen entwickelt. kürzlich bin ich auf das Stonewuu/ai- fusion-video-Projekt gestoßen, das versucht, dieses Chaos in eine strukturierte Pipeline zu verwandeln.

Dies ist nicht nur ein weiterer „Wrapper" um ChatGPT. Die Entwickler haben sich zum Ziel gesetzt, eine vollwertige Plattform für die Verwaltung der Videoproduktion basierend auf KI-Agenten zu schaffen. Das Projekt ist frisch, und man spürt den Antrieb der chinesischen Open-Source-Gemeinschaft dahinter. Es kann bereits Dinge, die früher ein Dutzend verschiedener Browser-Tabs erforderten.

Logo

Was dieses Kraftpaket kann

Das Haupt-Highlight des Projekts ist der agentenbasierte Workflow. Man fragt nicht einfach „mach es hübsch für mich" — man durchläuft eine Kette von Phasen, die das System hilft zu kontrollieren.

Skriptverwaltung

Statt Text in Google Docs zu speichern, arbeitet man direkt in der Oberfläche der Plattform. Das System unterstützt die Strukturierung nach Episoden und Szenen. Das ist praktisch, wenn man nicht nur ein Video, sondern eine Reihe von kurzen Clips für Social Media plant.

Automatische Storyboard-Erstellung

Die mühsamste Phase — Text in Shot-Beschreibungen umwandeln. AI Fusion Video nimmt das Skript und zerlegt es eigenständig in visuelle Blöcke. Es schreibt Bildbeschreibungen und schlägt sogar „Kamerasprache" (Winkel, Bewegung) vor. Wenn einem die Interpretation einer Szene durch den Agenten nicht gefällt, kann man die Beschreibung vor der Generierung manuell bearbeiten.

Content-Generierung an einem Ort

Das System hat integrierte Unterstützung für eine Reihe von Modellen. OpenAI oder Claude für Text verwenden? Kein Problem. DeepSeek nutzen (das gerade die Charts dominiert)? Klar. Für Bilder und Video werden die entsprechenden Engines angebunden. Das Wichtigste ist, dass alle Ausgangsmaterialien, Prompts und Ergebnisse in einem Projekt leben. Man muss kein Bild von Midjourney herunterladen, nur um es danach zu Runway hochzuladen.

Tech-Stack

Für alle, die gerne unter die Haube schauen, ist es ein ziemlich moderner Satz. Das Backend ist in Java 21 mit Spring Boot 3.5 geschrieben. Die Wahl von Java für ein KI-Projekt mag ungewöhnlich erscheinen (alle sind Python gewohnt), aber mit Spring AI kann man Datenströme von verschiedenen LLMs ziemlich elegant verwalten.

Das Frontend ist mit Next.js 16 und React 19 gebaut. Die Oberfläche sieht sauber aus, ohne unnötiges visuelles Rauschen — eine Seltenheit für solche Tools.

Oberfläche

Wie man es zum Laufen bringt

Das Projekt unterstützt Docker, was das Leben viel einfacher macht. Keine Notwendigkeit, sich mit der Installation von JDK oder Node.js herumzuschlagen, wenn man nur die Funktionalität ausprobieren möchte.

Einfach die Standard-Sequenz ausführen:

git clone https://github.com/Stonewuu/ai-fusion-video.git
cd ai-fusion-video
cp .env.example .env
docker compose up -d

Danach ist die Plattform auf Port 80 verfügbar. Wenn man vorhat, den Code für sich selbst anzupassen, muss man jedoch MySQL und Redis separat einrichten (es gibt eine fertige Konfiguration docker-compose-middleware.yml) und das Backend über Maven starten.

Für wen ist das nützlich

Ich sehe mehrere Szenarien, in denen AI Fusion Video wirklich Zeit spart:

Content-Ersteller für TikTok/Reels. Wenn man ein Video pro Tag veröffentlichen muss, ist automatische Storyboard-Erstellung ein Segen.
Marketer, die schnelle Werb-Prototypen erstellen. Man kann ein Entwurfsvideo in einer halben Stunde zusammenstellen, um einem Kunden die Idee zu zeigen.
Entwickler, die lernen möchten, wie man komplexe Systeme basierend auf KI-Agenten mit Spring AI baut.

Dem Projekt fehlt noch eine ordentliche Team-Zusammenarbeit und flexible Pipeline-Anpassung (beides ist auf der Roadmap), aber die aktuelle Grundlage ermöglicht bereits, ein Video aus Text „schlüsselfertig" zu produzieren.

Stonewuu/ai- fusion-video ist ein solides Tool für alle, die ihren neuronalen Netzwerk-Workflow strukturieren möchten. Es ersetzt nicht die Kreativität, aber es übernimmt die gesamte Routinearbeit der Datenübergabe zwischen Modellen. Wenn man es leid ist, Prompts von einem Fenster zum anderen zu kopieren, lohnt es sich definitiv, dieses Projekt selbst zu deployen.

Übrigens, das Projekt wird aktiv weiterentwickelt, also schaut auf deren GitHub vorbei — sie veröffentlichen regelmäßig Fixes und Support für neue Modelle.