Comment transformer du texte en série avec AI Fusion Video

Nous avons tous été là : vous avez une excellente idée de vidéo ou même un script terminé, mais tout s'arrête au stade de la production. Vous devez trouver des images, générer des visuels, assembler le tout d'une manière ou d'une autre, puis vous rendez compte que le style visuel des plans diverge dans différentes directions. Je suis récemment tombé sur le projet Stonewuu/ai-fusion-video, qui tente de transformer ce chaos en pipeline structuré.

Ce n'est pas juste un autre "wrapper" autour de ChatGPT. Les développeurs ont voulu créer une plateforme complète pour gérer la production vidéo basée sur des agents IA. Le projet est récent, et l'on ressent la dynamique de la communauté open-source chinoise derrière lui. Il sait déjà faire des choses qui nécessitaient auparavant une bonne douzaine d'onglets de navigateur.

Logo

Ce que cette powerhouse peut faire

Le point fort principal du projet est le workflow basé sur les agents. Vous ne vous contentez pas de demander "rends-moi ça beau" — vous traversez une chaîne d'étapes que le système vous aide à contrôler.

Gestion des scripts

Au lieu de stocker du texte dans Google Docs, vous travaillez directement dans l'interface de la plateforme. Le système prend en charge la structuration par épisodes et scènes. C'est pratique si vous envisagez de réaliser non pas une seule vidéo, mais une série de courts extraits pour les réseaux sociaux.

Storyboarding automatique

L'étape la plus fastidieuse — transformer du texte en descriptions de plans. AI Fusion Video prend votre script et le décompose en blocs visuels de lui-même. Il rédige des descriptions d'images et suggère même du "langage cinématographique" (angles, mouvements). Si vous n'aimez pas comment l'agent a interprété une scène, vous pouvez modifier manuellement la description avant que la génération ne commence.

Génération de contenu à un seul endroit

Le système dispose d'un support intégré pour toute une série de modèles. Vous voulez utiliser OpenAI ou Claude pour le texte ? Pas de problème. Vous préférez DeepSeek (qui cartonne actuellement) ? Bien sûr. Pour les images et la vidéo, les moteurs correspondants sont branchés. L'essentiel est que tous les matériaux sources, prompts et résultats vivent dans un seul projet. Vous n'avez pas besoin de télécharger une image de Midjourney juste pour la charger ensuite dans Runway.

Stack technique

Pour ceux qui aiment regarder sous le capot, c'est un ensemble assez moderne. Le backend est écrit en Java 21 avec Spring Boot 3.5. Le choix de Java pour un projet IA peut sembler inhabituel (tout le monde a l'habitude de Python), mais utiliser Spring AI permet de gérer les flux de données provenant de différents LLM avec pas mal d'élégance.

Le frontend est construit avec Next.js 16 et React 19. L'interface est épurée, sans bruit visuel superflu — une rareté pour des outils comme celui-ci.

Interface

Comment le faire tourner

Le projet supporte Docker, ce qui facilite considérablement la vie. Pas besoin de s'embêter avec l'installation de JDK ou Node.js si vous voulez simplement explorer les fonctionnalités.

Il suffit d'exécuter la séquence standard :

git clone https://github.com/Stonewuu/ai-fusion-video.git
cd ai-fusion-video
cp .env.example .env
docker compose up -d

Après cela, la plateforme sera disponible sur le port 80. Si vous envisagez de personnaliser le code pour vous-même, toutefois, vous devrez configurer MySQL et Redis séparément (il y a une config toute faite docker-compose-middleware.yml) et lancer le backend via Maven.

À qui cela sera utile

Je vois plusieurs scénarios où AI Fusion Video fait vraiment gagner du temps :

Créateurs de contenu pour TikTok/Reels. Quand vous devez publier une vidéo par jour, le storyboarding automatisé est une aubaine.
Marketeurs créant des prototypes publicitaires rapides. Vous pouvez assembler une vidéo de démonstration en une demi-heure pour montrer l'idée à un client.
Développeurs qui veulent apprendre à construire des systèmes complexes basés sur des agents IA avec Spring AI.

Le projet manque encore de véritable collaboration d'équipe et de personnalisation flexible du pipeline (les deux sont sur la feuille de route), mais la base actuelle vous permet déjà de produire une vidéo à partir de texte "clé en main".

Stonewuu/ai-fusion-video est un outil solide pour quiconque veut structurer son workflow de réseau neuronal. Cela ne remplace pas la créativité, mais cela prend en charge tout le travail routinier de passage des données entre modèles. Si vous êtes fatigué de copier-coller des prompts d'une fenêtre à l'autre, ça vaut definitely le coup d'essayer de déployer ce projet vous-même.

Au fait, le projet est activement mis à jour, alors consultez leur GitHub — ils publient fréquemment des correctifs et le support de nouveaux modèles.