如何使用 AI Fusion Video 将文本转化为系列视频
我们都有过这样的经历:你有一个很棒的视频创意,甚至已经完成了剧本,但一切都在制作阶段停滞不前。你需要找素材、生成图片、想办法把它们拼接在一起,然后才意识到镜头的视觉风格正在向不同方向漂移。我最近发现了 Stonewuu/ai-fusion-video 项目,它试图将这种混乱转化为一个有结构的流程。
这不仅仅是 ChatGPT 的另一个"包装器"。开发者们着手创建一个基于 AI 智能体的全面视频制作管理平台。这个项目还很新,但你能感受到背后中国开源社区的驱动力。它已经知道如何完成过去需要十几个浏览器标签页才能做到的事情。

这个强大工具能做什么
该项目的主要亮点是基于智能体的工作流程。你不只是简单地要求"帮我美化一下"——你需要经历一系列阶段,系统会帮助你控制整个过程。
剧本管理
无需在 Google Docs 中存储文本,你可以直接在平台的界面中进行剧本创作。系统支持按剧集和场景进行结构化组织。如果你计划制作的不是单个视频,而是社交媒体的一系列短片,这会非常方便。
自动分镜
最繁琐的阶段——将文本转化为镜头描述。AI Fusion Video 会接收你的剧本,自动将其分解为视觉单元。它会写出图像描述,甚至建议"镜头语言"(角度、运动)。如果你不满意智能体对某个场景的理解,可以在生成开始前手动编辑描述。
一站式内容生成
系统内置支持多种模型。想用 OpenAI 或 Claude 处理文本?尽管用。想用 DeepSeek(目前风头正劲)?没问题。图像和视频方面,相应的引擎也已接入。最重要的是,所有源材料、提示词和结果都保存在一个项目中。你不需要从 Midjourney 下载图片后再上传到 Runway。
技术栈
对于喜欢探究技术细节的人来说,这是一个相当现代化的技术组合。后端使用 Java 21 和 Spring Boot 3.5 编写。在 AI 项目中选择 Java 可能看起来不太常见(大家都习惯了 Python),但使用 Spring AI 可以非常优雅地管理来自不同 LLM 的数据流。
前端使用 Next.js 16 和 React 19 构建。界面看起来很干净,没有多余的视觉干扰——这类工具中很少见。

如何运行
该项目支持 Docker,这大大简化了操作。如果你只是想体验一下功能,无需费心安装 JDK 或 Node.js。
只需运行标准序列:
git clone https://github.com/Stonewuu/ai-fusion-video.git
cd ai-fusion-video
cp .env.example .env
docker compose up -d
之后,平台将在 8080 端口可用。不过,如果你计划自己定制代码,则需要单独设置 MySQL 和 Redis(项目提供了现成的配置 docker-compose-middleware.yml),并通过 Maven 启动后端。
谁会从中受益
我看到了几个 AI Fusion Video 真正能节省时间的场景:
- TikTok/Reels 的内容创作者。当需要每天发布一个视频时,自动分镜简直是救星。
- 制作快速广告原型的营销人员。你可以在半小时内拼凑出一个草稿视频,向客户展示创意。
- 想学习如何使用 Spring AI 构建基于 AI 智能体的复杂系统的开发者。
该项目目前还缺少完善的团队协作功能和灵活的流程定制(两者都在路线图中),但现有的基础已经能让你"交钥匙"式地从文本生成视频。
Stonewuu/ai-fusion-video 是一个坚实的工具,适合任何想要整理神经网络工作流程的人。它不会取代创造力,但承担了所有在模型之间传递数据的日常繁琐工作。如果你厌倦了在各个窗口之间复制粘贴提示词,强烈建议你尝试自己部署这个项目。
顺便说一下,该项目更新很活跃,所以去 GitHub 上看看——他们经常推出修复补丁并支持新模型。
相关项目