如何使用 AI Fusion Video 将文本转化为系列视频

我们都有过这样的经历：你有一个很棒的视频创意，甚至已经完成了剧本，但一切都在制作阶段停滞不前。你需要找素材、生成图片、想办法把它们拼接在一起，然后才意识到镜头的视觉风格正在向不同方向漂移。我最近发现了 Stonewuu/ai-fusion-video 项目，它试图将这种混乱转化为一个有结构的流程。

这不仅仅是 ChatGPT 的另一个"包装器"。开发者们着手创建一个基于 AI 智能体的全面视频制作管理平台。这个项目还很新，但你能感受到背后中国开源社区的驱动力。它已经知道如何完成过去需要十几个浏览器标签页才能做到的事情。

Logo

这个强大工具能做什么

该项目的主要亮点是基于智能体的工作流程。你不只是简单地要求"帮我美化一下"——你需要经历一系列阶段，系统会帮助你控制整个过程。

无需在 Google Docs 中存储文本，你可以直接在平台的界面中进行剧本创作。系统支持按剧集和场景进行结构化组织。如果你计划制作的不是单个视频，而是社交媒体的一系列短片，这会非常方便。

最繁琐的阶段——将文本转化为镜头描述。AI Fusion Video 会接收你的剧本，自动将其分解为视觉单元。它会写出图像描述，甚至建议"镜头语言"（角度、运动）。如果你不满意智能体对某个场景的理解，可以在生成开始前手动编辑描述。

系统内置支持多种模型。想用 OpenAI 或 Claude 处理文本？尽管用。想用 DeepSeek（目前风头正劲）？没问题。图像和视频方面，相应的引擎也已接入。最重要的是，所有源材料、提示词和结果都保存在一个项目中。你不需要从 Midjourney 下载图片后再上传到 Runway。

对于喜欢探究技术细节的人来说，这是一个相当现代化的技术组合。后端使用 Java 21 和 Spring Boot 3.5 编写。在 AI 项目中选择 Java 可能看起来不太常见（大家都习惯了 Python），但使用 Spring AI 可以非常优雅地管理来自不同 LLM 的数据流。

前端使用 Next.js 16 和 React 19 构建。界面看起来很干净，没有多余的视觉干扰——这类工具中很少见。

Interface

该项目支持 Docker，这大大简化了操作。如果你只是想体验一下功能，无需费心安装 JDK 或 Node.js。

只需运行标准序列：

git clone https://github.com/Stonewuu/ai-fusion-video.git
cd ai-fusion-video
cp .env.example .env
docker compose up -d

之后，平台将在 8080 端口可用。不过，如果你计划自己定制代码，则需要单独设置 MySQL 和 Redis（项目提供了现成的配置 docker-compose-middleware.yml），并通过 Maven 启动后端。

我看到了几个 AI Fusion Video 真正能节省时间的场景：

该项目目前还缺少完善的团队协作功能和灵活的流程定制（两者都在路线图中），但现有的基础已经能让你"交钥匙"式地从文本生成视频。

Stonewuu/ai-fusion-video 是一个坚实的工具，适合任何想要整理神经网络工作流程的人。它不会取代创造力，但承担了所有在模型之间传递数据的日常繁琐工作。如果你厌倦了在各个窗口之间复制粘贴提示词，强烈建议你尝试自己部署这个项目。

顺便说一下，该项目更新很活跃，所以去 GitHub 上看看——他们经常推出修复补丁并支持新模型。