个人家庭录音棚:ACE-Step UI 评测
你有没有算过每月给 Suno 或 Udio 订阅花了多少钱?这些服务确实不错,但每月花 10-20 美元做音乐生成,而且版权还可能受许可条款限制,实在不是什么愉快的体验。更别提你的提示词和音频都存在别人家的服务器上了。
最近我发现了 ace-step-ui 项目,这改变了游戏规则。这是一个开源的 ACE-Step 1.5 模型界面。基本上,你得到的是一个可以在本地 GPU 上运行的完整 Suno 替代品。免费、无限、完全私密。
这玩意儿到底是什么
这个项目是一个现代的神经网络外壳,可以生成包含人声、器乐和独立音轨的完整歌曲。前端技术栈包括 React 18、TypeScript 和 TailwindCSS,后端运行在 Node.js 上,使用 SQLite 数据库。
这里的主要特点是易用性。通常运行类似的神经网络会变成一场「安装 100500 个 Python 依赖项且不要搞崩你的系统」的冒险。ace-step-ui 的作者走了另一条路,提供了多种安装选项,包括通过 Pinokio 的一键安装。
实际体验如何
如果你用过 2010 年代网络音频生成界面,ACE-Step UI 会让你惊喜。界面明显借鉴了 Spotify:深色主题、页面底部简洁的播放器,以及方便的音轨库。
过程控制
与云服务不同,你经常按一个按钮然后祈祷奇迹发生,在这里你可以调整设置:
- BPM 和调式选择。
- 通过
[Verse]或[Chorus]这样的标签配置歌曲结构。 - 「思考模式」——神经网络先规划结构再生成音频代码。更慢,但结果明显更好。
- 参考音轨工作流。你可以上传自己的音频文件,模型会尝试复制其风格或结构。
内置处理工具
这不仅仅是一个「文本转音乐」生成器。界面包含几个通常需要单独寻找的有用工具:
- AudioMass 音频编辑器,用于快速剪辑和效果处理。
- 音轨分离(Demucs)。如果你喜欢伴奏但不需要人声(或者反过来),神经网络会将音轨分解为鼓、贝斯、人声和其他部分。
- 视频生成器。你可以附加一个来自 Pexels 的背景,直接得到适合社交媒体的现成视频片段。
技术细节和硬件
让我们直接回答这个紧迫的问题:你需要多少显存?基本工作的话,4 GB 显存的显卡就足够了(例如 RTX 3050,甚至老旧的 1050 Ti 只要有点耐心)。但如果你想启用带 LLM 的智能模式(思考模式),要求会增加。开发者建议 12 GB 显存以舒适地使用所有功能,但项目可以在 CPU 上运行语言模型,这拯救了普通 PC 的用户。
有趣的是,你的整个生成数据库存储在本地 SQLite 中。没有云端,没有同步。如果磁盘坏了——音乐也跟着没了,所以备份仍然是必须的。
如何运行
最懒也是最可靠的方式是 Pinokio。如果你更喜欢终端,过程大致如下:
- 你需要克隆 ACE-Step 1.5 引擎并安装其依赖项。Windows 上有一个约 5 GB 的便携版本,已经包含了配置好的 Python。
- 克隆 ace-step-ui 本身。
- 启动两个服务器:一个处理神经网络 API,第二个处理界面和后端。
对于 Windows 用户,仓库中有现成的 .bat 文件可以自动化启动。
cd ace-step-ui
start-all.bat
之后,你的个人工作室将在 http://localhost:3000 打开。
值得一试吗
这个项目绝对适合内容创作者:主播、YouTuber 或需要免版税独特配乐的独立游戏开发者。
是的,在歌词方面,生成质量有时可能不如顶级付费服务,但能够生成无限变体并立即将它们分解成独立音轨的优点超过了这一缺点。此外,通过局域网本地工作,你可以把服务器放在一个房间的强大 PC 上,用平板电脑或笔记本电脑在另一个房间头脑风暴。
如果你有一张 NVIDIA 显卡和几个空闲的晚上,ACE-Step UI 是一个很好的理由来尝试现代 AI 制作,而不用花大钱。
相关项目