Estúdio de Gravação Doméstico Pessoal: Review do ACE-Step UI
Você já pensou em quanto dinheiro vai para as assinaturas do Suno ou Udio? Esses serviços são legais, sem dúvida, mas pagar $10-20 por mês por geração de música, cujos direitos também podem ser limitados pelos termos de licença, é um prazer duvidoso. Sem mencionar que seus prompts e áudios estão armazenados em algum lugar nos servidores de outra pessoa.
Recentemente me deparei com o projeto ace-step-ui, que muda o jogo. É uma interface open-source para o modelo ACE-Step 1.5. Basicamente, você obtém uma alternativa completa ao Suno que roda localmente na sua GPU. Gratuito, ilimitado e completamente privado.
O que é isso afinal
O projeto é um shell moderno para uma rede neural que pode gerar músicas completas com vocais, instrumentais e faixas separadas. A stack consiste em React 18, TypeScript e TailwindCSS no frontend, enquanto o backend roda em Node.js com um banco de dados SQLite.
O principal recurso aqui é a acessibilidade. Geralmente, rodar redes neurais similares se transforma em uma jornada "instale 100500 dependências Python e não quebre seu sistema". O autor do ace-step-ui foi por outro caminho e ofereceu várias opções de instalação, incluindo uma instalação com um clique via Pinokio.
No que ele é bom na prática
Se você já usou interfaces web para geração de áudio dos anos 2010, o ACE-Step UI vai te surpreender agradavelmente. A interface é claramente inspirada no Spotify: tema escuro, player limpo na parte inferior da página e uma biblioteca de faixas conveniente.
Controle do processo
Ao contrário dos serviços em nuvem, onde você frequentemente aperta um botão e torce para um milagre, aqui você pode ajustar as configurações:
- Seleção de BPM e tonalidade.
- Configuração da estrutura da música via tags como
[Verse]ou[Chorus]. - "Thinking Mode" quando a rede neural primeiro planeja a estrutura e depois gera o código de áudio. É mais lento, mas o resultado é incomparavelmente melhor.
- Trabalho com referências. Você pode fazer upload do seu próprio arquivo de áudio e o modelo tentará copiar o estilo ou estrutura dele.
Ferramentas de processamento integradas
Isso não é apenas um gerador de "texto para música". A interface inclui vários utilitários úteis que você normalmente teria que encontrar separadamente:
- Editor de áudio AudioMass para corte rápido e efeitos.
- Separação de stems (Demucs). Se você gosta da batida mas não precisa dos vocais (ou vice-versa), a rede neural vai separar a faixa em componentes: bateria, baixo, vocais e todo o resto.
- Gerador de vídeo. Você pode anexar um plano de fundo do Pexels e obter um clipe pronto para redes sociais na hora.
Nuances técnicas e hardware
Vamos abordar a questão candente imediatamente: quanta VRAM você precisa? Para trabalho básico, uma placa com 4 GB de VRAM é suficiente (por exemplo, RTX 3050 ou até uma velha 1050 Ti com um pouco de paciência). Mas se você quiser habilitar o modo inteligente com LLM (Thinking Mode), os requisitos crescem. Os desenvolvedores recomendam 12 GB de VRAM para trabalho confortável com todos os recursos, mas o projeto pode rodar o modelo de linguagem na CPU, o que salva os donos de PCs médios.
Curiosamente, todo o seu banco de dados de gerações é armazenado localmente em SQLite. Sem nuvem, sem sincronização. Se o disco morrer — a música vai junto, então backups ainda são obrigatórios.
Como rodar
O caminho mais preguiçoso e confiável é o Pinokio. Se você prefere o terminal, o processo é mais ou menos assim:
- Você precisa clonar o motor ACE-Step 1.5 e instalar suas dependências. No Windows existe uma versão portátil que pesa cerca de 5 GB e já contém o Python configurado.
- Clone o ace-step-ui propriamente dito.
- Inicie dois servidores: um lida com a API da rede neural, o segundo lida com a interface e o backend.
Para usuários de Windows, existem arquivos .bat prontos no repositório que automatizam a inicialização.
cd ace-step-ui
start-all.bat
Depois disso, seu estúdio pessoal vai abrir em http://localhost:3000.
Vale a pena tentar
O projeto é definitivamente adequado para criadores de conteúdo: streamers, YouTubers ou desenvolvedores de jogos indie que precisam de uma trilha sonora única sem pagamentos de royalties.
Sim, a qualidade da geração às vezes pode ficar abaixo dos principais serviços pagos em termos de letras, mas a capacidade de gerar variações ilimitadas e imediatamente separá-las em stems supera essa desvantagem. Além disso, trabalhar localmente via LAN permite colocar o servidor em um PC potente em um cômodo e fazer brainstorms de um tablet ou laptop em outro.
Se você tem uma placa NVIDIA e algumas noites livres, o ACE-Step UI é uma ótima desculpa para experimentar produção moderna com IA sem gastar dinheiro.
Projetos relacionados