Seu GPU trabalha enquanto você dorme
Saudações!
E se você pudesse contratar um pesquisador de ML que nunca precisa de café, nunca quer férias e não cobra por hora extra à meia-noite? Andrej Karpathy acabou de colocar exatamente isso no GitHub de graça.
O que é o AutoResearch
O AutoResearch é um framework open source, minimalista ao extremo: cerca de 600–700 linhas de Python, uma única GPU e um arquivo Markdown. A ideia é simples e brutal ao mesmo tempo: um agente de IA (Claude, GPT-4 ou equivalente) lê o repositório, propõe uma modificação de arquitetura ou hiperparâmetro, treina um mini-modelo por exatamente 5 minutos, avalia a métrica e decide: mantém ou descarta. Depois repete. A noite toda. Sem parar.
Em uma única GPU, em uma única noite de 8 horas, o sistema consegue rodar até 100 experimentos, algo que levaria semanas no ciclo clássico de iteração manual.
O loop que não dorme
O coração do projeto é um mecanismo chamado ratchet (catraca): só comita alterações que batem o melhor resultado até o momento na métrica de validação (val_bpb — bits por byte, para quem quiser pesquisar). Se piorou, git reset. Se melhorou, commit e próxima rodada.
O design gira em torno de três arquivos:
- prepare.py — dados, tokenizer BPE, utilitários. Intocável pelo agente.
- train.py — o modelo GPT completo, otimizador, laço de treino. Terreno livre para o agente experimentar.
- program.md — o Markdown que o humano escreve, definindo objetivos, restrições e heurísticas de exploração. O “código organizacional” do laboratório.
Essa separação é elegante: você escreve a estratégia em linguagem natural; o agente escreve o Python.
Resultados reais, não keynote
Karpathy publicou números de rodadas concretas. Em dois dias de execução autônoma, o sistema realizou cerca de 700 mudanças, das quais aproximadamente 20 foram melhorias aditivas — transferíveis para modelos maiores. O resultado? O tempo para atingir qualidade equivalente ao GPT-2 em um benchmark específico caiu de 2,02 horas para 1,80 hora: 11% de ganho em um código que especialistas já haviam otimizado manualmente por anos.
E o agente encontrou correções que o próprio Karpathy havia ignorado ao longo de duas décadas trabalhando com redes neurais.
O custo de API para rodar uma noite dessas? Entre U$ 50 e U$ 200, dependendo do modelo e da verbosidade do agente — uma fração do custo-hora de um engenheiro sênior de ML.
O que muda para você
Esse projeto não é só uma curiosidade técnica. Ele antecipa um shift de habilidades que vai bater na porta dos times de TI e MLOps mais cedo do que parece:
- Design de métricas vira competência central — escolher errado o que otimizar é mais perigoso do que o agente errar o código.
- Escrever program.md eficazes é a nova programação: você define o espaço de busca; o agente executa.
- Auditoria de experimentos automáticos exige disciplina de versionamento, logging e visualização — DVC, Streamlit, dashboards simples.
Pequenas equipes de TI com uma RTX 4090 (ou acesso a GPU em nuvem) podem usar o mesmo padrão do AutoResearch para otimizar pipelines de recomendação, ajuste de prompts, featurização de dados — qualquer problema onde exista um código modificável e uma métrica mensurável.
O laboratório que nunca dorme deixou de ser exclusividade de big labs com clusters de data center.
Limites que você precisa conhecer
Antes de largar um agente livre no seu ambiente de produção às 23h, atenção:
O AutoResearch de referência opera em modelos pequenos, treináveis em 5 minutos. Transferir descobertas para modelos de bilhões de parâmetros não é automático. Otimizar uma única métrica escalar cria risco de meta-overfitting: o agente “joga o jogo” da métrica, não necessariamente resolve o problema real.
E — ponto crítico — agentes autônomos que editam arquivos e executam scripts precisam de sandboxing rigoroso: containers isolados, permissões restritas, sem acesso irrestrito à rede. Ignorar isso é convidar problemas que nenhum git reset vai resolver.
Vale explorar
O repositório está disponível em github.com/karpathy/autoresearch, licença MIT. Forks já existem para MacOS com Metal/MPS, Windows com GPUs RTX e placas AMD.
Experimente montar um mini-lab com um dataset focado, um program.md bem escrito e um objetivo claro. Deixe rodar. Revise o que o agente encontrou pela manhã — e pergunte a si mesmo se você teria chegado lá sozinho.
Por Samuel Gonçalves – Gerente de TI na 4Linux
Fontes
- AutoResearch no GitHub (karpathy/autoresearch) — MIT License
- VentureBeat: Karpathy’s AutoResearch lets you run hundreds of AI experiments a night
- Data Science Dojo: Karpathy AutoResearch Explained
- DataCamp: A Guide to Andrej Karpathy’s AutoResearch
- OfficeChai: Agents Run 100 AI Research Experiments While You Sleep
- ByteIota: AutoResearch – AI Agents Run 100 ML Experiments Overnight
- AIKI: Autoresearch – 100+ AI Experiments While You Sleep
- Substack (adlrocha): Auto-research: The Lab that runs while you sleep
- Substack (sidsaladi): Autoresearch 101 Builder’s Playbook
- YouTube – Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era
- YouTube – Autoresearch, Agent Loops and the Future of Work
- Reddit r/AgentsOfAI: Karpathy just open-sourced autoresearch
- Reddit r/LocalLLaMA: karpathy/autoresearch
About author
Você pode gostar também
4Linux inova com espaço para atualização de práticas pedagógicas
Começando o ano a todo vapor, a 4Linux está cheia de novidades! No mês de Março, os construtores (nome que recebem os consultores que também são instrutores de treinamento) da
Como automatizar seu ambiente de desenvolvimento com VSCode Remote Container
Você já considerou utilizar a extensão VSCode Remote Container para automatizar a criação do ambiente de desenvolvimento da sua equipe? Neste artigo quero falar brevemente sobre esta extensão, os pré-requisitos
Torne-se um especialista em PBX-IP com o curso prático da 4Linux
4Linux relança seu curso sobre “Como construir um PBX-IP na prática com Asterisk e FreePBX”. O Asterisk é um software livre e de código aberto, que implementa em software, todos







