Domine os custos da API do Claude Code: 5 técnicas para cair de $450 para $45/mês
Os números reais por trás dos preços da API do Claude Code. Veja como o prompt caching, a otimização de modelos e o processamento em lotes alcançaram 90% de redução—de $450 para $45 por mês.
“Usei o Claude Code todos os dias e recebi uma fatura de API de $450 no mês passado”—cada vez mais desenvolvedores vivem essa situação. O Claude Code é poderoso, mas os custos podem variar 10 vezes ou mais dependendo de como você o usa.
Neste site (claudecode-lab.com) geramos automaticamente três artigos multilíngues por dia com o Claude Code. Na primeira semana gastamos $380, mas após a otimização fazemos o mesmo trabalho por menos de $40 por mês. Aqui estão todos os passos que resultaram em 90% de redução.
Primeiro: Entenda onde você está sendo cobrado
Para reduzir custos você precisa saber exatamente pelo que está pagando.
Custo API Claude = Tokens de entrada × Preço de entrada + Tokens de saída × Preço de saída
Preços por modelo (abril de 2026)
| Modelo | Entrada (padrão) | Entrada (leitura de cache) | Saída |
|---|---|---|---|
| claude-opus-4-6 | $15/1M | $1.50/1M | $75/1M |
| claude-sonnet-4-6 | $3/1M | $0.30/1M | $15/1M |
| claude-haiku-4-5 | $0.80/1M | $0.08/1M | $4/1M |
Dois aprendizados fundamentais:
- A saída custa 5× mais do que a entrada → só reduzir a saída já gera grande economia
- Leituras de cache custam 1/10 do preço de entrada padrão → o cache é sua maior alavanca
Verifique o detalhamento de custos no Console da Anthropic
# Também é possível verificar via API
curl https://api.anthropic.com/v1/usage \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01"
O primeiro passo é saber qual modelo você está usando e quantos tokens está consumindo.
Técnica 1: Reduza os custos de entrada em 10× com o prompt caching
A otimização de maior impacto disponível. Adicione uma única linha ao system prompt e os custos de entrada caem para 1/10.
Como funciona
O cache de prompts da Anthropic cobra $1.50/1M quando o mesmo conteúdo é reenviado em menos de 5 minutos. Com um TTL de 5 minutos, cada chamada dentro dessa janela custa quase nada.
Implementação
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
// ❌ Sem cache: cobrado $15/1M em cada chamada
const res = await client.messages.create({
model: "claude-opus-4-6",
max_tokens: 1024,
system: "Você é especialista no projeto XXX.\n" + longProjectContext,
messages: [{ role: "user", content: prompt }],
});
// ✅ Com cache: a partir da 2ª chamada, apenas $1.50/1M (90% de desconto)
const res = await client.messages.create({
model: "claude-opus-4-6",
max_tokens: 1024,
system: [
{
type: "text",
text: "Você é especialista no projeto XXX.\n" + longProjectContext,
cache_control: { type: "ephemeral" }, // ← adicione apenas isso
},
],
messages: [{ role: "user", content: prompt }],
});
Economia real (este site)
3 artigos/dia × 8.000 tokens de system prompt × Opus $15/1M
Antes da otimização:
3 artigos × 10 chamadas × 8.000 tokens × $15/1M = $3,60/dia → $108/mês
Após a otimização (com cache):
Primeira escrita: 3 chamadas × 8.000 tokens × $18,75/1M = $0,45/dia
27 leituras de cache: 27 × 8.000 tokens × $1,50/1M = $0,32/dia
Total: $0,77/dia → $23/mês
Economia: $85/mês (redução de 79%)
Fique atento a cache misses: o cache expira em 5 minutos. Para processamento em lotes, agrupe várias chamadas com o mesmo system prompt dentro de uma janela de 5 minutos para maximizar o efeito.
Técnica 2: Escolha o modelo certo para cada tarefa
Usar o Opus para tudo é como entregar pizza em um Porsche.
Critérios de decisão
type TaskComplexity = "complex" | "standard" | "simple";
function getModel(task: TaskComplexity): string {
return {
complex: "claude-opus-4-6", // Arquitetura, debugging difícil, revisão de código
standard: "claude-sonnet-4-6", // Implementação geral, refatoração
simple: "claude-haiku-4-5-20251001", // Tradução, formatação, classificação, resumos
}[task];
}
Exemplo de tradução (pipeline multilíngue deste site)
// Traduzindo um artigo para 9 idiomas
// ❌ Traduzir com Opus: $75/1M × 2.000 tokens de saída × 9 idiomas = $1,35/artigo
const translations = await translateWithModel("claude-opus-4-6", article);
// ✅ Traduzir com Haiku: $4/1M × 2.000 tokens de saída × 9 idiomas = $0,072/artigo
const translations = await translateWithModel("claude-haiku-4-5-20251001", article);
// Economia: $1,35 → $0,072 (redução de 94,7%; qualidade de tradução praticamente equivalente)
Mudar 3 artigos/dia × 9 idiomas para o Haiku: $121/mês → $6,50/mês (redução de 94%)
Técnica 3: Limite intencionalmente os tokens de saída
A saída custa 5× mais do que a entrada, mas muitos pipelines aceitam respostas desnecessariamente longas.
Técnicas de prompt para limitar a saída
❌ "Me diga o que está errado neste código"
→ Explicação extensa retornada (1.000 tokens)
✅ "Liste os problemas deste código em tópicos, máximo 3 itens, máximo 2 linhas cada"
→ Resposta concisa (200 tokens)
Efeito: 80% menos tokens de saída = custo $0,075 → $0,015 por chamada
Configure max_tokens adequadamente
// ❌ O padrão de 4096 é excessivo para a maioria das tarefas
const res = await client.messages.create({
model: "claude-opus-4-6",
max_tokens: 4096, // potencialmente cobrado até 4.096 tokens
messages: [...]
});
// ✅ Ajuste por caso de uso
const configs = {
codeReview: { max_tokens: 512 }, // apenas observações
bugAnalysis: { max_tokens: 1024 }, // causa + correção
implementFeature:{ max_tokens: 4096 }, // implementação completa
summarize: { max_tokens: 256 }, // apenas resumo
};
Técnica 4: Isole o contexto com sub-agentes
Em sessões de conversa longas, o histórico crescente é reenviado como entrada a cada turno, inflando os custos. Delegar a um sub-agente reinicia o contexto.
// Quando a conversa principal fica longa, delegue trabalho pesado a um sub-agente
// ❌ Traduzir no contexto principal: todo o histórico é enviado a cada vez
const translation = await translateInCurrentContext(article);
// ✅ Delegar a um sub-agente: executado com contexto fresco
const translation = await Agent({
subagent_type: "general-purpose",
prompt: `Traduza o artigo a seguir para o inglês:\n\n${article}`,
// ← sem histórico anterior, apenas o artigo como entrada
});
A ferramenta Agent do Claude Code funciona exatamente assim. Para tarefas “pontuais”—tradução, pesquisa, operações de arquivo—a delegação a sub-agentes é a regra de ouro.
Técnica 5: Monitore custos e configure alertas de orçamento
Por fim: conheça seus custos e coloque um teto neles. Essa é sua rede de segurança contra faturas descontroladas.
Configuração no Console da Anthropic
- Acesse Anthropic Console → Usage Limits
- Defina um Monthly budget (ex.: $50/mês)
- Defina um Alert threshold (ex.: notificação ao atingir $40)
Rastreamento de custos no código
// Registre o objeto usage de cada resposta para rastrear gastos
interface CostTracker {
inputTokens: number;
outputTokens: number;
cacheReadTokens: number;
cacheWriteTokens: number;
}
function calculateCost(usage: CostTracker, model: string): number {
const rates = {
"claude-opus-4-6": {
input: 15, cacheRead: 1.5, cacheWrite: 18.75, output: 75
},
};
const rate = rates[model];
return (
(usage.inputTokens * rate.input +
usage.cacheReadTokens * rate.cacheRead +
usage.cacheWriteTokens * rate.cacheWrite +
usage.outputTokens * rate.output) / 1_000_000
);
}
const res = await client.messages.create({ ... });
const cost = calculateCost(res.usage, "claude-opus-4-6");
console.log(`Esta chamada custou: $${cost.toFixed(4)}`);
Resumo: Acumule suas economias
| Técnica | Redução | Dificuldade |
|---|---|---|
| Prompt caching | até 90% | Baixa (adicionar 1 linha) |
| Seleção de modelo | até 95% | Baixa–Média |
| Limite de tokens de saída | 30–80% | Baixa (ajuste de prompt) |
| Delegação a sub-agentes | 20–50% | Média |
| Alertas de orçamento | Previne explosões | Baixa |
Nossos resultados neste site:
Antes da otimização: $450/mês (todas as tarefas no Opus, sem cache)
Após a otimização: $45/mês (Haiku para tradução, Opus com cache, limite de saída)
Economia: $405/mês (redução de 90%)
O melhor primeiro passo que você pode dar hoje: adicione cache_control: { type: "ephemeral" } ao seu system prompt. Só isso reduz os custos de entrada para 1/10. Depois, introduza as demais técnicas uma a uma.
Artigos relacionados
- 7 Técnicas Práticas para Otimizar o Uso de Tokens do Claude Code
- 10 Padrões de Prompt Perigosos no Claude Code
- Guia Completo de Harness Engineering
Referências
Leve seu fluxo no Claude Code a outro nível
50 modelos de prompt testados em campo, prontos para colar direto no Claude Code.
PDF gratuito: Cheatsheet do Claude Code em 5 minutos
Basta informar seu e-mail e enviamos na hora o cheatsheet em uma página A4.
Cuidamos dos seus dados pessoais e nunca enviamos spam.
Sobre o autor
Masa
Engenheiro apaixonado por Claude Code. Mantém o claudecode-lab.com, uma mídia tech em 10 idiomas com mais de 2.000 páginas.
Artigos relacionados
7 Incidentes Reais em Produção com Claude Code: Recuperação Completa com RCA e Prevenção
7 incidentes reais em produção com Claude Code: vazamento de chaves API, exclusão de BD, explosão de cobrança e quedas de serviço — com análise de causa raiz e estratégias de prevenção.
10 Padrões de Prompts Perigosos no Claude Code | O Que Evitar e Alternativas Seguras
Descubra 10 padrões de prompts perigosos que você nunca deve dar ao Claude Code. Saiba como instruções vagas causam perda de código, destruição de BD, contas absurdas e vazamento de chaves.
Guia Completo de Segurança do Claude Code: Chaves API, Permissões e Proteção da Produção
Um guia prático de segurança para usar o Claude Code com segurança. Do gerenciamento de chaves API às configurações de permissões, automação baseada em Hooks e proteção do ambiente de produção — com exemplos de código funcionais.