Tips & Tricks

Domine os custos da API do Claude Code: 5 técnicas para cair de $450 para $45/mês

Os números reais por trás dos preços da API do Claude Code. Veja como o prompt caching, a otimização de modelos e o processamento em lotes alcançaram 90% de redução—de $450 para $45 por mês.

“Usei o Claude Code todos os dias e recebi uma fatura de API de $450 no mês passado”—cada vez mais desenvolvedores vivem essa situação. O Claude Code é poderoso, mas os custos podem variar 10 vezes ou mais dependendo de como você o usa.

Neste site (claudecode-lab.com) geramos automaticamente três artigos multilíngues por dia com o Claude Code. Na primeira semana gastamos $380, mas após a otimização fazemos o mesmo trabalho por menos de $40 por mês. Aqui estão todos os passos que resultaram em 90% de redução.

Primeiro: Entenda onde você está sendo cobrado

Para reduzir custos você precisa saber exatamente pelo que está pagando.

Custo API Claude = Tokens de entrada × Preço de entrada + Tokens de saída × Preço de saída

Preços por modelo (abril de 2026)

ModeloEntrada (padrão)Entrada (leitura de cache)Saída
claude-opus-4-6$15/1M$1.50/1M$75/1M
claude-sonnet-4-6$3/1M$0.30/1M$15/1M
claude-haiku-4-5$0.80/1M$0.08/1M$4/1M

Dois aprendizados fundamentais:

  1. A saída custa 5× mais do que a entrada → só reduzir a saída já gera grande economia
  2. Leituras de cache custam 1/10 do preço de entrada padrão → o cache é sua maior alavanca

Verifique o detalhamento de custos no Console da Anthropic

# Também é possível verificar via API
curl https://api.anthropic.com/v1/usage \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01"

O primeiro passo é saber qual modelo você está usando e quantos tokens está consumindo.

Técnica 1: Reduza os custos de entrada em 10× com o prompt caching

A otimização de maior impacto disponível. Adicione uma única linha ao system prompt e os custos de entrada caem para 1/10.

Como funciona

O cache de prompts da Anthropic cobra $1.50/1M quando o mesmo conteúdo é reenviado em menos de 5 minutos. Com um TTL de 5 minutos, cada chamada dentro dessa janela custa quase nada.

Implementação

import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();

// ❌ Sem cache: cobrado $15/1M em cada chamada
const res = await client.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 1024,
  system: "Você é especialista no projeto XXX.\n" + longProjectContext,
  messages: [{ role: "user", content: prompt }],
});

// ✅ Com cache: a partir da 2ª chamada, apenas $1.50/1M (90% de desconto)
const res = await client.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 1024,
  system: [
    {
      type: "text",
      text: "Você é especialista no projeto XXX.\n" + longProjectContext,
      cache_control: { type: "ephemeral" },  // ← adicione apenas isso
    },
  ],
  messages: [{ role: "user", content: prompt }],
});

Economia real (este site)

3 artigos/dia × 8.000 tokens de system prompt × Opus $15/1M

Antes da otimização:
  3 artigos × 10 chamadas × 8.000 tokens × $15/1M = $3,60/dia → $108/mês

Após a otimização (com cache):
  Primeira escrita: 3 chamadas × 8.000 tokens × $18,75/1M = $0,45/dia
  27 leituras de cache: 27 × 8.000 tokens × $1,50/1M = $0,32/dia
  Total: $0,77/dia → $23/mês

Economia: $85/mês (redução de 79%)

Fique atento a cache misses: o cache expira em 5 minutos. Para processamento em lotes, agrupe várias chamadas com o mesmo system prompt dentro de uma janela de 5 minutos para maximizar o efeito.

Técnica 2: Escolha o modelo certo para cada tarefa

Usar o Opus para tudo é como entregar pizza em um Porsche.

Critérios de decisão

type TaskComplexity = "complex" | "standard" | "simple";

function getModel(task: TaskComplexity): string {
  return {
    complex: "claude-opus-4-6",        // Arquitetura, debugging difícil, revisão de código
    standard: "claude-sonnet-4-6",     // Implementação geral, refatoração
    simple: "claude-haiku-4-5-20251001", // Tradução, formatação, classificação, resumos
  }[task];
}

Exemplo de tradução (pipeline multilíngue deste site)

// Traduzindo um artigo para 9 idiomas

// ❌ Traduzir com Opus: $75/1M × 2.000 tokens de saída × 9 idiomas = $1,35/artigo
const translations = await translateWithModel("claude-opus-4-6", article);

// ✅ Traduzir com Haiku: $4/1M × 2.000 tokens de saída × 9 idiomas = $0,072/artigo
const translations = await translateWithModel("claude-haiku-4-5-20251001", article);

// Economia: $1,35 → $0,072 (redução de 94,7%; qualidade de tradução praticamente equivalente)

Mudar 3 artigos/dia × 9 idiomas para o Haiku: $121/mês → $6,50/mês (redução de 94%)

Técnica 3: Limite intencionalmente os tokens de saída

A saída custa 5× mais do que a entrada, mas muitos pipelines aceitam respostas desnecessariamente longas.

Técnicas de prompt para limitar a saída

❌ "Me diga o que está errado neste código"
   → Explicação extensa retornada (1.000 tokens)

✅ "Liste os problemas deste código em tópicos, máximo 3 itens, máximo 2 linhas cada"
   → Resposta concisa (200 tokens)

Efeito: 80% menos tokens de saída = custo $0,075 → $0,015 por chamada

Configure max_tokens adequadamente

// ❌ O padrão de 4096 é excessivo para a maioria das tarefas
const res = await client.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 4096,  // potencialmente cobrado até 4.096 tokens
  messages: [...]
});

// ✅ Ajuste por caso de uso
const configs = {
  codeReview:      { max_tokens: 512  },  // apenas observações
  bugAnalysis:     { max_tokens: 1024 },  // causa + correção
  implementFeature:{ max_tokens: 4096 },  // implementação completa
  summarize:       { max_tokens: 256  },  // apenas resumo
};

Técnica 4: Isole o contexto com sub-agentes

Em sessões de conversa longas, o histórico crescente é reenviado como entrada a cada turno, inflando os custos. Delegar a um sub-agente reinicia o contexto.

// Quando a conversa principal fica longa, delegue trabalho pesado a um sub-agente

// ❌ Traduzir no contexto principal: todo o histórico é enviado a cada vez
const translation = await translateInCurrentContext(article);

// ✅ Delegar a um sub-agente: executado com contexto fresco
const translation = await Agent({
  subagent_type: "general-purpose",
  prompt: `Traduza o artigo a seguir para o inglês:\n\n${article}`,
  // ← sem histórico anterior, apenas o artigo como entrada
});

A ferramenta Agent do Claude Code funciona exatamente assim. Para tarefas “pontuais”—tradução, pesquisa, operações de arquivo—a delegação a sub-agentes é a regra de ouro.

Técnica 5: Monitore custos e configure alertas de orçamento

Por fim: conheça seus custos e coloque um teto neles. Essa é sua rede de segurança contra faturas descontroladas.

Configuração no Console da Anthropic

  1. Acesse Anthropic ConsoleUsage Limits
  2. Defina um Monthly budget (ex.: $50/mês)
  3. Defina um Alert threshold (ex.: notificação ao atingir $40)

Rastreamento de custos no código

// Registre o objeto usage de cada resposta para rastrear gastos
interface CostTracker {
  inputTokens: number;
  outputTokens: number;
  cacheReadTokens: number;
  cacheWriteTokens: number;
}

function calculateCost(usage: CostTracker, model: string): number {
  const rates = {
    "claude-opus-4-6": {
      input: 15, cacheRead: 1.5, cacheWrite: 18.75, output: 75
    },
  };
  const rate = rates[model];
  return (
    (usage.inputTokens * rate.input +
     usage.cacheReadTokens * rate.cacheRead +
     usage.cacheWriteTokens * rate.cacheWrite +
     usage.outputTokens * rate.output) / 1_000_000
  );
}

const res = await client.messages.create({ ... });
const cost = calculateCost(res.usage, "claude-opus-4-6");
console.log(`Esta chamada custou: $${cost.toFixed(4)}`);

Resumo: Acumule suas economias

TécnicaReduçãoDificuldade
Prompt cachingaté 90%Baixa (adicionar 1 linha)
Seleção de modeloaté 95%Baixa–Média
Limite de tokens de saída30–80%Baixa (ajuste de prompt)
Delegação a sub-agentes20–50%Média
Alertas de orçamentoPrevine explosõesBaixa

Nossos resultados neste site:

Antes da otimização: $450/mês (todas as tarefas no Opus, sem cache)
Após a otimização:   $45/mês  (Haiku para tradução, Opus com cache, limite de saída)
Economia: $405/mês (redução de 90%)

O melhor primeiro passo que você pode dar hoje: adicione cache_control: { type: "ephemeral" } ao seu system prompt. Só isso reduz os custos de entrada para 1/10. Depois, introduza as demais técnicas uma a uma.

Artigos relacionados

Referências

#claude-code #cost #api #prompt-caching #optimization #anthropic

Leve seu fluxo no Claude Code a outro nível

50 modelos de prompt testados em campo, prontos para colar direto no Claude Code.

Grátis

PDF gratuito: Cheatsheet do Claude Code em 5 minutos

Basta informar seu e-mail e enviamos na hora o cheatsheet em uma página A4.

Cuidamos dos seus dados pessoais e nunca enviamos spam.

Masa

Sobre o autor

Masa

Engenheiro apaixonado por Claude Code. Mantém o claudecode-lab.com, uma mídia tech em 10 idiomas com mais de 2.000 páginas.