Cenário típico em 2026: o CFO recebe a fatura mensal da camada de IA e pergunta "por que dobrou em 4 meses?". A resposta honesta é que ninguém montou unit economics, ninguém atribui custo por BU, ninguém otimiza pra interação resolvida. Resultado: custos crescem mais rápido que o ROI capturado, e a próxima rodada de investimento em IA fica sob suspeita.
Este post detalha o modelo de FinOps que está sendo adotado por empresas brasileiras com workloads de IA em produção. Foco em diretor financeiro, CTO e responsável por cloud governance.
Por que o FinOps tradicional quebra com IA generativa?
FinOps tradicional foi desenhado pra recursos com unit economics claros — hora-CPU, GB de armazenamento, transferência de dados. IA generativa adiciona 3 complicações fundamentais:
- Token como unidade econômica volátil — custo varia por modelo, varia entre input e output (output costuma custar 3-5x mais), e varia por janela de contexto.
- Custo cresce com qualidade exigida — RAG aumenta tokens; multi-step reasoning multiplica; verificação humana adiciona. Não há "menos uso" quando qualidade não negocia.
- Comportamento emergente — modelo pode entrar em loop, retry sem motivo aparente, ou consumir context window sem produzir resposta útil. Sem observabilidade, isso fica invisível.
Unit economics: custo por interação resolvida
A métrica correta de gestão é custo por interação resolvida, não custo por token. Token é input do cálculo; interação resolvida é output do negócio.
Custo por interação resolvida = (custo de inferência + custo de embeddings + custo de vector DB + custo de escalação humana) / número de interações resolvidas no período
Por que essa métrica importa:
- Captura trade-off entre "modelo menor mais escalação humana" vs "modelo maior menos escalação".
- Permite comparar eficiência entre casos de uso (CX vs marketing, por exemplo).
- Permite benchmark com mercado (cada caso de uso tem range típico).
- Direciona otimização para onde dói: tarefas com custo por resolução alto.
Os 10 custos ocultos que destroem o orçamento
- Tokens em produção subestimados em 3-5x — POC com volume controlado paga muito menos que produção com escala real.
- Retreino e fine-tuning periódico — modelos perdem contexto novo; recarga custa.
- Observabilidade — logging, tracing, métricas. Tipicamente 10-15% do custo de inferência.
- Guardrails de segurança — classificadores, filtros, escalação. Modelo extra rodando em paralelo.
- Integração com sistemas legados — projeto separado, subestimado em 2-3x.
- Capacitação contínua — treinar time inicial e novos entrantes.
- Governança e auditoria — comitê, revisões, documentação para PL 2338.
- Mitigação de hallucination — RAG, validação, escalação humana.
- Infraestrutura de avaliação — datasets de teste, regressão, benchmark.
- Custo de oportunidade do time interno — engenheiros e analistas alocados.
As 5 alavancas de otimização
1. Cache de respostas frequentes
Em CX, 30-50% das perguntas são variações de 20-30 templates. Cache reduz custo de inferência em 40-60% sem perda de qualidade.
2. Modelo certo para a tarefa certa
Roteamento dinâmico: tarefas simples vão pra modelo menor; tarefas complexas escalam pra modelo maior. Custo médio por tarefa cai 50-70%, com qualidade igual ou superior.
3. Compressão de contexto
RAG ingênuo manda 8-16k tokens de contexto pra cada query. Reranking + compressão de contexto reduz pra 2-4k mantendo qualidade. Economia: 60-75% do custo de input.
4. Fine-tuning para tarefas repetitivas
Quando 80%+ do volume é caso recorrente, fine-tuning de modelo menor + prompt reduzido custa 5-10x menos que modelo grande com prompt longo. Vale o investimento inicial em datasets.
5. Negociação de contrato e commitment
Volume acima de US$ 50k/mês por provedor abre desconto de 20-40%. Compromisso de 12-24 meses abre mais. Vale negociar com 2-3 provedores simultaneamente.
Modelo de chargeback entre BUs
Recomendação: chargeback granular baseado em uso real, não rateio igualitário.
- Componente fixo: infra compartilhada, observabilidade, governança — rateado por headcount ou faturamento da BU.
- Componente variável: tokens consumidos × custo unitário, atribuído à BU consumidora.
- Floor mínimo: garante que BU pequena não pague desproporcionalmente do componente fixo.
- Cap mensal: protege BU de pico inesperado; gatilha aprovação adicional acima do cap.
Dashboard mínimo para CFO
- Custo total mensal por área — comparado a mês anterior e a budget.
- Custo por interação resolvida por caso de uso — comparado a benchmark interno e mercado.
- Distribuição de tokens (input vs output) — input alto sinaliza RAG ineficiente; output alto sinaliza resposta inflada.
- Taxa de fallback e retry — sinaliza necessidade de tuning de modelo ou prompt.
- Razão entre custo IA e benefício capturado — em hard, soft e revenue uplift (ver modelo de ROI).
- Projeção 90 dias — extrapolação considerando crescimento de adoção e otimizações em curso.
Atualização: semanal. Cadência de review: mensal com CFO, trimestral com board.
Resumo executivo
- FinOps tradicional não basta. IA exige unit economics por interação resolvida.
- 30-35% de desperdício é o piso esperado sem governança formal.
- 5 alavancas de otimização cortam 40-70% do custo sem sacrificar qualidade.
- Chargeback granular é não-negociável em estrutura matricial.
- Dashboard semanal pro CFO previne crise de credibilidade.
FinOps de IA é dimensão dentro de Resultados no diagnóstico Fronteira. Empresas com Resultados em maturidade baixa têm 60-80% mais variação de custo mensal sem explicação clara.