Como vIA aprende com erros

Falsificabilidade Popperiana operacionalizada em pipeline auditável. vIA não só fala sobre Popper — vIA materializa Popper em 4 agentes autônomos rodando 24/7 no Worker Cloudflare.

Sprint β.87.1 · POPPER + MCMC + Heston + Julia Regime + Multi-Agente · Pipeline LIVE em api.visionaria-tech.com · Reality score com Wilson CI 95%.

O ciclo Popperiano vIA

Karl Popper (The Logic of Scientific Discovery, 1934): uma teoria é científica se for falsificável. Aplicado a projeções macroeconômicas, isso exige 4 pontos cumulativos. A maioria das previsões macro em mercado falha em pelo menos 1. vIA cumpre os 4 por construção operacional.

1. Predição explícita

RAV com IC80, sha256, janela_obs declarada

2. Critério refutação a priori

Valor fora IC80 = revisão estrutural

3. Mecanismo refute público

/api/v1/refutations live

4. Resposta institucional

4 agentes autônomos atualizam tudo

Loop operacional — fluxo completo

Cada predição passa pelo seguinte ciclo, sem intervenção humana exceto na promoção de RAV v(N+1) → produção:

RAV vN publicado
       │
       │  drift-monitor (a cada 6h)
       ▼
Drift detection vs Focus/BCB
       │
       ├─ ok ──────────────────────────────► (próximo ciclo)
       │
       └─ drift > 150 bp persistente
              │
              ▼
       auto-recalibrator semanal
              │
              ▼
       CONCIERGE_RECALIB_QUEUE
              │
              ▼
       IARA-LAB MCMC v(N+1) (PyMC + CUDA local)
              │
              ▼
       RAVS_PENDING_REVIEW (review humano)
              │
              ▼
       RAV v(N+1) PRODUÇÃO ──────────────►
              │
              │  (janela_obs vence)
              ▼
       learning-loop (mensal)
              │  - compara realização vs IC80
              │  - persiste refutation pública
              │  - atualiza reality_score (Wilson CI)
              │  - sugere prior adjustment
              ▼
       /api/v1/refutations + /api/v1/learning-memory
              │
              ▼
       (insumo para próximo RAV)

4 agentes que executam o ciclo

drift-monitor

a cada 6h

Compara RAV pontual vs Focus/BCB cacheado. Estados: ok / watch / warning / critical.

data-harvester

on-demand

Busca BCB SGS (Selic 432, IPCA 433, PTAX 1) programaticamente para popular factual cache.

auto-recalibrator

semanal (domingo)

Detecta drift persistente (>150 bp em 7+ dias) e marca RAV para re-cravação MCMC.

learning-loop

mensal

Quando RAV vence janela_obs, compara realização vs IC80, persiste refutation pública, atualiza prior.

Métricas honestas — Wilson Confidence Interval

Reality score puro (k/n) é enganoso para amostra pequena. vIA aplica Wilson score interval 95% e marca significância estatística como false até n ≥ 10 amostras. Cliente B2B nunca vê "1.0" sem o contexto honesto ao lado.

Indicador	n amostras	reality_score	Wilson IC95	Significância
Selic	1	1.0 (1/1)	[0.21, 1.00]	não significativo (n < 10)
IPCA / Câmbio / IBOV / Recessão	0	—	—	aguardando 1º vencimento

O backtest selic-dez2018-retro-v4 vence em 2018-12-31, com pontual 7.33%, IC80 [4.54%, 10.25%]. Realização real 6.50% (BCB SGS 432, auto-fetch). Delta 83 bp, dentro IC80 = NÃO refutado. Próximo vencimento real (RAV ativo): jan/2027 (selic-dez2026-v4).

Onde ver as refutações

A API B2B v1 expõe os endpoints Popperianos públicos para clientes autenticados:

GET /api/v1/refutations — lista RAVs com janela vencida + comparação predição vs realização + flags refutado_total / refutado_parcial.
GET /api/v1/learning-memory — agregado por indicador + reality_score global + Wilson IC + interpretação textual.
GET /api/v1/rav/{stem} — RAV individual com drift_status real-time integrado.

Auth via Bearer API key (contato comercial: [email protected]). Tiers: piloto R$ 0 (60d) · Entry R$ 500/mês · Pro R$ 2k/mês · Enterprise R$ 12k/mês.

O que vIA NÃO faz (limites Popperianos honestos)

Não publica predição-ponto sem IC. Predição sem incerteza é falsamente certa.
Não rebalanceia automaticamente. Drift dispara alerta + queue, não decisão de mercado.
Não esconde refutações. /api/v1/refutations é público; pior RAV permanece auditável.
Não promove RAV PENDING_REVIEW automaticamente. Mesmo MCMC com diagnose perfeita, review humano é obrigatório.
Não claim 100% de hit rate sem contexto. statistical_significance: false até n ≥ 10.

Para auditores externos

Todo RAV tem sha256_envelope imutável. Toda refutação persiste com timestamp + fonte do realizado (campo realizacao_source). Toda execução de agente é loggeada em CONCIERGE_AGENT_LEDGER com TTL 30 dias. Ledger de marcos institucionais cravado em RAVs/cost_ledger/beta{NN}.jsonl commitado em git.

Cliente que descobrir RAV refutado pode validar independentemente: consultar BCB SGS na data janela_obs_iso e comparar com IC80 publicado pelo vIA. Auditabilidade externa por construção.

Commodity tracker — expansão β.16-L

Em β.16-L2 vIA estende a cobertura para commodities com metodologia v5-commodity (skill via-rav-generator-commodities):

Ouro (Ouro_USDoz): fonte LBMA Gold Price PM (prices.lbma.org.uk/json/gold_pm.json). Vol histórica real calculada via 252 últimos PM fixes (log-returns). Primeiro RAV: ouro-dez2026-v5, janela_obs jan/2027.
Soja (Soja_BRLsc60kg): fonte planejada B3 DataWise (SFIZ27); probe β.16-L2 falhou (HTTP 404 endpoint experimental) — cravação diferida para β.17 com investigação de URL alternativa.
Café Arábica (Cafe_Arabica_BRLsc60kg): fonte planejada B3 DataWise (ICFZ27); mesmo status soja.

Política Popperiana mantida: probe-first religioso (sem cravação sem fonte validada). Cepea/Esalq HTML scraping retornou HTTP 403 em β.16-L1 (Cloudflare datacenter bloqueado), por isso o pivot para B3.

Roadmap Popperiano

β.17: MCMC GPU real PyMC implementado (IARA-LAB scaffold já pronto). Re-tentar B3 com investigação URL alternativa.
β.18: Auto-promote PENDING_REVIEW sob critérios rigorosos.
β.19: Reality score agregado multi-indicador.
β.20: Dashboard público (sem auth) com reality_score visível ao mundo. Pressão epistêmica máxima.

Roadmap commodity tracker

Tier A commodity tracker 100% completo (atualizado 22/05/2026):

Ouro USD/oz (LBMA Gold PM)
Soja USD/bushel (CBOT futures via Yahoo)
Milho USD/bushel (CBOT futures via Yahoo)
Café Arábica USD/lb (ICE futures via Yahoo)
Níquel USD/share (proxy ETN JJN via Yahoo)
Lítio USD/share (proxy ETF LIT via Yahoo)

Nota honesta: níquel e lítio entram via ETN/ETF proxies porque LME e Fastmarkets não oferecem API gratuita direta. O tracking error de cada proxy está declarado no RAV correspondente. β.20+ avaliará Metals-API (≈US$ 9/mês) ou Trading Economics para fontes LME oficiais.

Tier B (β.20+, escopo final cravado):

Terras Raras NdPr (Shanghai Metals Market)
Grafita (Benchmark Mineral Intelligence)

vIA-Discovery (vertical 2) — sub-vertical especial “Critical Minerals Edition” identifica small caps mineradoras brasileiras. Output mensal de 3 a 5 empresas com tese fundamentada e critério público de refutação. Janela única 2026–2030 com transição energética + tensão geopolítica + descobertas geológicas convergindo.

Marco operacional 22/05/2026

Em uma jornada de aproximadamente 14 horas, vIA evoluiu de β.16-A para β.19-B:

7 cards commodity ativos (era apenas 1 — somente ouro)
21 backtests retroativos processados (Selic 7 anos + IPCA 7 anos + Câmbio 7 anos)
Reality score 0.62 com Wilson CI [0.41, 0.79] honesto (n=21; não distinguível de 0.5 ainda — significância viria com refutações reais a partir de out/2026)
45+ RAVs ativos + MCMC Bayesiano GPU auditáveis publicamente (MCMC NUTS 8000 samples R-hat 1.0000 + Monte Carlo 100k paths CuPy + backtest robusto 5 modelos)
Workers Paid plan ativo (infraestrutura production-grade, 10M PUTs/mês)
L1–L7 protocolos cravados: via-readonly-guard, smoke real-end-user obrigatório, smoke OPTIONS preflight, validação 3-camadas Opus → Code → browser → WSL, sprint não fecha com R6 visual pendente, infraestrutura paga obrigatória em produção, defaults explícitos em scripts seed

Custo operacional vIA hoje: ≈ US$ 5–8/mês (R$ 30–40/mês) — Workers Paid + KV overage + DeepSeek LLM através do Concierge.

Idade vIA (recalibrada após Tier A completo)

vIA-Finanças tem hoje idade 76 na escala 0–100 (atualizada 22/05/2026 após Tier A completo). Referência setorial inicial atingida. Antes do dia 22/05 declarava 65; uma sequência de 9 sprints completou commodity tracker + schema consistency KV↔API + Workers Paid ativo.

Antes de 65 declarava 88, número inflado por maturidade técnica do que estava implementado — corrigido para refletir completude do produto final percebida por outsider.

Gap para 90 (institucional):

Tier B operacional (terras raras NdPr + grafita) β.20–21
Primeiro cliente B2B pagante real
Parceria jurídica formalizada com Dr. Rodrigo Josefi Moraes (OAB/PR 49.385)
5+ clientes ativos pagantes
Maturidade regulatória — consulta com profissionais CVM/ANBIMA