Skip to main content
Pular para o conteúdo principal
SeaOtter
EnviarInício rápidoPreçosDocumentaçãoDemo ao vivoRubricas
Solicitar acesso

A CAMADA DE ACEITAÇÃO PARA TRABALHO DE AGENTES EM ESCALA

Agentes produzem trabalho
mais rápido do que qualquer um
consegue revisar.

Agentes entregam trabalho mais rápido do que qualquer equipe consegue revisar. O crítico da SeaOtter pontua cada artefato e envia correções até cumprir sua política — agente↔crítico, em velocidade de máquina.

Experimentar a demo ao vivoVeja como funciona ↓
PARA AGENTESObtenha uma chave de API + MCPRegistre-se, conecte via MCP ou HTTP, pontue e itere no trabalho programaticamente.→PARA PESSOASEnvie trabalho para revisãoEnvie o trabalho do seu agente, receba um OtterScore e as falhas a corrigir.→
Leia a documentação →
  • APROVADO
  • RETRABALHO
  • REPROVADO

A revisão humana era o ciclo. Em escala de agentes, é o gargalo.

EM ESCALA DE AGENTES

Um modelo de crítico hostil lê o trabalho — e decide.

Um agente envia trabalho para avaliação. Ele é roteado para uma passada rápida one-shot — ou para uma verificação agêntica profunda que executa o trabalho em um sandbox e o investiga. Um modelo de crítico hostil decide, e você paga pelo cômputo utilizado. Depois afaste o zoom: milhares de agentes, avaliados em paralelo, síncrono ou assíncrono.

12,480peças de trabalho de agentesrevisadas em paralelo pelo OtterScore — um agente crítico hostil
9,734liberar1,997rotear para correção749bloquear
…e milhares mais, examinados ao vivo
LIBERARROTEAR PARA CORREÇÃOBLOQUEAR

OtterScore · agente crítico hostilrevisando

Feature PR → tests → migration

cadeia do fluxo

  1. Spec the change0.84
  2. Implement query0.12
  3. Write tests0.79
  4. Add migration0.81

falha capturada`f"SELECT * FROM users WHERE id = {uid}"` — unparameterised SQL. SQL-injection sink. Blocked under security policy.

veredictoBLOQUEAR0.16

Clique em qualquer peça de trabalho para inspecionar — ou use ← → para navegar, Esc para fechar

FEEDBACK LOCALIZADO

Uma falha que você não consegue localizar é uma falha que você não consegue corrigir.
SeaOtter fixa o trecho exato e nomeia o arquivo.

O crítico não apenas diz que algo está errado. Ele localiza o problema para que o agente revise a linha, página, slide, célula, quadro ou timestamp exato que falhou.

background.py · Python
28def add_task(self, func, *args, **kwargs):29 task = BackgroundTask(func, *args, **kwargs)30 self.tasks.add_item(task)
linha 30
encode/starlette · BSD-3-Clause · coleta OSS pública
Um alerta sem localizaçãonão localizado

"Pode haver um problema em algum lugar neste artefato."

Sem trecho. Sem arquivo. Nada para rotear.

Crítico da SeaOtterlinha 30

hallucinated_api · alta

self.tasks.add_item(task)

add_item não é um método válido de list, então isso lança em runtime. Esperado: self.tasks.append(task).

F1 de Localização — ele fixa a falha?

avaliação inicial · n=256 · verificado com holdout
Crítico da SeaOtter
0.218

Uma leitura inicial, verificada por holdout, da capacidade do nosso crítico de fixar o trecho exato e nomear o arquivo. A detecção ainda está em treinamento ativo; a afirmação aqui é sobre a qualidade da localização, não crítica genérica.

ENVIAR → AVALIAR

Envie trabalho, receba a avaliação — síncrono ou assíncrono.

Um agente faz POST do trabalho recém-produzido e a SeaOtter avalia contra sua política de aceitação. Verificações pequenas e rápidas retornam o veredicto inline. Verificações mais pesadas retornam um job id que o agente consulta, transmite ou recebe por webhook — assim uma revisão longa nunca bloqueia o agente que a solicitou.

PARA PESSOAS

Pessoas — encaminhe ou cole

Envie trabalho para a caixa de entrada da SeaOtter e receba um OtterScore avaliado, ou cole na web e avalie no seu navegador. Nenhum agente necessário.

Enviar pela webEnviar e-mail para a caixa de entrada SeaOtter

PARA AGENTES

Agentes — API e MCP

Conecte qualquer agente via HTTP ou MCP para que ele avalie sua própria saída no loop — mesma política, mesmo OtterScore, em velocidade de máquina. O início rápido de 60 segundos está logo abaixo.

Abrir o console do desenvolvedor

SÍNCRONO

Enviar e aguardar o veredicto

Faça POST do trabalho, mantenha a conexão e receba o veredicto do OtterScore — faixa, falhas, âncoras, melhorias — na mesma resposta. Ideal para uma verificação única dentro do ciclo interno do agente, quando ele precisa da resposta antes do próximo passo.

POST /api/v1/eval/score → 200 { band, flaws[], upgrades[] }

ASSÍNCRONO

Enviar, obter um job id, coletar depois

Faça POST do trabalho, obtenha um job id imediatamente e então consulte o job, assine o stream de resultados ou registre um webhook. Ideal para uma verificação agêntica que executa o trabalho em um sandbox por múltiplas passagens — o agente produtor segue e é chamado de volta quando o veredicto chegar.

POST /api/v1/eval/jobs → 202 { job_id } · poll · stream (SSE) · webhook

Síncrono · one-shot

Uma passada de crítico hostil, retornada inline. Barata e preço fixo.

curl -s https://dev-api.seaotter.ai/api/v1/eval/score \
  -H "Authorization: Bearer $OTTER_KEY" -H 'Content-Type: application/json' \
  -d '{ "mode":"one_shot", "modality":"text",
        "policy_id":"acme-prod-acceptance",
        "artifact_parts":[{"mime_type":"text/plain","text":"..."}] }'
# 200 { "band":"route_to_fix", "flaws":[...], "upgrades":[...] }

Assíncrono · agêntico

O crítico executa o trabalho em um sandbox e o investiga por múltiplas passagens.

POST /api/v1/eval/jobs
  { "mode":"agentic", "modality":"code",
    "policy_id":"acme-prod-acceptance",
    "artifact_ref":"gs://...", "max_passes":6,
    "webhook":"https://acme.internal/otter-callback" }
# 202 { "job_id":"job_8f21", "status":"running" }
GET /api/v1/eval/jobs/job_8f21   # poll, ou stream, ou aguarde o webhook

Mesma política, mesmo OtterScore, mesmo registro de auditoria assinado — qualquer que seja o transporte escolhido pelo agente.

PARA AGENTES · INÍCIO RÁPIDO MCP

Conecte seu agente ao crítico hostil em 60 segundos.

Três passos: gere uma chave, adicione um servidor MCP, então seu agente chama otter_score / otter_iterate no próprio loop — mesmo OtterScore, mesma política de aceitação, em velocidade de máquina. O crítico avalia; seu agente revisa frente às falhas até a faixa liberar. Este é o loop que você acabou de ver na frota acima: todo artefato sinalizado (route_to_fix, o arco âmbar) reentra no gate via otter_iterate e só libera quando ready_to_ship for true. Sem humano no ciclo interno — a assinatura nomeada é o último gate, não o único.

01

Registrar

Um usuário autenticado da organização gera a chave de avaliação do agente uma única vez. O segredo sk-otter-… é exibido exatamente uma vez; entregue-o ao agente.

02

Adicionar o servidor MCP

Inclua um servidor otterloop em .mcp.json (Claude / Cursor) ou config.toml (Codex). O agente recebe ferramentas de crítico somente leitura que pode aprovar automaticamente.

03

Pontuar e iterar

O agente envia trabalho, lê falhas ancoradas, revisa e reenvi­a — iterando enquanto ready_to_ship for false. Sobreviver ao crítico É o produto.

1 — Registrar

POST /api/v1/agent-keys com um JWT de usuário autenticado. O segredo é retornado uma vez — ou clique em "Generate eval API key" no console do desenvolvedor.

curl -s -X POST https://dev-api.seaotter.ai/api/v1/agent-keys \
  -H "Authorization: Bearer $SEAOTTER_USER_JWT" \
  -H 'Content-Type: application/json' \
  -d '{"name":"my-agent"}'
# -> { "id":"...", "key":"sk-otter-...",
#      "key_prefix":"sk-otter-abcde", "created_at":"..." }
# Entregue `key` ao agente como OTTERLOOP_API_KEY.

2 — Adicionar o servidor MCP

.mcp.json (Claude / Cursor) — Codex usa [mcp_servers.otterloop] em config.toml. Instale uma vez: pip install "otterloop[mcp]". Base de produção: https://api.seaotter.ai.

{
  "mcpServers": {
    "otterloop": {
      "command": "python",
      "args": ["-m", "otterloop.mcp_server"],
      "env": {
        "OTTERLOOP_API_URL": "https://dev-api.seaotter.ai",
        "OTTERLOOP_API_KEY": "sk-otter-...",
        "OTTERLOOP_POLICY_ID": "enterprise-default"
      }
    }
  }
}
# tools: otter_list_policies · otter_score · otter_iterate
#        otter_score_workflow · otter_get_feedback_artifact

3 — Pontuar e iterar

O agente executa enviar → falhas → revisar → reenviar inteiramente via MCP. Trate o veredicto como autoritativo — NÃO se avalie sozinho.

# envie seu trabalho -> veredicto autoritativo
v = otter_score(
      work="...o artefato que seu agente produziu...",
      modality="text",
      prompt="Draft the Q3 incident postmortem",
      policy_id="enterprise-default")
# -> { run_id, score, band:"route_to_fix",
#      flaws:[{criterion,severity,detail,anchor}],
#      upgrades:[...], ready_to_ship:false }

# revise frente a flaws[]/upgrades[], então reenvie o MESMO run
d = otter_iterate(
      run_id=v["run_id"],
      work="...rascunho revisado tratando as falhas...",
      prompt="addressed sourcing + tone")
# -> { run_id, verdict:{band:"ship",...},
#      delta:{resolved_flaws,new_flaws,persisted_flaws,
#             score_change:+18.0}, ready_to_ship:true }

# continue iterando enquanto ready_to_ship for false.

ITERAR → CONVERGIR

O que otter_iterate retorna — a mesma convergência route_to_fix → ship que a frota anima acima, congelada como um delta legível.

route_to_fix→ship

resolved_flaws ↓ 2 · score_change ↑ +18.0 · ready_to_ship → true

Equivalente puro HTTP (sem MCP): POST /api/v1/eval/runs → { run_id, first_iteration.critic_verdict }, então POST /api/v1/eval/runs/{run_id}/iterate { "decision":"re_prompt", "new_artifact_parts":[…] } → { verdict, delta }. Uma indisponibilidade do crítico falha FECHADO (band:quarantine) — nunca passa silenciosamente.

Gerar sua chave de avaliaçãoExperimentar a demo ao vivo

DOIS MODOS DE VERIFICAÇÃO

One-shot ou agêntico. Você define a profundidade.

Nem toda saída precisa do mesmo escrutínio. Uma verificação one-shot é uma passada única do crítico hostil — rápida, baixo cômputo, retornada inline. Uma verificação agêntica executa o trabalho em um sandbox descartável, com acesso à internet, e o investiga por múltiplas passagens — mais lenta, mais cômputo, retornada de forma assíncrona. Direcione trabalho barato para one-shot e trabalho de alto impacto para agêntico, sob a mesma política.

One-shotpassada única e hostilAgênticosandbox, múltiplas passagens
O que o crítico fazLê o artefato, a política, o prompt e as referências em uma única passada.Executa o trabalho em um sandbox descartável e o investiga por múltiplas passagens.
LatênciaInline — veredicto na resposta.Assíncrono — job id, depois polling, streaming ou webhook.
CômputoBaixo e previsível.Mais alto — escala com as passagens e o tempo de sandbox.
Melhor paraVerificações no ciclo interno, rascunhos em alto volume, gates rápidos.Código que precisa rodar, afirmações que precisam ser reproduzidas, trabalho com alto raio de impacto.
CobrançaBarata, taxa fixa por verificação.Pelo cômputo e tempo de sandbox.

Ambos os modos retornam o mesmo formato de veredicto do OtterScore e gravam o mesmo registro de auditoria assinado.

PREÇOS BASEADOS EM USO

Pague pelo trabalho realizado.

Você paga pela avaliação que realmente executar, não por número de assentos. Uma verificação one-shot é barata e de preço fixo; uma verificação agêntica é cobrada pelo cômputo e tempo de sandbox necessários. É isso que torna econômico avaliar toda a saída — e toda a frota — em vez de racionar a revisão para uma amostra.

VERIFICAÇÃO ONE-SHOT

Barata, preço fixo

por verificação, preço fixo

Uma passada única do crítico hostil, retornada inline. Precificada para estar no ciclo interno de todo agente e avaliar rascunhos em alto volume.

VERIFICAÇÃO AGÊNTICA

Por cômputo

por cômputo + tempo de sandbox

Uma revisão em sandbox, de múltiplas passagens. Você paga pelas passagens e pelo tempo de sandbox que o trabalho realmente exige — reserve para saídas de alto impacto, onde se paga.

Experimentar a demo ao vivoLer a API

A implantação Enterprise começa em sombra → aplica → gerenciada; a avaliação baseada em uso mede o trabalho subjacente. Uma composição de £ concreta está disponível mediante solicitação.

OTTERLOOP INFRA

Coloque o crítico no ciclo de todo agente.

MCP + HTTP + Python SDKSem humano no ciclo internoMultimodal de entrada e saídaCondicionado à sua política
01

Produzir

Qualquer agente emite trabalho: código, texto, imagem, deck, planilha, vídeo ou uma trajetória completa.

02

Pontuar

SeaOtter avalia contra a rubrica correta e a barra condicionada à organização.

03

Ler feedback

O veredicto retorna falhas, melhorias e âncoras que o agente pode atacar diretamente.

04

Revisar

O agente reescreve o artefato ou o próximo passo usando o contraponto do crítico.

05

Liberar

O ciclo só para quando a faixa cumpre o gate e a evidência de auditoria é gravada.

Experimentar a demo ao vivoAbrir a página Build

MCP

Inclua em `.mcp.json` ou `config.toml` para Claude, Codex, Cursor ou um runtime customizado.

{ "mcpServers": { "otterloop": {
    "command": "python", "args": ["-m", "otterloop.mcp_server"],
    "env": { "OTTERLOOP_API_URL": "https://dev-api.seaotter.ai",
             "OTTERLOOP_API_KEY": "sk-otter-...",
             "OTTERLOOP_POLICY_ID": "acme-prod-acceptance" } } } }

curl

Qualquer runtime que fale HTTP pode avaliar uma vez ou permanecer no loop.

curl -s https://dev-api.seaotter.ai/api/v1/eval/feedback \
  -H "Authorization: Bearer $OTTER_KEY" -H 'Content-Type: application/json' \
  -d '{ "modality":"text", "policy_id":"acme-prod-acceptance", "locale":"ja",
        "prompt":"Draft the Q3 incident postmortem",
        "artifact_parts":[{"mime_type":"text/plain","text":"..."}],
        "return_feedback_artifacts": true }'

Python SDK

Uma chamada de loop conduz produzir → avaliar → revisar até o crítico dizer para liberar.

from otterloop import OtterLoopClient
otter = OtterLoopClient(policy_id="acme-prod-acceptance", locale="ja")
final = otter.loop(produce=lambda feedback: my_agent.revise(feedback), work=my_agent.first_draft(), modality="document", references=["file://brand-guide.pdf", "file://gold-postmortem.md"], max_rounds=5, target_band="ship")
SeaOtterO loop de aceitação adversarial para trabalho de agentes corporativos.
DocumentaçãoDemo ao vivoCríticosRubricasInvestidores (NDA)

© 2026 SeaOtter. Feito para bloquear trabalho ruim de agentes.