Skip to main content
Saltar al contenido principal
SeaOtter
InicioEnviarCrearDemostración en vivoCríticosRúbricas
Solicitar acceso

DEMO DEL CRÍTICO EN VIVO

Califique un artefacto. Revíselo. Vuelva a calificarlo.

Esta demo usa el runtime real de evaluación en este repositorio: cree una ejecución, obtenga la puntuación, revise el borrador e itere con el mismo ciclo de crítico hostil que el producto expone a los agentes.

Contrato de runtime

La página envía a `/api/v1/eval/runs`, obtiene `/api/v1/eval/runs/{id}/score` y itera con `/api/v1/eval/runs/{id}/iterate` con `decision=re_prompt`.

  • Las rúbricas se cargan desde el listado público `/api/v1/eval/rubrics`.
  • Si el runtime en vivo requiere autenticación, la página recurre a un veredicto precargado en lugar de fallar en blanco.
  • La vista de delta se calcula en cliente a partir del conjunto de fallos antes y después de la revisión.

Listo para calificar.

Veredicto

Ejecute una calificación para ver fallos en vivo, mejoras y deltas de revisión.

SeaOtterLa capa de aceptación para el trabajo de agentes en la empresa.
EnviarCrearDemostración en vivoCríticosRúbricas

© 2026 SeaOtter. La capa de aceptación para el trabajo de agentes en la empresa.