라이브 크리틱 데모
이 데모는 이 코드베이스의 실제 평가 런타임을 사용합니다: 런 생성, 점수 조회, 초안 수정, 제품이 에이전트에 노출하는 것과 동일한 적대적 크리틱 루프로 반복합니다.
런타임 계약
이 페이지는 `/api/v1/eval/runs`에 POST하고, `/api/v1/eval/runs/{id}/score`를 가져오며, `decision=re_prompt`로 `/api/v1/eval/runs/{id}/iterate`를 통해 반복합니다.
채점을 실행하면 라이브 결함, 업그레이드, 수정 델타가 표시됩니다.