Skip to main content
メインコンテンツへスキップ
SeaOtter
ホーム提出ビルドライブデモ批評家ルーブリック
アクセスをリクエスト

ライブ批評デモ

アーティファクトを採点。修正。再採点。

このデモは本コードベースの実評価ランタイムを使用します。ランを作成し、スコアを取得、下書きを修正し、プロダクトがエージェントに公開しているのと同じ敵対的批評ループで反復します。

ランタイム契約

このページは `/api/v1/eval/runs` に POST、`/api/v1/eval/runs/{id}/score` を取得し、`/api/v1/eval/runs/{id}/iterate` に `decision=re_prompt` で反復します。

  • ルーブリックは公開の `/api/v1/eval/rubrics` 一覧から読み込みます。
  • ライブランタイムに認証が必要な場合、ページは失敗せず、用意済みの判定にフォールバックします。
  • 差分ビューは、修正前後の欠陥セットからクライアント側で計算します。

採点の準備ができました。

判定

採点を実行すると、ライブの欠陥・アップグレード・修正差分が表示されます。

SeaOtterエンタープライズのエージェント業務向け受入レイヤー。
提出ビルドライブデモ批評家ルーブリック

© 2026 SeaOtter. エンタープライズのエージェント業務向け受入レイヤー。