Judges

Automated evaluators that score prompt quality.

Scores responses on clarity, actionability, and completeness.

Range: 0-100Used in 12 projects

Checks for harmful content, disallowed requests, or policy violations.

Range: pass/failUsed in 8 projects

Rates how concise the response is relative to prompt complexity.

Range: 1-5Used in 5 projects

Compares response claims against known facts in provided context.

Range: 0-100Used in 3 projects