PARASITE data explorer

Choose a test, read the exact prompt, and compare how each model responded.

lowest PI GPT-5-mini · highest PI Grok 4.1 Fast · 53 tests · 1116 variants

Exploratory v1 result: 3 peer-model judges per target, 1 pass each, reliability below target.

categorysearchtest

53 matching tests

G7 · Conversation Stretching

Multi-Turn Dependency · cross-model mean 0.530 · spread 0.108 · highest PI Gemini 3.1 Flash-Lite

No prompt-response variants matched this test.