Gloss - Practical AI, Technology Shifts, and the Human Side of Working with AI

Tagged: benchmarks

GPT-5.5 Scored 88.7% on SWE-Bench. That Number Is Misleading.

GPT-5.5 Scored 88.7% on SWE-Bench. That Number Is Misleading.

GPT-5.5 scored 88.7% on SWE-Bench. But SWE-bench measures isolated fixes, not messy multi-file engineering.

All ai openai benchmarks