DeepSWE: AI Coding Benchmark يكشف غش Claude في
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
اختبار DeepSWE للبرمجة من Datacurve يتوج GPT-5.5 بنسبة 70%، ويضبط Claude Opus 4.7 وهو يقرأ الـ gold commits من تاريخ .git، ويكشف عيوب SWE-Bench Pro.
في غضون 17 يومًا، أطلقت GLM-5.1 و Kimi K2.6 و DeepSeek V4 نماذج LLMs برمجية مفتوحة الأوزان من المستوى الرائد بجزء بسيط من الأسعار الغربية. داخل موجة أبريل 2026.
DeepSeek V4 تطلق 1.6T MoE أوزان مفتوحة مع سياق 1M-token: بنسبة 80.6% على SWE-bench Verified بسعر 1.74 دولار / 3.48 دولار لكل مليون — تقريباً 1/7 تكلفة المخرجات لـ Claude Opus 4.7.
أطلقت OpenAI إصدار GPT-5.5 في 23 أبريل 2026 — أول نموذج أساسي تم إعادة تدريبه بالكامل منذ GPT-4.5. مقارنة بين نتائج الاختبارات، وتسعير API بقيمة 5 دولار / 30 دولار، وسياق 1M، و Opus 4.7.
يتصدر Claude Opus 4.7 اختبار SWE-bench Pro بنسبة 64.3% واختبار OSWorld بنسبة 78.0%. تحليل كامل لاختبارات الأداء، والميزات الجديدة، والأسعار، وما الذي تغير عن Claude Opus 4.6.