#llm-benchmarks

Kimi K2.7-Code: أوزان مفتوحة، أرقام الطرف الأول (2026)

١٣ يونيو ٢٠٢٦

Moonshot's Kimi K2.7-Code هو 1T open-weight coding model بأسعار API رخيصة، ولكن كل launch benchmark هو first-party. إليك ما تم التحقق منه بالفعل.

#Kimi K2.7-Code #Moonshot AI

Claude Fable 5: موديل من فئة Mythos لشركة

١٠ يونيو ٢٠٢٦

Claude Fable 5 هو أقوى نموذج متاح للجمهور من Anthropic حتى الآن — نظام من فئة Mythos بسعر 10 دولار / 50 دولار، يتراجع بهدوء إلى Claude Opus 4.8 عند التعامل مع prompts خطيرة.

#claude fable 5 #claude mythos 5

Nex-N2-Pro: مبرمج مفتوح الأوزان ضد GPT-5.5 (2026)

١٠ يونيو ٢٠٢٦

Nex-N2-Pro هو نموذج برمجة MoE مجاني ومفتوح الأوزان بحجم 397B من شركة Nex AGI، ومبني على Qwen3.5. بنراجع نتايج اختبارات الأداء بتاعته مقارنة بـ GPT-5.5 و Opus والنماذج المفتوحة المنافسة.

#nex-n2-pro #nex agi

MiniMax M3: برمجة بنماذج مفتوحة الأوزان بعُشر التكلفة (2026)

٩ يونيو ٢٠٢٦

MiniMax M3 هو نموذج برمجة مفتوح الأوزان، تقنية Sparse Attention بتاعته بتشغل سياق 1M-token بـ 1/20 من قوة الحوسبة. نتائج اختبارات الأداء بتاعته بتتفوق على GPT-5.5 — مع وجود تحفظات.

#minimax m3 #minimax

DeepSeek V4: رائد النماذج مفتوحة الأوزان بـ 1/7 من التكلفة

٢ مايو ٢٠٢٦

DeepSeek V4 تطلق 1.6T MoE أوزان مفتوحة مع سياق 1M-token: بنسبة 80.6% على SWE-bench Verified بسعر 1.74 دولار / 3.48 دولار لكل مليون — تقريباً 1/7 تكلفة المخرجات لـ Claude Opus 4.7.

#DeepSeek V4 #DeepSeek V4 Pro

GPT-5.5: أول قاعدة معاد تدريبها لشركة OpenAI منذ GPT-4.5

٢٤ أبريل ٢٠٢٦

أطلقت OpenAI إصدار GPT-5.5 في 23 أبريل 2026 — أول نموذج أساسي تم إعادة تدريبه بالكامل منذ GPT-4.5. مقارنة بين نتائج الاختبارات، وتسعير API بقيمة 5 دولار / 30 دولار، وسياق 1M، و Opus 4.7.

#GPT-5.5 #GPT-5.5 Pro

Meta Muse Spark: مقاييس الأداء والاستراتيجية (2026)

٩ أبريل ٢٠٢٦

Meta Muse Spark هو أول نموذج ملكية خاصة لشركة MSL، مع أعلى معايير الأداء في الصحة والعلوم ولكن مع وجود فجوات في البرمجة. الأنماط، والنتائج، وما يجب على المطورين معرفته.

#Meta AI #Muse Spark

GPT-5.4 يتفوق على البشر في استخدام الكمبيوتر: ماذا يعني ذلك

٥ أبريل ٢٠٢٦

GPT-5.4 يحقق 75% في OSWorld، متفوقاً على الخبراء البشريين في مهام سطح المكتب. ماذا يعني هذا لوكلاء الذكاء الاصطناعي، وسير العمل في الشركات، والمنافسة في عام 2026.

#GPT-5.4 #AI agents

نظرة متعمقة في GLM-4.7: 355B MoE، و200K Context، و$0.60/M Tokens

٨ مارس ٢٠٢٦

شرح GLM-4.7 من Zhipu AI: معماريّة 355B MoE architecture، سياق 200K-token context، و multimodal inputs، و0.60$ in / 2.20$ out لكل مليون توكن على Z.ai.

#GLM‑4 #Zhipu AI