أنواع الضبط الدقيق

ليس كل ضبط دقيق متساوياً. دعنا نستكشف الأساليب المختلفة ومتى نستخدم كل منها.

الضبط الدقيق الكامل مقابل PEFT

الضبط الدقيق الكامل

يحدّث جميع معاملات النموذج أثناء التدريب.

الإيجابيات	السلبيات
أقصى إمكانية للتحسين	يتطلب ذاكرة GPU ضخمة
تخصيص كامل للنموذج	خطر النسيان الكارثي
يعمل لأي مهمة	مكلف وبطيء

العتاد المطلوب: 80GB+ VRAM لنموذج 7B، عدة A100s لـ 70B

الضبط الدقيق الموفر للمعاملات (PEFT)

يحدّث فقط مجموعة فرعية صغيرة من المعاملات (عادة <1%).

الإيجابيات	السلبيات
10-100 مرة أقل ذاكرة	سقف أقل قليلاً من الضبط الكامل
تدريب سريع	يتطلب فهم المحولات
لا نسيان كارثي
سهولة تبديل المحولات

العتاد المطلوب: 8-24GB VRAM لمعظم النماذج مع QLoRA

أهداف التدريب: SFT مقابل DPO مقابل RLHF

الضبط الدقيق المُشرف عليه (SFT)

أبسط نهج: التدريب على أزواج (تعليمة، استجابة).

# مثال تدريب SFT
dataset = [
    {"instruction": "اكتب قصيدة عن الذكاء الاصطناعي", "response": "أحلام السيليكون..."},
    {"instruction": "اشرح الحوسبة الكمية", "response": "الحوسبة الكمية تستخدم..."}
]

الأفضل لـ: تعليم مهارات جديدة، معرفة المجال، صيغ الإخراج

التحسين المباشر للتفضيلات (DPO)

التدريب على أزواج التفضيل: أي استجابة أفضل؟

# مثال تدريب DPO
dataset = [
    {
        "prompt": "اشرح التكرار",
        "chosen": "التكرار هو عندما تستدعي دالة نفسها...",  # استجابة جيدة
        "rejected": "التكرار معقد. ابحث عنه."  # استجابة سيئة
    }
]

الأفضل لـ: تحسين جودة الاستجابة، المحاذاة، النبرة

RLHF (التعلم المعزز من الملاحظات البشرية)

تقنية المحاذاة الأصلية، أكثر تعقيداً من DPO.

خط الأنابيب: نموذج SFT → تدريب نموذج المكافأة → تحسين PPO

الأفضل لـ: متطلبات المحاذاة المعقدة (تُستخدم عادة من قبل المختبرات)

المقارنة: متى نستخدم كل نهج

النهج	التعقيد	العتاد	حالة الاستخدام
SFT فقط	منخفض	8GB+	تعليم مهام جديدة
SFT + DPO	متوسط	16GB+	الجودة + المحاذاة
RLHF كامل	عالي	80GB+	البحث، محاذاة معقدة

خط الأنابيب الحديث (2026)

معظم الممارسين يتبعون هذا الخط:

النموذج الأساسي → SFT (تعليم المهارات) → DPO (تحسين الجودة)
       ↓                  ↓                       ↓
   Llama 3.2      مجموعة بيانات مخصصة       بيانات التفضيل

نصيحة احترافية: ابدأ بـ SFT. أضف DPO فقط إذا احتجت لتحسين جودة الاستجابة أو المحاذاة. تخطَّ RLHF ما لم تكن تجري بحثاً.

المصطلحات الأساسية

المصطلح	التعريف
المحول (Adapter)	وحدة صغيرة قابلة للتدريب تُضاف للنموذج المجمد
LoRA	تكيف الرتبة المنخفضة - أشهر طريقة PEFT
الرتبة (r)	حجم مصفوفات LoRA (أعلى = سعة أكثر)
ألفا (Alpha)	معامل القياس لتحديثات LoRA
الوحدات المستهدفة	أي الطبقات نضيف لها المحولات

بعد ذلك، سنتعمق في طرق PEFT ونفهم كيف يعمل LoRA. :::