أنواع الضبط الدقيق
ليس كل ضبط دقيق متساوياً. دعنا نستكشف الأساليب المختلفة ومتى نستخدم كل منها.
الضبط الدقيق الكامل مقابل PEFT
الضبط الدقيق الكامل
يحدّث جميع معاملات النموذج أثناء التدريب.
| الإيجابيات | السلبيات |
|---|---|
| أقصى إمكانية للتحسين | يتطلب ذاكرة GPU ضخمة |
| تخصيص كامل للنموذج | خطر النسيان الكارثي |
| يعمل لأي مهمة | مكلف وبطيء |
العتاد المطلوب: 80GB+ VRAM لنموذج 7B، عدة A100s لـ 70B
الضبط الدقيق الموفر للمعاملات (PEFT)
يحدّث فقط مجموعة فرعية صغيرة من المعاملات (عادة <1%).
| الإيجابيات | السلبيات |
|---|---|
| 10-100 مرة أقل ذاكرة | سقف أقل قليلاً من الضبط الكامل |
| تدريب سريع | يتطلب فهم المحولات |
| لا نسيان كارثي | |
| سهولة تبديل المحولات |
العتاد المطلوب: 8-24GB VRAM لمعظم النماذج مع QLoRA
أهداف التدريب: SFT مقابل DPO مقابل RLHF
الضبط الدقيق المُشرف عليه (SFT)
أبسط نهج: التدريب على أزواج (تعليمة، استجابة).
# مثال تدريب SFT
dataset = [
{"instruction": "اكتب قصيدة عن الذكاء الاصطناعي", "response": "أحلام السيليكون..."},
{"instruction": "اشرح الحوسبة الكمية", "response": "الحوسبة الكمية تستخدم..."}
]
الأفضل لـ: تعليم مهارات جديدة، معرفة المجال، صيغ الإخراج
التحسين المباشر للتفضيلات (DPO)
التدريب على أزواج التفضيل: أي استجابة أفضل؟
# مثال تدريب DPO
dataset = [
{
"prompt": "اشرح التكرار",
"chosen": "التكرار هو عندما تستدعي دالة نفسها...", # استجابة جيدة
"rejected": "التكرار معقد. ابحث عنه." # استجابة سيئة
}
]
الأفضل لـ: تحسين جودة الاستجابة، المحاذاة، النبرة
RLHF (التعلم المعزز من الملاحظات البشرية)
تقنية المحاذاة الأصلية، أكثر تعقيداً من DPO.
خط الأنابيب: نموذج SFT → تدريب نموذج المكافأة → تحسين PPO
الأفضل لـ: متطلبات المحاذاة المعقدة (تُستخدم عادة من قبل المختبرات)
المقارنة: متى نستخدم كل نهج
| النهج | التعقيد | العتاد | حالة الاستخدام |
|---|---|---|---|
| SFT فقط | منخفض | 8GB+ | تعليم مهام جديدة |
| SFT + DPO | متوسط | 16GB+ | الجودة + المحاذاة |
| RLHF كامل | عالي | 80GB+ | البحث، محاذاة معقدة |
خط الأنابيب الحديث (2026)
معظم الممارسين يتبعون هذا الخط:
النموذج الأساسي → SFT (تعليم المهارات) → DPO (تحسين الجودة)
↓ ↓ ↓
Llama 3.2 مجموعة بيانات مخصصة بيانات التفضيل
نصيحة احترافية: ابدأ بـ SFT. أضف DPO فقط إذا احتجت لتحسين جودة الاستجابة أو المحاذاة. تخطَّ RLHF ما لم تكن تجري بحثاً.
المصطلحات الأساسية
| المصطلح | التعريف |
|---|---|
| المحول (Adapter) | وحدة صغيرة قابلة للتدريب تُضاف للنموذج المجمد |
| LoRA | تكيف الرتبة المنخفضة - أشهر طريقة PEFT |
| الرتبة (r) | حجم مصفوفات LoRA (أعلى = سعة أكثر) |
| ألفا (Alpha) | معامل القياس لتحديثات LoRA |
| الوحدات المستهدفة | أي الطبقات نضيف لها المحولات |
بعد ذلك، سنتعمق في طرق PEFT ونفهم كيف يعمل LoRA. :::