نظرة عامة
يقدم هذا الدليل تعليمات مفصلة حول نشر وتشغيل نموذج Mistral في بيئتك المحلية. سنغطي العملية الكاملة من الإعداد الأساسي إلى خيارات النشر المتقدمة، ومساعدتك في اختيار استراتيجية النشر الأنسب.
إعداد البيئة
المتطلبات الأساسية
- وحدة معالجة الرسومات NVIDIA (يوصى بـ A100 أو H100) أو AMD GPU
- ذاكرة نظام كافية (يوصى بـ 32 جيجابايت+)
- نظام تشغيل Linux (يوصى بـ Ubuntu 20.04 أو أعلى)
- Python 3.8 أو أعلى
إعداد الكود والنموذج
- استنساخ المستودع الرسمي:
git clone https://github.com/Mistral-ai/Mistral-V3.git
cd Mistral-V3/inference
pip install -r requirements.txt
- تحميل أوزان النموذج:
- تحميل أوزان النموذج الرسمية من HuggingFace
- وضع ملفات الأوزان في الدليل المحدد
خيارات النشر
1. نشر Mistral-Infer Demo
هذه هي طريقة النشر الأساسية، مناسبة للاختبارات السريعة والتجارب:
python convert.py --hf-ckpt-path /path/to/Mistral-V3 \
--save-path /path/to/Mistral-V3-Demo \
--n-experts 256 \
--model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
--node-rank $RANK \
--master-addr $ADDR \
--ckpt-path /path/to/Mistral-V3-Demo \
--config configs/config_671B.json \
--interactive \
--temperature 0.7 \
--max-new-tokens 200
2. نشر SGLang (موصى به)
يوفر SGLang v0.4.1 أداءً مثالياً:
- دعم تحسين MLA
- دعم FP8 (W8A8)
- دعم ذاكرة التخزين المؤقت KV FP8
- دعم Torch Compile
- دعم وحدات معالجة الرسومات NVIDIA و AMD
3. نشر LMDeploy (موصى به)
يوفر LMDeploy حلول نشر على مستوى المؤسسات:
- معالجة خط الأنابيب غير المتصل
- نشر الخدمة عبر الإنترنت
- تكامل سير عمل PyTorch
- أداء استدلال محسّن
4. نشر TRT-LLM (موصى به)
ميزات TensorRT-LLM:
- دعم أوزان BF16 و INT4/INT8
- دعم FP8 قادم
- سرعة استدلال محسّنة
5. نشر vLLM (موصى به)
ميزات vLLM v0.6.6:
- دعم وضع FP8 و BF16
- دعم وحدات معالجة الرسومات NVIDIA و AMD
- قدرة التوازي في خط الأنابيب
- نشر موزع متعدد الأجهزة
نصائح تحسين الأداء
-
تحسين الذاكرة:
- استخدام التكميم FP8 أو INT8 لتقليل استخدام الذاكرة
- تفعيل تحسين ذاكرة التخزين المؤقت KV
- تعيين أحجام الدفعات المناسبة
-
تحسين السرعة:
- تفعيل Torch Compile
- استخدام التوازي في خط الأنابيب
- تحسين معالجة المدخلات/المخرجات
-
تحسين الاستقرار:
- تنفيذ آليات معالجة الأخطاء
- إضافة المراقبة والتسجيل
- فحوصات منتظمة لموارد النظام
المشاكل الشائعة والحلول
-
مشاكل الذاكرة:
- تقليل حجم الدفعة
- استخدام دقة أقل
- تفعيل خيارات تحسين الذاكرة
-
مشاكل الأداء:
- التحقق من استخدام وحدة معالجة الرسومات
- تحسين تكوين النموذج
- ضبط استراتيجيات التوازي
-
أخطاء النشر:
- التحقق من تبعيات البيئة
- التحقق من أوزان النموذج
- مراجعة السجلات المفصلة
الخطوات التالية
بعد النشر الأساسي، يمكنك:
- إجراء اختبارات الأداء
- تحسين معلمات التكوين
- التكامل مع الأنظمة الحالية
- تطوير ميزات مخصصة
الآن لديك إتقان للطرق الرئيسية للنشر المحلي لـ Mistral. اختر خيار النشر الأنسب لاحتياجاتك وابدأ في بناء تطبيقات الذكاء الاصطناعي الخاصة بك!