نمای کلی
این راهنما دستورالعملهای دقیق استقرار و اجرای مدل Mistral در محیط محلی شما را ارائه میدهد. ما فرآیند کامل از راهاندازی پایه تا گزینههای استقرار پیشرفته را پوشش خواهیم داد و به شما در انتخاب مناسبترین استراتژی استقرار کمک میکنیم.
راهاندازی محیط
نیازمندیهای پایه
- GPU انویدیا (A100 یا H100 توصیه میشود) یا GPU ایامدی
- حافظه سیستم کافی (۳۲ گیگابایت یا بیشتر توصیه میشود)
- سیستم عامل لینوکس (اوبونتو ۲۰.۰۴ یا بالاتر توصیه میشود)
- پایتون ۳.۸ یا بالاتر
آمادهسازی کد و مدل
۱. کلون کردن مخزن رسمی:
git clone https://github.com/Mistral-ai/Mistral-V3.git
cd Mistral-V3/inference
pip install -r requirements.txt
۲. دانلود وزنهای مدل:
- دانلود وزنهای رسمی مدل از HuggingFace
- قرار دادن فایلهای وزن در دایرکتوری مشخص شده
گزینههای استقرار
۱. استقرار نسخه نمایشی Mistral-Infer
این روش پایه استقرار است که برای آزمایش و تجربه سریع مناسب است:
python convert.py --hf-ckpt-path /path/to/Mistral-V3 \
--save-path /path/to/Mistral-V3-Demo \
--n-experts 256 \
--model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
--node-rank $RANK \
--master-addr $ADDR \
--ckpt-path /path/to/Mistral-V3-Demo \
--config configs/config_671B.json \
--interactive \
--temperature 0.7 \
--max-new-tokens 200
۲. استقرار SGLang (توصیه شده)
SGLang نسخه ۰.۴.۱ عملکرد بهینه ارائه میدهد:
- پشتیبانی از بهینهسازی MLA
- پشتیبانی از FP8 (W8A8)
- پشتیبانی از حافظه نهان FP8 KV
- پشتیبانی از Torch Compile
- پشتیبانی از GPU انویدیا و ایامدی
۳. استقرار LMDeploy (توصیه شده)
LMDeploy راهحلهای استقرار سطح سازمانی ارائه میدهد:
- پردازش خط لوله آفلاین
- استقرار سرویس آنلاین
- یکپارچهسازی با گردش کار PyTorch
- عملکرد استنتاج بهینهشده
۴. استقرار TRT-LLM (توصیه شده)
ویژگیهای TensorRT-LLM:
- پشتیبانی از وزن BF16 و INT4/INT8
- پشتیبانی از FP8 در آینده نزدیک
- سرعت استنتاج بهینهشده
۵. استقرار vLLM (توصیه شده)
ویژگیهای vLLM نسخه ۰.۶.۶:
- پشتیبانی از حالت FP8 و BF16
- پشتیبانی از GPU انویدیا و ایامدی
- قابلیت موازیسازی خط لوله
- استقرار توزیعشده چند ماشینه
نکات بهینهسازی عملکرد
۱. بهینهسازی حافظه:
- استفاده از کمیسازی FP8 یا INT8 برای کاهش مصرف حافظه
- فعالسازی بهینهسازی حافظه نهان KV
- تنظیم اندازههای دسته مناسب
۲. بهینهسازی سرعت:
- فعالسازی Torch Compile
- استفاده از موازیسازی خط لوله
- بهینهسازی پردازش ورودی/خروجی
۳. بهینهسازی پایداری:
- پیادهسازی مکانیزمهای مدیریت خطا
- افزودن نظارت و ثبت وقایع
- بررسی منظم منابع سیستم
مشکلات رایج و راهحلها
۱. مشکلات حافظه:
- کاهش اندازه دسته
- استفاده از دقت پایینتر
- فعالسازی گزینههای بهینهسازی حافظه
۲. مشکلات عملکرد:
- بررسی استفاده از GPU
- بهینهسازی پیکربندی مدل
- تنظیم استراتژیهای موازی
۳. خطاهای استقرار:
- بررسی وابستگیهای محیط
- تأیید وزنهای مدل
- بررسی گزارشهای دقیق
گامهای بعدی
پس از استقرار پایه، میتوانید:
- انجام معیارسنجی عملکرد
- بهینهسازی پارامترهای پیکربندی
- یکپارچهسازی با سیستمهای موجود
- توسعه ویژگیهای سفارشی
اکنون شما روشهای اصلی استقرار محلی Mistral را فرا گرفتهاید. گزینه استقراری را که بهترین تناسب را با نیازهای شما دارد انتخاب کنید و شروع به ساخت برنامههای هوش مصنوعی خود کنید!