Tool Description
نقدم DeepSeek-V3، وهو نموذج لغوي قوي لمزيج من الخبراء (MoE) مع 671B معلمة إجمالية مع 37B مفعلة لكل رمز. لتحقيق استدلال فعال وتدريب فعال من حيث التكلفة، يتبنى DeepSeek-V3 بنيات الاهتمام الكامن متعدد الرؤوس (MLA) وDeepSeekMoE، والتي تم التحقق من صحتها تمامًا في DeepSeek-V2. علاوة على ذلك، يبتكر DeepSeek-V3 استراتيجية خالية من الخسارة المساعدة لموازنة الحمل ويضع هدف تدريب التنبؤ بالرموز المتعددة لأداء أقوى. نقوم بتدريب DeepSeek-V3 مسبقًا على 14.8 تريليون رمز متنوع وعالي الجودة، متبوعًا بمراحل الضبط الدقيق والإشراف والتعلم المعزز للاستفادة الكاملة من قدراته. تكشف التقييمات الشاملة أن DeepSeek-V3 يتفوق على نماذج مفتوحة المصدر الأخرى ويحقق أداءً مماثلًا لنماذج المصدر المغلق الرائدة. على الرغم من أدائها الممتاز، لا تتطلب DeepSeek-V3 سوى 2.788 مليون ساعة من وحدة معالجة الرسوميات H800 لتدريبها بالكامل. بالإضافة إلى ذلك، فإن عملية تدريبها مستقرة بشكل ملحوظ. طوال عملية التدريب بالكامل، لم نواجه أي ارتفاعات في الخسارة لا يمكن تعويضها أو إجراء أي عمليات تراجع.
يمكنك الدردشة مع DeepSeek-V3 على الموقع الرسمي لـ DeepSeek: chat.deepseek.com
نحن نقدم أيضًا واجهة برمجة تطبيقات متوافقة مع OpenAI في منصة DeepSeek: platform.deepseek.com
Add a review