StepFun تطلق Step3: نموذج متعدد الوسائط عالي الأداء والتوفير

أطلقت شركة StepFun نموذجها الجديد Step3، الذي يجمع بين كفاءة الأداء في الاستدلال متعدد الوسائط وانخفاض التكلفة، متفوّقًا على أبرز النماذج المنافسة.

تفاصيل الخبر

أعلنت شركة StepFun عن إطلاق نموذجها المتعدد الوسائط الجديد Step3، والذي يتميز بكفاءته العالية في المعالجة وسعره المنخفض مقارنةً بالنماذج المنافسة مثل Kimi K2 وQwen3 وLLaMA 4 Maverick.

أهم ميزات Step3:

  • مبني على بنية Mixture-of-Experts تضم 321 مليار معلمة، منها 38 مليار نشطة فقط أثناء التفعيل.
  • يستخدم Multi-Matrix Factorization Attention (MFA) لتقليل تكلفة الانتباه بنسبة تصل إلى 78% مقارنة بـ DeepSeek V3.
  • يتمتع بقدرة على معالجة سياقات بطول 800 ألف توكن عبر 8 وحدات GPU بسعة 48 GB فقط.
  • يتفوّق في الأداء على DeepSeek-V3، محققًا 4039 توكن/ثانية لكل GPU باستخدام دقة FP8.
  • يستخدم ترميز بصري مبني على Eva-CLIP 5B لضغط الصور ودمجها بكفاءة مع النصوص.
  • تم تدريبه على أكثر من 24 تريليون توكن، منها 4T توكنات من بيانات متعددة الوسائط.

الأهداف المستقبلية

تركز شركة StepFun في تطوير Step3 على عدّة أهداف استراتيجية:

  • تحسين دقة الإدراك البصري مع الحفاظ على جودة الاستدلال اللغوي.
  • معالجة ظاهرة “الخبراء الميتين” في بنية MoE لتحسين استغلال النماذج الديناميكية.
  • تعزيز كفاءة الترميز طويل المدى لتسريع الإنتاجية وتحقيق أداء مستقر في سيناريوهات السياق الطويل.
  • توسيع توافق النموذج مع وحدات تسريع مختلفة باستخدام مكتبة StepMesh المبنية على GPUDirect RDMA.

يقدّم Step3 نقلة نوعية في عالم النماذج متعددة الوسائط، جامعًا بين الأداء العالي والكفاءة التشغيلية. وهو خيار واعد للمطورين والباحثين الباحثين عن التوازن بين الجودة والتكلفة.

مقالات مشابهة