Meta تطلق SAM Audio لعزل الأصوات باستخدام النصوص والصور

أعلنت شركة Meta عن إطلاق SAM Audio، نموذج متقدم يمكنه عزل أي صوت من ملفات الصوت أو الفيديو باستخدام أوصاف نصية أو نقرات بصرية أو تحديد نقاط زمنية دقيقة.

تفاصيل الخبر

يعتبر SAM Audio نموذجًا متعدد الوسائط ومتطورًا لعزل الصوت، ويتيح للمستخدمين فصل الأصوات المستهدفة عن الخلفية في الموسيقى، الكلام، أو الأصوات العامة باستخدام واجهة بسيطة.
يتميز النموذج بالقدرة على التعامل مع مدخلات نصية، بصرية، وزمنية في آن واحد لتوفير مرونة غير مسبوقة في التحكم بالصوت.

النصوص: يمكن للمستخدم وصف الصوت المستهدف بالكلمات، ليقوم النموذج بعزله بدقة.
النقرات البصرية: يمكن اختيار موقع الصوت في الفيديو لتحديده وفصله.
النطاق الزمني (Span prompts): يمكن تحديد الجزء الزمني الذي يحتوي على الصوت المستهدف لعزله بدقة.
الأداء: SAM Audio يستخدم بنية Diffusion Transformer مع DAC-VAE، ويحقق أداءً متفوقًا على المعايير الحالية لعزل الصوت، مع فصل الصوت المستهدف عن باقي الخلفية بجودة عالية.
البيانات: أطلقت Meta أيضًا مجموعة تقييم OSS فريدة لعزل الصوت باستخدام التعليمات، بما يشمل نموذجًا للقضاة مرتبطًا بالتقييم البشري.
التطبيقات الواقعية: يمكن استخدام النموذج في تطوير تقنيات مساعدة لذوي الإعاقة، وتحسين جودة سماعات الأذن الذكية، وإنشاء محتوى صوتي وفيديو عالي الجودة.

الأهداف المستقبلية

يهدف Meta إلى توسيع قدرات SAM Audio لتوفير أدوات مبتكرة لعزل الأصوات في مختلف المجالات.
ومن أبرز الأهداف:

دمج النموذج في تطبيقات الصحة والسمع لتعزيز تجربة المستخدمين ذوي الاحتياجات الخاصة.
تحسين قدرات الفصل الصوتي في البيئات المعقدة مثل الضوضاء العالية أو تداخل الأصوات.
دعم الشركات الناشئة والمطورين لاستخدام النموذج في مشاريعهم الإبداعية والصوتية.
تقديم أدوات مفتوحة المصدر لزيادة الوصول والابتكار في تقنيات الصوت متعددة الوسائط.

مع إطلاق SAM Audio، تتيح Meta للمطورين والفنانين والباحثين فصل الأصوات بدقة عالية، مما يفتح آفاقًا جديدة في الابتكار الصوتي، وتحسين جودة المحتوى، ودعم التقنيات المساعدة للمجتمعات المختلفة.