تحويل الصور.. بايت دانس تطلق نموذج ذكاء اصطناعي ثوري لتوليد الفيديوهات

أزاحت شركة بايت دانس ByteDance، المالكة لتطبيق تيك توك، الستار مؤخرا عن أداة جديدة للذكاء الاصطناعي قادرة على توليد مقاطع فيديو حية لأشخاص يتحدثون، يعزفون على الآلات الموسيقية، والمزيد باستخدام صورة واحدة فقط.
أداة جديدة من بايت دانس
وتدعى بايت دانس، بأن الأداة الجديدة المعروفة باسم "OmniHuman-1"، تتفوق بكثير عن الأساليب الحالية التي تتبعها نماذج الذكاء الاصطناعي الشهيرة فهو ينتج مقاطع فيديو بدقة تصل إلى 10 أضعاف، حيث تولد مقاطع فيديو واقعية للغاية للبشر بناءً على المدخلات خاصة الصور.
بايت دانس تطلق نموذج ذكاء اصطناعي لتحويل الصور إلى فيديو
في ورقة بحثية نشرت على موقع arXiv، ذكرت الشركة أن الأداة الجديدة يمكنها العمل مع الصور ذات أي نسبة عرض إلى ارتفاع، بغض النظر عن كونها صورا للوجوه فقط، أو نصف الجسم، أو الجسم الكامل، وتقديم “نتائج حية وعالية الجودة عبر سيناريوهات مختلفة”.
وتعد هذه الخطوة من بايت دانس، خطوة متقدمة مقارنة بنماذج الذكاء الاصطناعي الأخرى، حيث يمكن للعديد منها تغيير تعبيرات الوجه فقط أو جعل الأشخاص يتحدثون، على صفحة OmniHuman-1 على منصة Beehiiv، شارك الباحثون عدة مقاطع فيديو توضح كيفية أداء الأداة مع أمثلة تُظهر حركات اليد والجسم من زوايا متعددة، بالإضافة إلى الحيوانات في حالة حركة.
ثورة جديدة في الذكاء الاصطناعي
في مقطع فيديو باللونين الأبيض والأسود، يظهر OmniHuman-1 أداة بايت دانس الجديدة، العالِم المعروف ألبرت أينشتاين وهو يتحدث أمام سبورة ويؤدي حركات يديه ويعرض تعبيرات وجهه، وتقول بايت دانس إن الأداة الجديدة تم تدريبها على أكثر من 18.700 ساعة من مقاطع الفيديو البشرية، ودمجت بين أنواع مختلفة من المدخلات مثل النصوص والصوتيات ووضعيات الجسد.
كما يقترح الباحثون أن OmniHuman-1 تتفوق حاليا على الأنظمة المماثلة عبر العديد من المعايير.
وعلى الرغم من أن OmniHuman-1 الأداة الجديدة من بايت دانس، ليست الأداة الأولى لتوليد الفيديوهات من الصور، إلا أن أداة بايت دانس الجديدة قد تتمتع بميزة تنافسية على منافسيها لأنها ربما تم تدريبها باستخدام مقاطع فيديو من تيك توك.