Movie Gen من ميتا يمثل قفزة هائلة للأمام في مجال الفيديو بالذكاء الاصطناعي

فاتن صابر

منذ 11 شهور

Movie Gen من ميتا يمثل قفزة هائلة للأمام في مجال الفيديو بالذكاء الاصطناعي

في هذه المرحلة، ربما تعجبك فكرة إنشاء مقاطع فيديو واقعية باستخدام الذكاء الاصطناعي التوليدي، أو تعتقد أنها مسعى مفلس أخلاقيًا يقلل من قيمة الفنانين وسيؤدي إلى عصر كارثي من التزييف العميق الذي لن نهرب منه أبدًا. ومن الصعب إيجاد أرضية مشتركة. لن تغير Meta رأيها مع Movie Gen، أحدث نموذج للذكاء الاصطناعي لإنشاء الفيديو، ولكن بغض النظر عن رأيك حول إنشاء وسائط الذكاء الاصطناعي، فقد يصبح في نهاية المطاف علامة بارزة في الصناعة.

يستطيع Movie Gen إنتاج مقاطع فيديو واقعية إلى جانب الموسيقى والمؤثرات الصوتية بمعدل 16 إطارًا في الثانية أو 24 إطارًا في الثانية ودقة تصل إلى 1080 بكسل (تمت ترقيتها من 768 × 768 بكسل). يمكن أيضًا إنشاء مقاطع فيديو مخصصة عند تحميل صورة، والأهم من ذلك أنه يبدو من السهل تحرير مقاطع الفيديو باستخدام أوامر نصية بسيطة. على وجه الخصوص، يمكن استخدامه أيضًا لتحرير مقاطع الفيديو العادية غير المدعومة بالذكاء الاصطناعي والتي تحتوي على نص. من السهل أن تتخيل مدى فائدة ذلك في تنظيف شيء قمت بتصويره على هاتفك من أجل Instagram. يعد Movie Gen بحثًا بحتًا في الوقت الحالي – ولن تقوم Meta بإصداره للجمهور، لذلك لدينا بعض الوقت للتفكير في ما يعنيه كل ذلك.

تصف الشركة Movie Gen بأنه “الموجة الثالثة” من أبحاث الذكاء الاصطناعي التوليدي، بعد أدوات إنشاء الوسائط المبكرة مثل Make-A-Scene بالإضافة إلى العروض الأحدث باستخدام نموذج Llama AI. يتم تشغيله بواسطة نموذج محول ذو 30 مليار معلمة يمكنه إنتاج مقاطع فيديو مدتها 16 ثانية بمعدل 16 إطارًا في الثانية أو لقطات مدتها 10 ثوانٍ بمعدل 24 إطارًا في الثانية. كما يتميز أيضًا بنموذج صوتي يحتوي على 13 مليار معلمة يمكنه إنتاج 45 ثانية من محتوى 48 كيلو هرتز مثل “الأصوات المحيطة ومؤثرات صوت فولي وموسيقى الخلفية الموسيقية” المتزامنة مع الفيديو. “بسبب قراراتنا المتعلقة بالتصميم،” لا يوجد دعم للصوت المتزامن حتى الآن، حسبما كتب فريق Movie Gen في مقالته.

وفقًا لـ Meta، تم تدريب Movie Gen في البداية على “مجموعة من مجموعات البيانات المرخصة والمتاحة للجمهور”، بما في ذلك ما يقرب من 100 مليون مقطع فيديو ومليار صورة ومليون ساعة من الصوت. تعد لغة الشركة غامضة بعض الشيء عندما يتعلق الأمر بالمصادر، فقد اعترفت شركة Meta بالفعل بتدريب نماذج الذكاء الاصطناعي الخاصة بها على البيانات من حسابات كل مستخدم أسترالي، وليس من الواضح حتى ما تستخدمه الشركة خارج منتجاتها الخاصة.

وفيما يتعلق بمقاطع الفيديو الفعلية، يبدو Movie Gen بالتأكيد مثيرًا للإعجاب للوهلة الأولى. تقول Meta إنه في اختبار A/B الخاص بها، فضل الأشخاص عمومًا النتائج على نموذج Sora الخاص بـ OpenAI ونموذج Runway’s Gen3. يبدو البشر الذين يعتمدون الذكاء الاصطناعي في Movie Gen واقعيين بشكل مدهش، بدون العديد من العلامات الواضحة لمقاطع فيديو الذكاء الاصطناعي (خاصة تهيج العيون والأصابع). كتب فريق Movie Gen في منشور بالمدونة: “على الرغم من وجود العديد من حالات الاستخدام المثيرة لهذه النماذج الأساسية، فمن المهم ملاحظة أن الذكاء الاصطناعي التوليدي ليس بديلاً عن عمل الفنانين ورسامي الرسوم المتحركة”. “نحن نشارك هذا البحث لأننا نؤمن بقوة هذه التكنولوجيا لمساعدة الأشخاص على التعبير عن أنفسهم بطرق جديدة وتوفير الفرص للأشخاص الذين قد لا تتاح لهم هذه الفرص لولا ذلك.”

ومع ذلك، لا يزال من غير الواضح ما الذي سيفعله المستخدمون العاديون بمقاطع الفيديو المولدة بتقنية الذكاء الاصطناعي. هل سنملأ خلاصاتنا بفيديوهات الذكاء الاصطناعي بدلاً من التقاط الصور ومقاطع الفيديو الخاصة بنا؟ أم سيتم تقسيم Movie Gen إلى أدوات فردية يمكن أن تساعد في تحسين المحتوى الخاص بنا؟ يمكننا بالفعل إزالة الكائنات بسهولة من خلفيات الصور على الهواتف الذكية وأجهزة الكمبيوتر، ويبدو أن تحرير الفيديو الأكثر تقدمًا باستخدام الذكاء الاصطناعي هو الخطوة المنطقية التالية.