مولد الذكاء الاصطناعي الجديد يحول النص إلى الفيديو عبر Meta DALL-E

يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو من Meta DALL-E
يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو - الصورة من موقع theverge
يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو من Meta DALL-E
يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو - الصورة من موقع theverge
يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو من Meta DALL-E
يشبه مولد الذكاء الاصطناعي الجديد لتحويل النص إلى الفيديو من Meta DALL-E
2 صور

تصدرت مولدات تحويل النص إلى صورة بالذكاء الاصطناعي عناوين الأخبار في الأشهر الأخيرة، لكن الباحثين ينتقلون بالفعل إلى الحدود التالية: مولدات الذكاء الاصطناعي لتحويل النص إلى فيديو.

كشف فريق من مهندسي التعلم الآلي من شركة Meta الأم لفيسبوك النقاب عن نظام جديد يسمى Make-A-Video كما يوحي الاسم، فإن نموذج الذكاء الاصطناعي هذا يسمح للمستخدمين بكتابة وصف تقريبي للمشهد، وسيقوم بإنشاء مقطع فيديو قصير يطابق نصهم،من الواضح أن مقاطع الفيديو مصطنعة، وتحتوي على مواضيع غير واضحة ورسوم متحركة مشوهة، ولكنها لا تزال تمثل تطورًا مهمًا في مجال إنشاء محتوى الذكاء الاصطناعي.

يعلن ال ميتا في منشور مدونة عن العمل: "تعمل أبحاث الذكاء الاصطناعي التوليفية على دفع التعبير الإبداعي إلى الأمام من خلال منح الأشخاص أدوات لإنشاء محتوى جديد بسرعة وسهولة". "من خلال بضع كلمات أو سطور نصية، يمكن لـ Make-A-Video إضفاء الحيوية على الخيال وإنشاء مقاطع فيديو فريدة من نوعها مليئة بالألوان الزاهية والمناظر الطبيعية."

في منشور على فيسبوك، وصف مارك زوكربيرج، الرئيس التنفيذي لشركة Meta، العمل بأنه "تقدم مذهل"، مضيفًا: "من الصعب جدًا إنشاء فيديو مقارنة بالصور لأنه بالإضافة إلى إنشاء كل بكسل بشكل صحيح، يتعين على النظام أيضًا توقع كيفية تغيرها بمرور الوقت. "

لا تزيد مدة المقاطع عن خمس ثوانٍ ولا تحتوي على صوت ولكنها تغطي نطاقًا كبيرًا من المطالبات أفضل طريقة للحكم على أداء النموذج هي مراقبة ناتجها تم إنشاء كل مقطع فيديو بواسطة Make-A-Video وتم تسميته بالموجه المستخدم لإنشاء الفيديو، والذي لا يسمح حاليًا لأي شخص بالوصول إلى النموذج هذا يعني أنه كان من الممكن اختيار المقاطع لإظهار النظام في أفضل حالاته.

مرة أخرى، في حين أنه من الواضح أن مقاطع الفيديو هذه تم إنشاؤها بواسطة الكمبيوتر، فإن إخراج نماذج الذكاء الاصطناعي هذه سوف يتحسن بسرعة في المستقبل القريب على سبيل المقارنة، في غضون بضع سنوات فقط، تحولت أدوات إنشاء الصور بالذكاء الاصطناعي من إنشاء صور حدودية غير مفهومة إلى محتوى واقعي وعلى الرغم من أن التقدم في الفيديو قد يكون أبطأ نظرًا للتعقيد اللامحدود للموضوع، فإن جائزة إنشاء الفيديو السلس ستحفز العديد من المؤسسات والشركات على ضخ موارد كبيرة في المشروع.

في منشور مدونة Meta للإعلان عن Make-a-Video، لاحظت الشركة أن أدوات إنشاء الفيديو يمكن أن تكون ذات قيمة "للمبدعين والفنانين" ولكن، كما هو الحال مع نماذج تحويل النص إلى صورة، هناك احتمالات مقلقة أيضًا. يمكن استخدام مخرجات هذه الأدوات للتضليل، والدعاية، و- على الأرجح، بناءً على ما رأيناه مع أنظمة الصور بالذكاء الاصطناعي والتزييف العميق- لإنتاج مواد غير أخلاقية.

تقول Meta إنها تريد أن تكون "مدروسة حول كيفية بناء أنظمة ذكاء اصطناعي جديدة مثل هذه" وتنشر حاليًا فقط ورقة بحثية عن نموذج Make-A-Video. تقول الشركة إنها تخطط لإطلاق عرض توضيحي للنظام لكنها لا تذكر متى أو كيف يمكن تقييد الوصول إلى النموذج.

تجدر الإشارة أيضًا إلى أن Meta ليست المؤسسة الوحيدة التي تعمل على مولدات فيديو AI. في وقت سابق من هذا العام، على سبيل المثال، أصدرت مجموعة من الباحثين من جامعة تسينغهوا وأكاديمية بكين للذكاء الاصطناعي (BAAI) نموذجهم الخاص لتحويل النص إلى فيديو، المسمى CogVideo (النموذج الآخر الوحيد المتاح للجمهور لتحويل النص إلى فيديو).

في ورقة بحثية تصف النموذج، لاحظ باحثو Meta أن Make-A-Video يتدرب على أزواج من الصور والتعليقات التوضيحية بالإضافة إلى لقطات فيديو غير مسماة. تم الحصول على محتوى التدريب من مجموعتي بيانات ( WebVid-10M و HD-VILA-100M )، والتي تحتوي معًا على ملايين مقاطع الفيديو التي تمتد لمئات الآلاف من الساعات من اللقطات. يتضمن ذلك لقطات فيديو مخزنة تم إنشاؤها بواسطة مواقع مثل Shutterstock وتم إزالتها من الويب.

لاحظ الباحثون في الورقة البحثية أن النموذج به العديد من القيود التقنية التي تتجاوز اللقطات الباهتة والرسوم المتحركة المفككة على سبيل المثال، أساليب تدريبهم غير قادرة على تعلم المعلومات التي قد يستدل عليها فقط من قبل الإنسان الذي يشاهد مقطع فيديو على سبيل المثال، ما إذا كان مقطع فيديو يلوح بيده يتجه من اليسار إلى اليمين أو من اليمين إلى اليسار، تتضمن المشكلات الأخرى إنشاء مقاطع فيديو أطول من خمس ثوانٍ، ومقاطع فيديو بمشاهد وأحداث متعددة، ودقة أعلى. تنتج Make-A-Video حاليًا 16 إطارًا من الفيديو بدقة 64 × 64 بكسل، والتي يتم زيادة حجمها باستخدام نموذج AI منفصل إلى 768 × 768.

يلاحظ فريق Meta أيضًا أنه، مثل جميع نماذج الذكاء الاصطناعي المدربة على البيانات المأخوذة من الويب، "تعلمت Make-A-Video التحيزات الاجتماعية وربما بالغت فيها، بما في ذلك التحيزات الضارة". في نماذج النص إلى الصورة، غالبًا ما تعزز هذه التحيزات التحيزات الاجتماعية.

تقول Meta إنها "تشارك علانية هذا البحث التوليدي للذكاء الاصطناعي والنتائج مع المجتمع للحصول على تعليقاتهم، وستستمر في استخدام إطار عمل الذكاء الاصطناعي المسؤول لدينا لتحسين وتطوير نهجنا لهذه التكنولوجيا الناشئة."

تابعوا المزيد: اكتشفها فورا.. 3 علامات تؤكد على أن شخصا ما يقرأ رسائلك الخاصة على واتساب

يمكنكم متابعة آخر الأخبار عبر حساب سيدتي على تويتر