Qsarpress

ما في ذلك السياسة والأعمال والتكنولوجيا والحياة والرأي والرياضة.

يمكن لنموذج VLOGGER AI من Google إنشاء صور رمزية للفيديو من الصور – ما الخطأ الذي يمكن أن يحدث؟

google-2024-vlogger-splash-image.png

يستطيع VLOGGER التقاط صورة واحدة لشخص ما وإنشاء مقاطع تحتوي على تعبيرات وجه وحركات جسدية دقيقة، بدقة أكبر وأطوال متفاوتة مقارنة بالأنواع السابقة من برامج “الرأس الناطق”.

جوجل

إن مجتمع الذكاء الاصطناعي (AI) جيد جدًا في إنتاج صور متحركة مزيفة – انظر فقط إلى Sora من OpenAI، الذي تم تقديمه الشهر الماضي، مع تحليقاته التخيلية الرائعة – بحيث يتعين على المرء أن يطرح سؤالاً فكريًا وعمليًا: ما الذي نحن عليه؟ من المفترض أن تفعل مع كل هذه أشرطة الفيديو؟

إضافي: تنشر OpenAI نموذج تحويل النص إلى فيديو وكانت النتائج مذهلة. انظر بنفسك

أجاب الباحث في Google إنريكي كورونا وزملاؤه هذا الأسبوع: تحكم فيهم باستخدام أداة VLOGGER الخاصة بنا. يمكن لـ VLOGGER إنشاء مقطع فيديو عالي الدقة لأشخاص يتحدثون بناءً على صورة. والأهم من ذلك، أن VLOGGER يمكنه تحريك الفيديو وفقًا لنموذج الكلام، مما يعني أن التكنولوجيا يمكنها تحريك مقاطع الفيديو كمظهر متحكم فيه للشخص – “صورة رمزية” عالية الدقة.

يمكن لهذه الأداة تنفيذ جميع أنواع الأعمال. على مستوى أبسط، يقترح فريق كورونا أن مدوني الفيديو يمكن أن يكون لهم تأثير كبير على الصور الرمزية لمكتب المساعدة لأن البشر الأكثر واقعية والذين يتحدثون بشكل مصطنع “يمكنهم تطوير التعاطف”. ويشيرون إلى أن التكنولوجيا “يمكن أن تتيح حالات استخدام جديدة تمامًا، مثل الاتصال المعزز عبر الإنترنت أو التعليم أو المساعدين الافتراضيين الشخصيين”.

يقود VLOGGER حدودًا جديدة في التزييف العميق، حيث يقول ويفعل أشياء لن يفعلها أي شخص حقيقي أبدًا. يود فريق كورونا أن يأخذ في الاعتبار الآثار الاجتماعية لـ VLOGGER في دعم المحتوى. لكن السلعة لم تكن متوفرة على صفحة جيثب الخاصة بالمشروع. تواصلت ZDNET مع كورونا للسؤال عن الملحقات لكنها لم تتلق ردًا حتى وقت النشر.

إضافي: يقول العلماء إنه مع انتشار عملاء الذكاء الاصطناعي، تزداد المخاطر أيضًا

كما هو موضح في الورقة الرسمية “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”، يهدف فريق كورونا إلى التغلب على أحدث الأخطاء في الصور الرمزية. وكتب فريق كورونا: “إن إنشاء مقاطع فيديو واقعية للبشر لا يزال معقدًا وناضجًا بالقطع الأثرية”.

لاحظت المجموعة أن الصور الرمزية الموجودة في الفيديو غالبًا ما تقطع الجسم واليدين، وتظهر الوجه فقط. يستطيع VLOGGER إظهار الجذع الكامل بإيماءات اليد. عادةً ما تحتوي الأدوات الأخرى على اختلافات محدودة عبر تعبيرات الوجه أو الأوضاع، مما يوفر مزامنة أساسية للشفاه. يمكن لـ VLOGGER إنشاء “فيديو عالي الدقة لحركة الرأس والجزء العلوي من الجسم […] يحتوي على تعبيرات وإيماءات وجه مختلفة إلى حد كبير” و”المنهج الأول لجعل البشر يتحدثون ويتحركون بمدخلات الكلام المحددة.”

وكما أوضح فريق البحث: «هذا هو بالضبط الأتمتة والواقع السلوكي [are] ما نهدف إليه في هذا العمل: VLOGGER عبارة عن واجهة متعددة الوسائط لعامل محادثة متجسد، ومجهزة بالتمثيل المرئي الصوتي والمتحرك، وتعبيرات الوجه المعقدة وزيادة حركة الجسم، وهي مصممة لدعم المحادثات الطبيعية مع مستخدم بشري.

google-2024-vlogger-example

استنادًا إلى الصورة، على اليسار، يتنبأ برنامج VLOGGER بإطارات الفيديو وكل لحظة من الملف الصوتي حيث يتحدث شخص ما، وذلك باستخدام عملية تسمى “الانتشار” لجعل إطارات الفيديو هذه أكبر. – جودة التعريف.

جوجل

يجمع VLOGGER بعضًا من أحدث الاتجاهات في التعلم العميق.

تدمج الوسائط المتعددة طرائق متعددة يمكن لأدوات الذكاء الاصطناعي استيعابها ودمجها، بما في ذلك النص والصوت وكذلك الصور والفيديو.

تتيح نماذج اللغات الكبيرة، مثل GPT-4 من OpenAI، إمكانية استخدام اللغة الطبيعية كمدخل لتوجيه أنواع مختلفة من الإجراءات، مثل فقرات النص أو الأغنية أو الصورة.

لقد وجد الباحثون طرقًا عديدة لإنشاء صور ومقاطع فيديو نابضة بالحياة في السنوات الأخيرة من خلال تحسين “الانتشار”. يأتي هذا المصطلح من الفيزياء الجزيئية ويشير إلى أنه مع ارتفاع درجة الحرارة، تتحول جزيئات المادة من كونها أكثر تركيزًا في منطقة واحدة إلى أكثر انتشارًا. وعلى سبيل القياس، يمكن النظر إلى أجزاء المعلومات الرقمية على أنها “انتشار” تصبح غير ذات صلة بالضوضاء الرقمية.

إضافي: انتقل إلى برج الجوزاء، حيث يتمتع الذكاء الاصطناعي مفتوح المصدر بحيل الفيديو الخاصة به

يقوم نشر الذكاء الاصطناعي بإدخال الضوضاء في الصورة وإعادة بناء الصورة الأصلية لتدريب الشبكة العصبية للعثور على القواعد التي بنتها. يعد الانتشار هو السبب الجذري لعملية توليد الصور الرائعة في Stable Diffusion الخاص بـ Stability AI وDALL-E الخاص بـ OpenAI. وهذه أيضًا هي الطريقة التي ينشئ بها OpenAI مقاطع فيديو رائعة في Sora.

بالنسبة إلى VLOGGER، قام فريق كورونا بتدريب شبكة عصبية لمطابقة صوت مكبر الصوت مع إطارات الفيديو الفردية لذلك المتحدث. قام الفريق بدمج عملية نشر تعيد بناء إطار الفيديو من الصوت باستخدام ابتكار حديث آخر، وهو المحول.

يستخدم المحول، إلى جانب الصوت، طريقة الانتباه للتنبؤ بإطارات الفيديو بناءً على الإطارات التي حدثت في الماضي. ومن خلال التنبؤ بالإجراءات، تتعلم الشبكة العصبية مزامنة حركات اليد والجسم الدقيقة وتعبيرات الوجه، إطارًا تلو الآخر، مع الصوت.

الخطوة الأخيرة هي استخدام التنبؤات من تلك الشبكة العصبية الأولى لتشغيل شبكة عصبية ثانية لإنشاء إطارات فيديو عالية الدقة. هذه الخطوة الثانية هي أيضًا علامة المياه العالية في البيانات.

إضافي: يفشل الذكاء الاصطناعي التوليدي في هذه القدرة العامة للتفكير البشري

ولإنشاء صور عالية الدقة، قام فريق كورونا بتجميع Mentor، وهي مجموعة من 800000 مقطع فيديو لأشخاص يتحدثون “الإشارات”. يحتوي MENTOR على 2200 ساعة من الفيديو، والتي يقول الفريق إنها “أكبر مجموعة بيانات تم استخدامها على الإطلاق من حيث المعرفات والطول” وهي أكبر بعشر مرات من مجموعات البيانات المماثلة السابقة.

وجد المؤلفون أنه يمكن تحسين العملية من خلال خطوة متابعة تسمى “الضبط الدقيق”. من خلال إرسال مقطع فيديو كامل إلى VLOGGER، بعد أن تم بالفعل “تدريبه مسبقًا” على Mentor، يمكنهم التقاط خصائص حركات رأس الشخص بشكل أكثر واقعية، مثل ومضات العين: “من خلال الضبط الدقيق لنموذج الانتشار الخاص بنا باستخدام المزيد من البيانات، في مقطع فيديو أحادي العين لموضوع ما، يحدد VLOGGER “يمكنه تعلم الالتقاط بشكل أفضل، على سبيل المثال عندما تظهر الصورة المرجعية العيون مغلقة”، وهي عملية يشير إليها الفريق باسم “التخصيص”.

google-2024-vlogger-architecture

الشبكة العصبية لـ VLOGGER عبارة عن مزيج من شبكتين عصبيتين مختلفتين. يستخدم أولاً “انتباه القناع” عبر محول للتنبؤ بما يجب أن يحدث في إطار الفيديو بناءً على الصوت القادم من الإشارة الصوتية المسجلة للمتحدث. تستخدم الشبكة العصبية الثانية آثار حركة الجسم والتعبير من الشبكة العصبية الأولى لإنشاء تسلسل موحد لإطارات الفيديو.

جوجل

إن الشيء العظيم في هذا النهج – الجمع بين التنبؤات من الشبكة العصبية مع صور عالية الدقة وإثارة VLOGGER – هو أن البرنامج لا يقوم بإنشاء فيديو كما يفعل Sora. يجمع VLOGGER هذا الفيديو مع الإجراءات والتعبيرات التي يمكن التحكم فيها. يمكن التلاعب بمقاطع الفيديو المفعمة بالحيوية أثناء فتحها مثل الدمى.

إضافي: الرئيس التنفيذي لشركة Nvidia Jensen Huang يكشف النقاب عن عائلة شرائح “Blackwell” من الجيل التالي في GTC

وكتب فريق كورونا: “هدفنا هو سد الفجوة بين الجهود الحالية لتركيب الفيديو، لنكون قادرين على إنشاء مقاطع فيديو ديناميكية دون قيود على الهوية أو الوضع وطرق توليد الصور التي يمكن التحكم فيها”.

لا يمكن أن يكون VLOGGER عبارة عن صورة رمزية تعتمد على الصوت فحسب، بل يمكن أن يؤدي أيضًا إلى وظائف التحرير مثل تغيير فم أو عيون الشخص الذي يتحدث. على سبيل المثال، يمكن تغيير الشخص الافتراضي الذي يرمش كثيرًا في مقطع فيديو إلى يرمش قليلاً أو لا يرمش على الإطلاق. يمكن اختزال الكلام بفم واسع إلى حركة منفصلة للشفاه.

google-2024-vlogger-edited-videos.png

من خلال تحقيق طريقة للتحكم في الفيديو عالي الدقة باستخدام الإشارات الصوتية، يفتح VLOGGER الطريق للتلاعب مثل جعل حركات شفاه المتحدث مختلفة عن الفيديو المصدر الأصلي في كل مقطع من الفيديو.

مدون فيديو

سؤال لم يجيب عليه فريق كورونا هو ماذا يجب أن يتوقع العالم من سوء استخدام التكنولوجيا بعد أن وصلت إلى مستوى جديد من محاكاة البشر. من السهل أن نتخيل شخصية سياسية تقول شيئاً مدمراً للغاية حول حرب نووية وشيكة.

من المفترض أن المستوى التالي من لعبة الصور الرمزية هذه سيكون الشبكات العصبية.اختبار فويت كامبف“في فيلم Blade Runner، يساعد المجتمع في اكتشاف المتحدثين الحقيقيين والذين يجرون محادثات عميقة مع تجارب حياتية مهمة.

READ  رئيس نينتندو يحذر من نقص المخزون هذا العام