Qsarpress

ما في ذلك السياسة والأعمال والتكنولوجيا والحياة والرأي والرياضة.

يمكن الآن لمولد الصور DALL-E AI من OpenAI تحرير الصور أيضًا

يمكن الآن لمولد الصور DALL-E AI من OpenAI تحرير الصور أيضًا

مجموعة أبحاث الذكاء الاصطناعي هي أوبن إيه آي إنشاء إصدار أحدث من DALL-E، مشروع إنشاء صورة النص. يتميز DALL-E 2 بإصدار عالي الدقة ومنخفض التأخير من النظام الأصلي الذي يقوم بإنشاء صور تصور الأوصاف التي كتبها المستخدم. يتضمن أيضًا مهارات جديدة مثل تحرير صورة موجودة. كما هو الحال مع وظائف OpenAI السابقة ، لم يتم إصدار الأداة للجمهور مباشرة. لكن يمكن للباحثين معاينة النظام عبر الإنترنت ويأملون في إتاحة OpenAI لاحقًا للاستخدام في تطبيقات الطرف الثالث.

الأصل DALL-E هو مقدمة بورتماندو للفنان “سلفادور دالي” والروبوت “WALL-E”. في يناير 2021. انه اختبار محدود ولكنه جذاب قدرة الذكاء الاصطناعي على التمثيل البصري لأفكار تتراوح من التصوير المتواضع لعارضة أزياء يرتدي قميصًا من الفانيلا إلى “زرافة مصنوعة من سلحفاة” أو المشي مع كلب فجل. في ذلك الوقت ، قالت شركة OpenAI إنها ستستمر في إنشائها على النظام أثناء استكشاف المخاطر المحتملة مثل التحيز أو التحريف في إنشاء الصور. يحاول حل هذه المشكلات باستخدام الأمان التقني وسياسة محتوى جديدة ، مع تقليل حمل النظام في نفس الوقت ودفع القدرات الأساسية للنموذج.

نتائج A DALL-E 2 “كلب من نوع Shiba Inu يرتدي قبعة وياقة سوداء.”

إحدى ميزات DALL-E 2 الجديدة ، تستفيد Infinite بالكامل من إمكانات DALL-E لتحويل النص إلى صورة بمستوى أكثر دقة. يمكن للمستخدمين البدء بصورة حالية وتحديد منطقة واطلب من النموذج تحريرها. يمكنك حجب لوحة على حائط غرفة المعيشة واستبدالها بصورة أخرى مثلا ، أو إضافة مزهرية من الزهور إلى طاولة القهوة. عند حساب التفاصيل مثل اتجاهات الظلال في الغرفة ، يمكن للنموذج تعبئة (أو إزالة) الكائنات. ميزة أخرى هي أداة البحث عن الصور للتنويعات ، الصور غير الموجودة. يمكن للمستخدمين تحميل صورة بدء التشغيل ثم إنشاء أشكال مختلفة مثلها. يمكنهم مزج صورتين وإنشاء صور مع عناصر من كليهما. الصور التي تم إنشاؤها هي 1،024 × 1،024 بكسل ، وهو أكبر 256 × 256 بكسل من النموذج الأصلي المقدم.

تقوم DALL-E 2 ببناء CLIP ، وهو نظام رؤية النظام الذي أعلنت عنه شركة OpenAI العام الماضي. “DALL-E 1 أخذ نهج GPT-3 الخاص بنا من اللغة واستخدمه لإنشاء صورة: لقد تعلمنا ضغط الصور بالتسلسل إلى كلمات والتنبؤ بما سيحدث بعد ذلك ،” كما يقول عالم الأبحاث في OpenAU ، برافولا داريوال. نموذج GPT الذي تستخدمه العديد من تطبيقات الذكاء الاصطناعي النصية. لكن مطابقة الكلمات لم يكن عليها أن تلتقط الصفات التي اكتشفها البشر بشكل أكثر أهمية ، وقد حدت العملية التنبؤية من حقيقة الصور. تم تصميم CLIP لعرض الصور وضغط محتوياتها مثل الإنسان ، وأنشأت OpenAI عملية “unCLIP” – النسخة العكسية التي تبدأ بالوصف وتتجه نحو الصورة. يصف DARL كيف يقوم DALL-E 2 بإنشاء صورة باستخدام عملية تسمى الانتشار ، والتي تبدأ في “حقيبة من النقاط” ثم تملأ نموذجًا بتفاصيل أكبر وأكبر.

الصورة الحالية للغرفة مع فلامنغو في الزاوية.

الصورة الحالية للغرفة مع فلامنغو في الزاوية.

ومن المثير للاهتمام أن مسودة ورقة حول إلغاء حظر تطبيق القانون تجعلها إلى حد ما تأتي بنتائج عكسية أطرف نقاط ضعف CLIP: من خلال تسمية كائن (مثل Granny Smith Apple) بشيء آخر (مثل iPod) ، يمكن أن ينخدع الناس بقدرات تعريف النموذج. يقول المؤلفون إن أداة التباين CLIP “لا تزال تخلق صورًا لتفاح عالي الاحتمال” حتى عند استخدام صورة خاطئة لا يمكن تحديدها على أنها Granny Smith. على العكس من ذلك ، “لا ينتج هذا النموذج صورًا لأجهزة iPod ، على الرغم من الاحتمال المتوقع لوجود قريب كبير جدًا لهذا العنوان”.

لم يتم إطلاق النموذج الكامل لـ DALL-E للجمهور ، لكن مطورين آخرين طوروا أدواتهم الخاصة خلال العام الماضي والتي تتبع بعض وظائفها. أحد أشهر التطبيقات الرئيسية Wombo’s Dream هو تطبيق للهاتف المحمول، والتي تخلق صورًا تصف المستخدمين بأنماط فنية متنوعة. لم تصدر OpenAI أي طرازات جديدة اليوم ، ولكن يمكن للمطورين استخدام ابتكاراتها التكنولوجية لتحديث أعمالهم.

نتيجة DALL-E 2

نتيجة DALL-E 2 هي “حساء صوفي يشبه الوحش”.

نفذت OpenAI بعض الأمان المدمج. تم تدريب العينة على بيانات تحتوي على بعض المواد المرفوضة ، مما يحد من القدرة على إنشاء محتوى مرفوض. هناك علامة مائية تحدد طبيعة العمل التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، على الرغم من إمكانية قصها نظريًا. كإجراء وقائي ضد إساءة الاستخدام ، لا يمكن للنموذج إنشاء وجوه يمكن التعرف على الوجوه – يبدو الأمر كذلك موناليزا سيعطي تباينًا واضحًا للوجه الحقيقي من اللوحة.

سيتم اختبار DALL-E 2 من قبل شركاء معتمدين مع بعض المحاذير. يحظر على المستخدمين تحميل أو إنشاء صور “مصنفة على أساس G” و “ضارة” ، بما في ذلك الرموز البغيضة أو العري أو الإيماءات الفاحشة أو “المؤامرات أو الأحداث الرئيسية المتعلقة بأحداث جيوسياسية كبرى”. يتعين عليهم أيضًا الكشف عن دور الذكاء الاصطناعي في إنشاء الصور ، ولا يمكن مشاركة الصور التي ينشئونها مع الآخرين من خلال التطبيقات أو الويب – لذلك قد لا تكون أول من يرى إصدارًا مدعومًا من DALL-E لشيء مثل Dream. لكن OpenAI يأمل في إضافته لاحقًا إلى مجموعة أدوات API الخاصة بالمجموعة ، والتي تسمح بتشغيل تطبيقات الطرف الثالث. يقول داريوال: “نأمل أن نستمر في الحصول على عملية موحدة هنا ، لذا يمكن الحكم على كيفية إطلاق هذه التكنولوجيا بأمان من خلال التعليقات التي نحصل عليها”.

تقرير إضافي بقلم جيمس فينسينت.

READ  تعتقد Samsung أن جهاز iPad القابل للطي قادم