أعلنت OpenAI عن دمج تقنية توليد الصور من Sora مباشرةً في ChatGPT، تحت اسم “Images in ChatGPT”، مما يُتيح للمستخدمين إنشاء الصور دون الحاجة إلى منصة منفصلة. كانت Sora متاحة في السابق عبر موقع مستقل، ولكن الآن يمكن لجميع المشتركين في ChatGPT – سواء في الخطط المجانية أو المدفوعة (Plus وPro وTeam) – الاستفادة من هذه الميزة.
حدود الاستخدام وجودة الصور

ذكرت المتحدثة باسم OpenAI، تايا كريستيانسون، أن حدود الاستخدام في النسخة المجانية مشابهة لتلك الخاصة بـ DALL-E، دون تحديد رقم دقيق، مشيرةً إلى أن هذه الحدود قد تتغير حسب الطلب. وفقًا للأسئلة الشائعة في ChatGPT، كان بإمكان المستخدمين المجانيين إنشاء 3 صور يوميًا باستخدام DALL-E 3، ومن المتوقع أن تكون القيود مماثلة مع Sora.
بالنسبة لمستقبل DALL-E، أكّدت كريستيانسون أن المستخدمين سيستمرون في الوصول إليه عبر نماذج GPT المخصصة.
تحسينات في الأداء والدقة

وصف قائد البحث في OpenAI، غابرييل غوه، النموذج الجديد بأنه “خطوة تحوّلية” مقارنة بالإصدارات السابقة، مشيرًا إلى أنه يعتمد على أساس GPT-4o، وهو نموذج متعدد الوسائط قادر على إنشاء النصوص والصور والصوت والفيديو.
من أبرز التحسينات التي تم تقديمها ميزة “الربط” (Binding)، والتي تعزز قدرة النموذج على الحفاظ على العلاقات الصحيحة بين العناصر. على سبيل المثال، في النماذج السابقة، قد يختلط الأمر بين الألوان والأشكال، مثل رسم نجمة زرقاء بدلاً من مثلث أحمر، لكن مع Sora، أصبح هذا أكثر دقة.
بينما تعاني معظم نماذج الذكاء الاصطناعي في التعامل مع 5 إلى 8 عناصر في الصورة، يستطيع Sora إدارة 15 إلى 20 عنصرًا دون فقدان الدقة. كما تحسّنت قدرته على توليد النصوص داخل الصور، مما قلل من الأخطاء الإملائية، رغم استمرار بعض التحديات مع النصوص الصغيرة جدًا.
التقنية والتطبيقات العملية

يعتمد Sora على نهج “التوليد التسلسلي” (Autoregressive Approach)، حيث يتم إنشاء الصور تدريجيًا من الأعلى إلى الأسفل ومن اليسار إلى اليمين، بدلًا من تقنية الانتشار (Diffusion) المستخدمة في DALL-E.
يرى غوه أن هذا النهج هو ما يمنح Sora تفوقًا في الدقة وربط العناصر. خلال العرض التوضيحي قبل الإطلاق، قدّم الفريق أمثلة على قدرات النموذج، مثل:

- رسومات علمية دقيقة لتجارب مثل تجربة نيوتن مع المنشور.
- قصص مصورة بشخصيات متسقة عبر إطارات متعددة.
- تصميم ملصقات بخلفيات شفافة، وقوائم مطاعم، وشعارات.
وأوضحت جاكي شانون، قائدة منتج ChatGPT متعدد الوسائط، أن النموذج يجمع بين مهارات الرسم والمعرفة بالعالم الحقيقي، مما يسمح بإنشاء صور دقيقة دون الحاجة إلى وصف تفصيلي.
السرعة والحماية

رغم أن Sora يستغرق وقتًا أطول في توليد الصور مقارنة بالنماذج السابقة، تؤكد OpenAI أن الجودة العالية تعوّض عن هذا التأخير، مع إمكانية تحسين السرعة مستقبلًا.
أما من ناحية الحماية، فقد تم تضمين إجراءات أمنية لمنع إزالة العلامات المائية، وحظر إنشاء صور مسيئة أو غير قانونية. لن تحتوي الصور على علامات مائية مرئية، ولكنها ستتضمن بيانات C2PA للإشارة إلى أنها من إنتاج OpenAI.
ختامًا، رغم أن النظام ليس مثاليًا بعد، إلا أنه في تطور مستمر، مع تأكيد OpenAI على أن المستخدمين يمتلكون حقوق الصور التي يولدونها، ضمن حدود سياسات الاستخدام.