علي بابا تطلق Qwen-Image-Edit: نموذج مفتوح المصدر 20B لتحرير الصور والنصوص المتقدم

باختصار

أطلقت فريق Qwen في Alibaba Cloud نموذج Qwen-Image-Edit، وهو نموذج لتحرير الصور متطور يجمع بين تحرير المعنى والمظهر مع تعديل نص ثنائي اللغة بدقة، مما يوفر قدرات متقدمة للتطبيقات الإبداعية والعملية.

Alibaba تطلق Qwen-Image-Edit: نموذج مفتوح المصدر 20B لتحرير الصور والنصوص المتقدمة

قدمت فريق Qwen في Alibaba Cloud Qwen-Image-Edit، وهو نموذج متقدم لتحرير الصور مستمد من إطار عمل Qwen-Image الذي يحتوي على 20B. ويعمل النظام الجديد على توسيع قدرات عرض النص الفريدة في Qwen-Image من خلال تطبيقها على تحرير الصور، مع التركيز بشكل خاص على الدقة في تعديلات النص. يقوم Qwen-Image-Edit بمعالجة الصور المدخلة من خلال مكونين متوازيين: Qwen2.5-VL، الذي يدير التحكم الدلالي البصري، و VAE Encoder، الذي يتحكم في المظهر البصري. يتيح هذا النهج المزدوج للنموذج التعامل بفعالية مع مهام التحرير على مستوى الدلالة والمظهر. الأداة متاحة عبر Qwen Chat تحت ميزة "تحرير الصور".

تم تصميم Qwen-Image-Edit للعمل عبر عدة أبعاد تحرير. يدعم التعديلات على مستوى المظهر، مثل إضافة أو إزالة أو تعديل العناصر المرئية مع الحفاظ على جميع المناطق الأخرى في الصورة سليمة، وتحريرات على مستوى الدلالة، مثل إنشاء الملكية الفكرية، أو تدوير الكائنات، أو نقل الأنماط، حيث يُسمح بتعديلات بكسل أوسع ولكن تظل السلامة الدلالية محفوظة. كما أنه يوفر قدرات تحرير نص مُحسّنة باللغتين الصينية والإنجليزية، مما يتيح للمستخدمين إضافة أو إزالة أو تعديل النص داخل الصور مع الحفاظ على اتساق الخط والحجم والأسلوب. تُظهر اختبارات المقارنة عبر عدة مجموعات بيانات معترف بها على نطاق واسع أن Qwen-Image-Edit يحقق أداءً رائدًا في تحرير الصور، مما يجعله نموذجًا قويًا كأساس للتطبيقات المستقبلية في هذا المجال.

تحرير المعاني والمظهر في Qwen-Image-Edit لتطبيقات إبداعية وعملية

أحد الجوانب المحددة لبرنامج Qwen-Image-Edit هو وظيفته المتقدمة في تحرير المعاني والمظهر. يتضمن التحرير الدلالي تغيير محتوى الصورة مع ضمان بقاء المعنى البصري الأساسي سليمًا. لتوضيح هذه الوظيفة بشكل بسيط، يسلط فريق التطوير الضوء على استخدامها مع تميمة Qwen الرسمية، الكابيبارا، كمثال عملي.

Qwen-Image-Edit تعرض تحريرًا متقدمًا للمعاني والمظهر للتطبيقات الإبداعية والعملية

تظهر الملاحظة أنه بينما تختلف الغالبية العظمى من البكسلات في الصورة المعدلة عن تلك الموجودة في الصورة الأصلية على اليسار، إلا أن الاتساق العام لشخصية الكابيبارا يبقى محفوظًا تمامًا. وهذا يدل على القدرة القوية على التحرير الدلالي لـ Qwen-Image-Edit، الذي يدعم تطوير محتوى الملكية الفكرية الأصلية بشكل مرن ومت varied. بالإضافة إلى ذلك، تم إنشاء مجموعة مخصصة من مطالبات التحرير حول 16 نوع من أنواع الشخصية MBTI داخل Qwen Chat. باستخدام هذه المطالبات، تم إنتاج مجموعة كاملة من حزم الرموز التعبيرية المستوحاة من MBTI featuring شخصية الكابيبارا، مما يمدد بشكل فعال كل من تمثيل الشخصية ورؤيتها.

علاوة على ذلك، يمثل توليد العرض الجديد حالة استخدام مهمة أخرى ضمن التحرير الدلالي. Qwen-Image-Edit قادر على تدوير الكائنات بزاوية 90 درجة أو تنفيذ دوران كامل بزاوية 180 درجة، مما يتيح التصور المباشر للجانب الخلفي للكائن. مثال آخر على التحرير الدلالي يكمن في نقل الأسلوب، حيث يمكن، على سبيل المثال، إعادة تفسير صورة قياسية إلى العديد من الجماليات الفنية، بما في ذلك الأنماط التي تذكرنا باستوديو غيبلي.

بالإضافة إلى التحرير الدلالي، يشكل تحرير المظهر وظيفة مطلوبة بشكل متكرر في تعديل الصور. تركز هذه الطريقة على الحفاظ على مناطق معينة من الصورة دون تغيير تمامًا أثناء إدخال أو إزالة أو تعديل عناصر محددة. كما يتضح في مثال حيث يتم دمج لافتة بسلاسة في مشهد، فإن تحرير المظهر ينفتح على مجموعة واسعة من التطبيقات مثل تعديلات الخلفية للأفراد أو تعديلات الملابس. قدرة أخرى مميزة لـ Qwen-Image-Edit هي دقتها في تحرير النصوص، وهي ميزة مستمدة من خبرة Qwen-Image المتقدمة في تقنيات عرض النصوص.

IN-9.57%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت