أطلقت فريق Qwen في Alibaba Cloud نموذج Qwen-Image-Edit، وهو نموذج لتحرير الصور متطور يجمع بين تحرير المعنى والمظهر مع تعديل نص ثنائي اللغة بدقة، مما يوفر قدرات متقدمة للتطبيقات الإبداعية والعملية.
قدمت فريق Qwen في Alibaba Cloud Qwen-Image-Edit، وهو نموذج متقدم لتحرير الصور مستمد من إطار عمل Qwen-Image الذي يحتوي على 20B. ويعمل النظام الجديد على توسيع قدرات عرض النص الفريدة في Qwen-Image من خلال تطبيقها على تحرير الصور، مع التركيز بشكل خاص على الدقة في تعديلات النص. يقوم Qwen-Image-Edit بمعالجة الصور المدخلة من خلال مكونين متوازيين: Qwen2.5-VL، الذي يدير التحكم الدلالي البصري، و VAE Encoder، الذي يتحكم في المظهر البصري. يتيح هذا النهج المزدوج للنموذج التعامل بفعالية مع مهام التحرير على مستوى الدلالة والمظهر. الأداة متاحة عبر Qwen Chat تحت ميزة "تحرير الصور".
تم تصميم Qwen-Image-Edit للعمل عبر عدة أبعاد تحرير. يدعم التعديلات على مستوى المظهر، مثل إضافة أو إزالة أو تعديل العناصر المرئية مع الحفاظ على جميع المناطق الأخرى في الصورة سليمة، وتحريرات على مستوى الدلالة، مثل إنشاء الملكية الفكرية، أو تدوير الكائنات، أو نقل الأنماط، حيث يُسمح بتعديلات بكسل أوسع ولكن تظل السلامة الدلالية محفوظة. كما أنه يوفر قدرات تحرير نص مُحسّنة باللغتين الصينية والإنجليزية، مما يتيح للمستخدمين إضافة أو إزالة أو تعديل النص داخل الصور مع الحفاظ على اتساق الخط والحجم والأسلوب. تُظهر اختبارات المقارنة عبر عدة مجموعات بيانات معترف بها على نطاق واسع أن Qwen-Image-Edit يحقق أداءً رائدًا في تحرير الصور، مما يجعله نموذجًا قويًا كأساس للتطبيقات المستقبلية في هذا المجال.
تحرير المعاني والمظهر في Qwen-Image-Edit لتطبيقات إبداعية وعملية
أحد الجوانب المحددة لبرنامج Qwen-Image-Edit هو وظيفته المتقدمة في تحرير المعاني والمظهر. يتضمن التحرير الدلالي تغيير محتوى الصورة مع ضمان بقاء المعنى البصري الأساسي سليمًا. لتوضيح هذه الوظيفة بشكل بسيط، يسلط فريق التطوير الضوء على استخدامها مع تميمة Qwen الرسمية، الكابيبارا، كمثال عملي.
تظهر الملاحظة أنه بينما تختلف الغالبية العظمى من البكسلات في الصورة المعدلة عن تلك الموجودة في الصورة الأصلية على اليسار، إلا أن الاتساق العام لشخصية الكابيبارا يبقى محفوظًا تمامًا. وهذا يدل على القدرة القوية على التحرير الدلالي لـ Qwen-Image-Edit، الذي يدعم تطوير محتوى الملكية الفكرية الأصلية بشكل مرن ومت varied. بالإضافة إلى ذلك، تم إنشاء مجموعة مخصصة من مطالبات التحرير حول 16 نوع من أنواع الشخصية MBTI داخل Qwen Chat. باستخدام هذه المطالبات، تم إنتاج مجموعة كاملة من حزم الرموز التعبيرية المستوحاة من MBTI featuring شخصية الكابيبارا، مما يمدد بشكل فعال كل من تمثيل الشخصية ورؤيتها.
علاوة على ذلك، يمثل توليد العرض الجديد حالة استخدام مهمة أخرى ضمن التحرير الدلالي. Qwen-Image-Edit قادر على تدوير الكائنات بزاوية 90 درجة أو تنفيذ دوران كامل بزاوية 180 درجة، مما يتيح التصور المباشر للجانب الخلفي للكائن. مثال آخر على التحرير الدلالي يكمن في نقل الأسلوب، حيث يمكن، على سبيل المثال، إعادة تفسير صورة قياسية إلى العديد من الجماليات الفنية، بما في ذلك الأنماط التي تذكرنا باستوديو غيبلي.
بالإضافة إلى التحرير الدلالي، يشكل تحرير المظهر وظيفة مطلوبة بشكل متكرر في تعديل الصور. تركز هذه الطريقة على الحفاظ على مناطق معينة من الصورة دون تغيير تمامًا أثناء إدخال أو إزالة أو تعديل عناصر محددة. كما يتضح في مثال حيث يتم دمج لافتة بسلاسة في مشهد، فإن تحرير المظهر ينفتح على مجموعة واسعة من التطبيقات مثل تعديلات الخلفية للأفراد أو تعديلات الملابس. قدرة أخرى مميزة لـ Qwen-Image-Edit هي دقتها في تحرير النصوص، وهي ميزة مستمدة من خبرة Qwen-Image المتقدمة في تقنيات عرض النصوص.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
علي بابا تطلق Qwen-Image-Edit: نموذج مفتوح المصدر 20B لتحرير الصور والنصوص المتقدم
باختصار
أطلقت فريق Qwen في Alibaba Cloud نموذج Qwen-Image-Edit، وهو نموذج لتحرير الصور متطور يجمع بين تحرير المعنى والمظهر مع تعديل نص ثنائي اللغة بدقة، مما يوفر قدرات متقدمة للتطبيقات الإبداعية والعملية.
قدمت فريق Qwen في Alibaba Cloud Qwen-Image-Edit، وهو نموذج متقدم لتحرير الصور مستمد من إطار عمل Qwen-Image الذي يحتوي على 20B. ويعمل النظام الجديد على توسيع قدرات عرض النص الفريدة في Qwen-Image من خلال تطبيقها على تحرير الصور، مع التركيز بشكل خاص على الدقة في تعديلات النص. يقوم Qwen-Image-Edit بمعالجة الصور المدخلة من خلال مكونين متوازيين: Qwen2.5-VL، الذي يدير التحكم الدلالي البصري، و VAE Encoder، الذي يتحكم في المظهر البصري. يتيح هذا النهج المزدوج للنموذج التعامل بفعالية مع مهام التحرير على مستوى الدلالة والمظهر. الأداة متاحة عبر Qwen Chat تحت ميزة "تحرير الصور".
تم تصميم Qwen-Image-Edit للعمل عبر عدة أبعاد تحرير. يدعم التعديلات على مستوى المظهر، مثل إضافة أو إزالة أو تعديل العناصر المرئية مع الحفاظ على جميع المناطق الأخرى في الصورة سليمة، وتحريرات على مستوى الدلالة، مثل إنشاء الملكية الفكرية، أو تدوير الكائنات، أو نقل الأنماط، حيث يُسمح بتعديلات بكسل أوسع ولكن تظل السلامة الدلالية محفوظة. كما أنه يوفر قدرات تحرير نص مُحسّنة باللغتين الصينية والإنجليزية، مما يتيح للمستخدمين إضافة أو إزالة أو تعديل النص داخل الصور مع الحفاظ على اتساق الخط والحجم والأسلوب. تُظهر اختبارات المقارنة عبر عدة مجموعات بيانات معترف بها على نطاق واسع أن Qwen-Image-Edit يحقق أداءً رائدًا في تحرير الصور، مما يجعله نموذجًا قويًا كأساس للتطبيقات المستقبلية في هذا المجال.
تحرير المعاني والمظهر في Qwen-Image-Edit لتطبيقات إبداعية وعملية
أحد الجوانب المحددة لبرنامج Qwen-Image-Edit هو وظيفته المتقدمة في تحرير المعاني والمظهر. يتضمن التحرير الدلالي تغيير محتوى الصورة مع ضمان بقاء المعنى البصري الأساسي سليمًا. لتوضيح هذه الوظيفة بشكل بسيط، يسلط فريق التطوير الضوء على استخدامها مع تميمة Qwen الرسمية، الكابيبارا، كمثال عملي.
تظهر الملاحظة أنه بينما تختلف الغالبية العظمى من البكسلات في الصورة المعدلة عن تلك الموجودة في الصورة الأصلية على اليسار، إلا أن الاتساق العام لشخصية الكابيبارا يبقى محفوظًا تمامًا. وهذا يدل على القدرة القوية على التحرير الدلالي لـ Qwen-Image-Edit، الذي يدعم تطوير محتوى الملكية الفكرية الأصلية بشكل مرن ومت varied. بالإضافة إلى ذلك، تم إنشاء مجموعة مخصصة من مطالبات التحرير حول 16 نوع من أنواع الشخصية MBTI داخل Qwen Chat. باستخدام هذه المطالبات، تم إنتاج مجموعة كاملة من حزم الرموز التعبيرية المستوحاة من MBTI featuring شخصية الكابيبارا، مما يمدد بشكل فعال كل من تمثيل الشخصية ورؤيتها.
علاوة على ذلك، يمثل توليد العرض الجديد حالة استخدام مهمة أخرى ضمن التحرير الدلالي. Qwen-Image-Edit قادر على تدوير الكائنات بزاوية 90 درجة أو تنفيذ دوران كامل بزاوية 180 درجة، مما يتيح التصور المباشر للجانب الخلفي للكائن. مثال آخر على التحرير الدلالي يكمن في نقل الأسلوب، حيث يمكن، على سبيل المثال، إعادة تفسير صورة قياسية إلى العديد من الجماليات الفنية، بما في ذلك الأنماط التي تذكرنا باستوديو غيبلي.
بالإضافة إلى التحرير الدلالي، يشكل تحرير المظهر وظيفة مطلوبة بشكل متكرر في تعديل الصور. تركز هذه الطريقة على الحفاظ على مناطق معينة من الصورة دون تغيير تمامًا أثناء إدخال أو إزالة أو تعديل عناصر محددة. كما يتضح في مثال حيث يتم دمج لافتة بسلاسة في مشهد، فإن تحرير المظهر ينفتح على مجموعة واسعة من التطبيقات مثل تعديلات الخلفية للأفراد أو تعديلات الملابس. قدرة أخرى مميزة لـ Qwen-Image-Edit هي دقتها في تحرير النصوص، وهي ميزة مستمدة من خبرة Qwen-Image المتقدمة في تقنيات عرض النصوص.