Alibaba lanza Qwen-Image-Edit: modelo de código abierto de 20B para edición avanzada de imágenes y texto

En breve

El equipo Qwen de Alibaba Cloud ha lanzado Qwen-Image-Edit, un modelo de edición de imágenes de última generación que combina la edición semántica y de apariencia con una modificación precisa del texto bilingüe, ofreciendo capacidades avanzadas para aplicaciones creativas y prácticas.

Alibaba lanza Qwen-Image-Edit: modelo de código abierto 20B para edición avanzada de imágenes y texto

El equipo de Qwen de Alibaba Cloud ha introducido Qwen-Image-Edit, un modelo avanzado de edición de imágenes derivado del marco Qwen-Image de 20B. El nuevo sistema amplía las capacidades de renderizado de texto distintivas de Qwen-Image aplicándolas a la edición de imágenes, con un enfoque particular en la precisión en las modificaciones de texto. Qwen-Image-Edit procesa las imágenes de entrada a través de dos componentes paralelos: Qwen2.5-VL, que gestiona el control semántico visual, y el VAE Encoder, que gobierna la apariencia visual. Este enfoque dual permite al modelo manejar de manera efectiva tareas de edición tanto a nivel semántico como a nivel de apariencia. La herramienta es accesible a través de Qwen Chat en la función "Edición de Imágenes".

Qwen-Image-Edit está diseñado para funcionar en múltiples dimensiones de edición. Soporta ajustes a nivel de apariencia, como la adición, eliminación o modificación de elementos visuales, mientras se mantienen intactas todas las demás áreas de la imagen, y ediciones a nivel semántico, como la creación de propiedad intelectual, rotación de objetos o transferencias de estilo, donde se permiten alteraciones más amplias de píxeles pero se preserva la integridad semántica. También proporciona capacidades de edición de texto refinadas en chino y en inglés, permitiendo a los usuarios agregar, eliminar o ajustar texto dentro de las imágenes mientras se mantiene la consistencia de la fuente, el tamaño y el estilo. Las pruebas de referencia en varios conjuntos de datos ampliamente reconocidos indican que Qwen-Image-Edit alcanza un rendimiento de vanguardia en la edición de imágenes, posicionándolo como un modelo base sólido para futuras aplicaciones en este dominio.

La edición semántica y de apariencia de Qwen-Image-Edit para aplicaciones creativas y prácticas

Uno de los aspectos definitorios de Qwen-Image-Edit es su avanzada funcionalidad tanto en la edición semántica como en la de apariencia. La edición semántica implica alterar el contenido de una imagen mientras se garantiza que el significado visual subyacente permanezca intacto. Para ilustrar esta función de manera sencilla, el equipo de desarrollo destaca su uso con la mascota oficial de Qwen, el Capibara, como un ejemplo práctico.

Qwen-Image-Edit Muestra Edición Semántica Y De Apariencia Avanzada Para Aplicaciones Creativas Y Prácticas

La observación muestra que, aunque la mayoría de los píxeles en la imagen modificada difieren de los de la imagen original a la izquierda, la consistencia general del personaje Capybara se mantiene completamente. Esto demuestra la fuerte capacidad de edición semántica de Qwen-Image-Edit, que apoya el desarrollo flexible y variado del contenido original de propiedad intelectual. Además, dentro de Qwen Chat, se creó un conjunto dedicado de indicaciones de edición en torno a los 16 tipos de personalidad MBTI. Usando estas indicaciones, se produjo con éxito una colección completa de paquetes de emojis con temática MBTI que presentan la mascota Capybara, extendiendo de manera efectiva tanto la representación como la visibilidad del personaje.

Además, la síntesis de vistas novedosas representa otro caso de uso importante dentro de la edición semántica. Qwen-Image-Edit es capaz de rotar objetos 90 grados o ejecutar una rotación completa de 180 grados, lo que permite la visualización directa del lado posterior de un objeto. Un ejemplo adicional de edición semántica se encuentra en la transferencia de estilo, donde, por ejemplo, un retrato estándar puede reinterpretarse en múltiples estéticas artísticas, incluidos estilos que recuerdan a Studio Ghibli.

Junto con la edición semántica, la edición de apariencia constituye una función frecuentemente requerida en la modificación de imágenes. Este enfoque se centra en preservar regiones específicas de una imagen completamente sin cambios, mientras se introducen, eliminan o alteran elementos designados. Como se demuestra en un ejemplo donde un cartel se incorpora sin problemas en una escena, la edición de apariencia se presta a una amplia gama de aplicaciones, como ajustes de fondo para individuos o modificaciones de ropa. Otra capacidad definitoria de Qwen-Image-Edit es su precisión en la edición de texto, una característica derivada de la avanzada experiencia de Qwen-Image en tecnologías de renderizado de texto.

IN-7.44%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)