阿里大模型又開源！能讀圖會識物，基於通義千問7B打造，可商用

2023-08-26 08:03:47

來源：量子位

阿里開源大模型，又上新了~

繼通義千問-7B（Qwen-7B）之後，阿里雲又推出了大規模視覺語言模型Qwen-VL，並且一上線就直接開源。

具體來說，Qwen-VL是基於通義千問-7B打造的多模態大模型，支持圖像、文本、檢測框等多種輸入，並且在文本之外，也支持檢測框的輸出。

舉個🌰，我們輸入一張阿尼亞的圖片，通過問答的形式，Qwen-VL-Chat既能概括圖片內容，也能定位到圖片中的阿尼亞。

測試任務中，Qwen-VL展現出了“六邊形戰士”的實力，在四大類多模態任務的標準英文測評中（Zero-shot Caption/VQA/DocVQA/Grounding）上，都取得了SOTA 。

開源消息一出，就引發了不少關注。

具體表現如何，咱們一起來看看~

首個支持中文開放域定位的通用模型

先來整體看一下Qwen-VL系列模型的特點：

多語言對話：支持多語言對話，端到端支持圖片里中英雙語的長文本識別；
多圖交錯對話：支持多圖輸入和比較，指定圖片問答，多圖文學創作等；
首個支持中文開放域定位的通用模型：通過中文開放域語言表達進行檢測框標註，也就是能在畫面中精準地找到目標物體；
細粒度識別和理解：相比於目前其它開源LVLM（大規模視覺語言模型）使用的224分辨率，Qwen-VL是首個開源的448分辨率LVLM模型。更高分辨率可以提升細粒度的文字識別、文檔問答和檢測框標註。

按場景來說，Qwen-VL可以用於知識問答、圖像問答、文檔問答、細粒度視覺定位等場景。

比如，有一位看不懂中文的外國友人去醫院看病，對著導覽圖一個頭兩個大，不知道怎麼去往對應科室，就可以直接把圖和問題丟給Qwen-VL，讓它根據圖片信息擔當翻譯。

再來測試一下多圖輸入和比較：