Chińska grupa technologiczna Alibaba właśnie ogłosiła nowy model sztucznej inteligencji o nazwie QVQ-Max z serii Qwen, co stanowi przełom w dziedzinie sztucznej inteligencji w multimediach. Szczególną cechą tego modelu jest możliwość analizy zawartości obrazu/wideo, a następnie formułowania argumentów i rozwiązań na podstawie uzyskanych informacji.
Imponująca umiejętność
Alibaba opisuje QVQ-Max jako pomost między modelami sztucznej inteligencji opartymi wyłącznie na tekście a światem rzeczywistym. Dzięki możliwościom wnioskowania wizualnego system może:
- Analizuj obrazy i identyfikuj kluczowe elementy
- Wszechstronne zastosowanie w wielu dziedzinach, od projektowania ilustracji, tworzenia scenariuszy wideo po odgrywanie ról postaci
- Rozwiązuj problemy za pomocą diagramów (matematyka, fizyka)
- Instrukcje krok po kroku dotyczące gotowania na podstawie zdjęć przepisu
Alibaba twierdzi, że model ten pomaga zasypać przepaść między sztuczną inteligencją, która przetwarza wyłącznie tekst, a informacjami ze świata rzeczywistego. Dzięki zdolności rozumowania wizualnego QVQ-Max może „widzieć, rozumieć i myśleć” o otaczającym go świecie. Firma podkreśla wyższość swojego modelu w analizie obrazu, identyfikowaniu kluczowych elementów i jego elastyczność w zastosowaniu w wielu dziedzinach, takich jak projektowanie ilustracji, tworzenie scenariuszy wideo czy odgrywanie ról.

Podobnie jak inne chatboty oparte na sztucznej inteligencji, QVQ-Max wspiera pracę, edukację i życie osobiste, ale dzięki integracji wizualnej rozwiązuje również bardziej szczegółowe zadania, takie jak: rozwiązywanie problemów matematycznych/fizycznych za pomocą diagramów czy instrukcje dotyczące gotowania za pomocą zdjęć przepisów.
Alibaba uważa QVQ-Max za pierwszą wersję i przedstawiła plan aktualizacji dla kolejnych wersji. Po pierwsze, chcieli poprawić dokładność rozpoznawania obrazów, wykorzystując techniki uziemiające. Po drugie, model zostanie zoptymalizowany pod kątem obsługi wielu zadań jednocześnie oraz skomplikowanych problemów, takich jak praca na telefonie, komputerze czy granie w gry. Docelowo Alibaba planuje rozszerzyć interakcję tekstową o weryfikację narzędzi i tworzenie treści graficznych.
Użytkownicy mogą wypróbować QVQ-Max poprzez:
- Odwiedź chat.qwen.ai
- Wybierz menu modelu w lewym rogu → „ Rozwiń więcej modeli ”
- Wybierz QVQ-Max i zacznij czatować
- Dołącz pliki graficzne, aby poznać możliwości przetwarzania AI
Dzięki wprowadzeniu na rynek QVQ-Max firma Alibaba umacnia swoją pozycję w wyścigu o rozwój sztucznej inteligencji multimedialnej, konkurując bezpośrednio ze światowymi gigantami technologicznymi. Model ten obiecuje praktyczne zastosowanie w pracy, edukacji i życiu osobistym.