Firma Nvidia właśnie ogłosiła wydanie modelu LLM (Large Language Model) opartego na otwartym kodzie źródłowym, który ma dorównywać wydajnością wiodącym zastrzeżonym modelom firm OpenAI, Anthropic, Meta i Google.
Nowy model nosi nazwę NVLM-D-72B i zawiera 72 miliardy parametrów. Jest częścią dużej rodziny modeli językowych NVLM 1.0, niedawno wydanej przez firmę Nvidia. NVLM 1.0 to w zasadzie rodzina obszernych, granicznych, multimodalnych modeli językowych, które osiągają najnowocześniejsze wyniki w zadaniach związanych z językiem wizualnym, konkurując z wiodącymi zastrzeżonymi modelami (np. GPT-4o), a także z modelami o otwartym dostępie.
Jak donoszą źródła, ta nowa rodzina dużych modeli językowych ma „multimodalne możliwości klasy przemysłowej” i charakteryzuje się lepszą wydajnością w przypadku wielu zadań wizualnych i językowych, a także znacząco poprawia sprzężenie zwrotne oparte na tekście. „Aby to osiągnąć, tworzymy i integrujemy wysokiej jakości zbiór danych tekstowych z procesem szkolenia multimodalnego, wraz z dużą ilością multimodalnych danych matematycznych i danych dotyczących rozumowania, co skutkuje ulepszonymi możliwościami matematycznymi i kodowania w wielu modalnościach” — wyjaśnili badacze Nvidii w oświadczeniu.
Rezultatem jest wydajny program LLM, który umożliwia wykonywanie zadań tak prostych, jak wyjaśnianie, dlaczego mem jest śmieszny, aż po skomplikowane równania matematyczne, krok po kroku. Dzięki multimodalnemu stylowi szkolenia firmie Nvidia udało się także zwiększyć dokładność modelu w zakresie samego tekstu średnio o 4,3 punktu w stosunku do branżowych standardów.

Wygląda na to, że firma Nvidia poważnie podchodzi do kwestii zapewnienia, że model ten spełnia najnowszą definicję „open source” inicjatywy Open Source Initiative, nie tylko udostępniając wagi treningowe do wglądu społeczności, ale także obiecując opublikowanie kodu źródłowego modelu w niedalekiej przyszłości. Jest to znaczące odejście od podejścia konkurentów, takich jak OpenAI i Google, którzy byli bardzo oszczędni w słowach w kwestii utrzymywania w tajemnicy szczegółów dotyczących wag i kodu źródłowego swoich modeli LLM. W ten sposób Nvidia pozycjonuje NVLM niekoniecznie jako bezpośredniego konkurenta ChatGPT-4o i Gemini 1.5 Pro, ale raczej jako platformę dla zewnętrznych deweloperów do tworzenia własnych chatbotów i aplikacji AI.