Home
» Wiki
»
Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?
Podczas konferencji I/O 2024 firma Google zapowiedziała nową linię modeli Gemma 2, a teraz firma wreszcie udostępnia lekkie modele na licencji open source. Mówi się, że nowy model Gemma 2 27B jest bardzo obiecujący i przewyższa niektóre większe modele, takie jak Llama 3 70B i Qwen 1.5 32B. Aby przetestować to stwierdzenie, porównajmy Gemmę 2 i Llamę 3 — dwa najlepsze obecnie modele open source.
Pisanie kreatywne
Najpierw sprawdźmy, jak dobrze Gemma 2 i Llama 3 sprawdzają się w pisaniu kreatywnym. Autor artykułu poprosił obie modelki o napisanie krótkiego opowiadania na temat relacji między Księżycem i Słońcem. Oba modele radzą sobie świetnie, ale model Gemma 2 firmy Google wyróżnia się wciągającą prozą i dobrą historią.
Z drugiej strony Llama 3 wygląda nieco nudno i mechanicznie. Google zawsze dobrze radziło sobie z generowaniem tekstu za pomocą modeli Gemini i mniejszy Gemma 2 27B nie jest tu wyjątkiem.
Opcja wygrywająca: Gemma 2
Testowanie wielojęzyczne
W następnej rundzie sprawdzimy, jak oba modele radzą sobie z językami innymi niż angielski. Ponieważ Google reklamuje Gemma 2 jako program dobrze rozumiejący wiele języków, autor porównał go do modelu Llama 3 firmy Meta. Autor poprosił obie modelki o przetłumaczenie fragmentu na język hindi. Zarówno Gemma 2 jak i Llama 3 wypadły bardzo dobrze.
Autor wypróbował również inny język, bengalski, a modele dały podobnie dobre wyniki. Przynajmniej w przypadku języków indyjskich można stwierdzić, że Gemma 2 i Llama 3 są dobrze wyćwiczone w oparciu o duży korpus. Jednak Gemma 2 27B jest prawie 2,5 razy mniejsza od Llama 3 70B, co czyni ją jeszcze bardziej imponującą.
Opcje wygranej: Gemma 2 i Llama 3
Sprawdź logikę
Mimo że Gemma 2 i Llama 3 nie są najinteligentniejszymi modelami na rynku, mogą wykonywać niektóre typowe testy rozumowania tak samo jak znacznie większe modele. W poprzednim porównaniu Llama 3 i GPT-4 model 70B firmy Meta zrobił wrażenie, wykazując się całkiem dobrą inteligencją, nawet przy swoich mniejszych rozmiarach.
W tej rundzie Llama 3 pokonała Gemmę 2 dużą różnicą punktów. Llama 3 odpowiedziała poprawnie na 2 z 3 pytań, natomiast Gemma 2 miała problem z odpowiedzią choćby na jedno. Gemma 2 po prostu nie jest wyszkolona w rozwiązywaniu złożonych problemów logicznych.
Z drugiej strony Llama 3 opiera się na solidnych podstawach logicznych, co najprawdopodobniej można wywnioskować z zaszyfrowanego zbioru danych. Pomimo niewielkich rozmiarów — przynajmniej w porównaniu do modeli o bilionach parametrów, takich jak GPT-4 — wykazuje on więcej niż przyzwoity poziom inteligencji. Ostatecznie użycie większej liczby tokenów do trenowania modelu faktycznie skutkuje powstaniem wydajniejszego modelu.
Opcja wygrywająca: Lama 3
Postępuj zgodnie z instrukcjami
W kolejnej rundzie autor poprosił Gemmę 2 i Lamę 3 o stworzenie 10 słów kończących się na „NPU”. A Llama 3 dostała 10/10 poprawnych odpowiedzi. Natomiast Gemma 2 wygenerowała tylko 7 poprawnych zdań na 10. W wielu poprzednich wersjach modele Google, w tym Gemini, nie radziły sobie dobrze z instrukcjami użytkowników. Ta sama tendencja jest widoczna w Gemmie 2.
Przestrzeganie instrukcji użytkownika ma kluczowe znaczenie dla modeli sztucznej inteligencji. Gwarantuje niezawodność i generuje dokładne informacje zwrotne na temat podanych instrukcji. Z punktu widzenia bezpieczeństwa pomaga to również utrzymać model w ryzach, co przekłada się na lepszą zgodność z protokołami bezpieczeństwa.
Opcja wygrywająca: Lama 3
Znajdź informacje
Zarówno Gemma 2, jak i Llama 3 mają długość kontekstu wynoszącą 8 tys. tokenów. Autor dodał ogromny blok tekstu, pochodzący bezpośrednio z książki Duma i uprzedzenie, zawierający ponad 17 000 znaków i 3,8 tys. tokenów. Jak zwykle autor umieszcza gdzieś w tekście przypadkowy cytat i prosi obie modelki o jego odnalezienie.
Gemma 2 szybko zrozumiała informację i zauważyła, że cytat został wstawiony losowo. Llama 3 również uznała i zasugerowała, że takie twierdzenie wydaje się nie na miejscu. Jeśli chodzi o pamięć kontekstową o dużej pojemności, chociaż ograniczoną do tokenów 8K, oba modele są pod tym względem dość mocne.
Należy zauważyć, że autor przeprowadził ten test na HuggingChat (sieć), ponieważ meta.ai odmówiło uruchomienia tego monitu, najprawdopodobniej z powodu treści objętych prawami autorskimi.
Opcje wygranej: Gemma 2 i Llama 3
Sprawdź, czy masz halucynacje
Mniejsze modele mają tendencję do występowania halucynacji sztucznej inteligencji (AI) ze względu na ograniczoną ilość danych szkoleniowych i często zmyślają informacje, gdy model napotyka nieznane mu tematy. Autor dodał więc wymyśloną przez siebie nazwę kraju, żeby sprawdzić, czy Gemma 2 i Llama 3 mają halucynacje. I co zaskakujące, tego nie zrobili, co oznacza, że zarówno Google, jak i Meta mają całkiem solidne podstawy dla swoich modeli.
Autor zadał jeszcze jedno (fałszywe) pytanie, aby sprawdzić wiarygodność modeli, ale ponownie nie miały one charakteru halucynogennego. Nawiasem mówiąc, autor testował Llamę 3 na HuggingChat, podczas gdy meta.ai przeglądał Internet w poszukiwaniu bieżących informacji na istotne tematy.
Opcje wygranej: Gemma 2 i Llama 3
Zakończyć
Mimo że model Gemma 2 27B firmy Google nie radzi sobie najlepiej z testami rozumowania, jest w stanie poradzić sobie z wieloma innymi zadaniami. Świetnie nadaje się do kreatywnego pisania, obsługuje wiele języków, ma dobrą pamięć i, co najważniejsze, nie jest tak halucynogenny jak poprzednie modele.
Llama 3 jest oczywiście lepsza, ale to też znacznie większy model, wytrenowany na podstawie 70 miliardów parametrów. Deweloperzy uznają model Gemma 2 27B za przydatny w wielu zastosowaniach. A dla pewności, dostępny jest również model Gemma 2 9B.
Dodatkowo użytkownicy powinni sprawdzić Gemini 1.5 Flash, który jest znacznie mniejszym modelem, a także obsługuje wprowadzanie danych multimodalnych. Nie wspominając już o tym, że jest niesamowicie szybki i wydajny.