Gemma 2 czy Llama 3 to najlepszy model open source?

Podczas konferencji I/O 2024 firma Google zapowiedziała nową linię modeli Gemma 2, a teraz firma wreszcie udostępnia lekkie modele na licencji open source. Mówi się, że nowy model Gemma 2 27B jest bardzo obiecujący i przewyższa niektóre większe modele, takie jak Llama 3 70B i Qwen 1.5 32B. Aby przetestować to stwierdzenie, porównajmy Gemmę 2 i Llamę 3 — dwa najlepsze obecnie modele open source.

Pisanie kreatywne

Najpierw sprawdźmy, jak dobrze Gemma 2 i Llama 3 sprawdzają się w pisaniu kreatywnym. Autor artykułu poprosił obie modelki o napisanie krótkiego opowiadania na temat relacji między Księżycem i Słońcem. Oba modele radzą sobie świetnie, ale model Gemma 2 firmy Google wyróżnia się wciągającą prozą i dobrą historią.

Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?

Z drugiej strony Llama 3 wygląda nieco nudno i mechanicznie. Google zawsze dobrze radziło sobie z generowaniem tekstu za pomocą modeli Gemini i mniejszy Gemma 2 27B nie jest tu wyjątkiem.

Opcja wygrywająca: Gemma 2

Testowanie wielojęzyczne

W następnej rundzie sprawdzimy, jak oba modele radzą sobie z językami innymi niż angielski. Ponieważ Google reklamuje Gemma 2 jako program dobrze rozumiejący wiele języków, autor porównał go do modelu Llama 3 firmy Meta. Autor poprosił obie modelki o przetłumaczenie fragmentu na język hindi. Zarówno Gemma 2 jak i Llama 3 wypadły bardzo dobrze.

Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?

Autor wypróbował również inny język, bengalski, a modele dały podobnie dobre wyniki. Przynajmniej w przypadku języków indyjskich można stwierdzić, że Gemma 2 i Llama 3 są dobrze wyćwiczone w oparciu o duży korpus. Jednak Gemma 2 27B jest prawie 2,5 razy mniejsza od Llama 3 70B, co czyni ją jeszcze bardziej imponującą.

Opcje wygranej: Gemma 2 i Llama 3

Sprawdź logikę

Mimo że Gemma 2 i Llama 3 nie są najinteligentniejszymi modelami na rynku, mogą wykonywać niektóre typowe testy rozumowania tak samo jak znacznie większe modele. W poprzednim porównaniu Llama 3 i GPT-4 model 70B firmy Meta zrobił wrażenie, wykazując się całkiem dobrą inteligencją, nawet przy swoich mniejszych rozmiarach.

Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?

W tej rundzie Llama 3 pokonała Gemmę 2 dużą różnicą punktów. Llama 3 odpowiedziała poprawnie na 2 z 3 pytań, natomiast Gemma 2 miała problem z odpowiedzią choćby na jedno. Gemma 2 po prostu nie jest wyszkolona w rozwiązywaniu złożonych problemów logicznych.

Z drugiej strony Llama 3 opiera się na solidnych podstawach logicznych, co najprawdopodobniej można wywnioskować z zaszyfrowanego zbioru danych. Pomimo niewielkich rozmiarów — przynajmniej w porównaniu do modeli o bilionach parametrów, takich jak GPT-4 — wykazuje on więcej niż przyzwoity poziom inteligencji. Ostatecznie użycie większej liczby tokenów do trenowania modelu faktycznie skutkuje powstaniem wydajniejszego modelu.

Opcja wygrywająca: Lama 3

Postępuj zgodnie z instrukcjami

W kolejnej rundzie autor poprosił Gemmę 2 i Lamę 3 o stworzenie 10 słów kończących się na „NPU”. A Llama 3 dostała 10/10 poprawnych odpowiedzi. Natomiast Gemma 2 wygenerowała tylko 7 poprawnych zdań na 10. W wielu poprzednich wersjach modele Google, w tym Gemini, nie radziły sobie dobrze z instrukcjami użytkowników. Ta sama tendencja jest widoczna w Gemmie 2.

Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?

Przestrzeganie instrukcji użytkownika ma kluczowe znaczenie dla modeli sztucznej inteligencji. Gwarantuje niezawodność i generuje dokładne informacje zwrotne na temat podanych instrukcji. Z punktu widzenia bezpieczeństwa pomaga to również utrzymać model w ryzach, co przekłada się na lepszą zgodność z protokołami bezpieczeństwa.

Opcja wygrywająca: Lama 3

Znajdź informacje

Zarówno Gemma 2, jak i Llama 3 mają długość kontekstu wynoszącą 8 tys. tokenów. Autor dodał ogromny blok tekstu, pochodzący bezpośrednio z książki Duma i uprzedzenie, zawierający ponad 17 000 znaków i 3,8 tys. tokenów. Jak zwykle autor umieszcza gdzieś w tekście przypadkowy cytat i prosi obie modelki o jego odnalezienie.

Gemma 2 czy Llama 3 to najlepszy model open source?

Gemma 2 szybko zrozumiała informację i zauważyła, że ​​cytat został wstawiony losowo. Llama 3 również uznała i zasugerowała, że ​​takie twierdzenie wydaje się nie na miejscu. Jeśli chodzi o pamięć kontekstową o dużej pojemności, chociaż ograniczoną do tokenów 8K, oba modele są pod tym względem dość mocne.

Należy zauważyć, że autor przeprowadził ten test na HuggingChat (sieć), ponieważ meta.ai odmówiło uruchomienia tego monitu, najprawdopodobniej z powodu treści objętych prawami autorskimi.

Opcje wygranej: Gemma 2 i Llama 3

Sprawdź, czy masz halucynacje

Mniejsze modele mają tendencję do występowania halucynacji sztucznej inteligencji (AI) ze względu na ograniczoną ilość danych szkoleniowych i często zmyślają informacje, gdy model napotyka nieznane mu tematy. Autor dodał więc wymyśloną przez siebie nazwę kraju, żeby sprawdzić, czy Gemma 2 i Llama 3 mają halucynacje. I co zaskakujące, tego nie zrobili, co oznacza, że ​​zarówno Google, jak i Meta mają całkiem solidne podstawy dla swoich modeli.

Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?
Gemma 2 czy Llama 3 to najlepszy model open source?

Autor zadał jeszcze jedno (fałszywe) pytanie, aby sprawdzić wiarygodność modeli, ale ponownie nie miały one charakteru halucynogennego. Nawiasem mówiąc, autor testował Llamę 3 na HuggingChat, podczas gdy meta.ai przeglądał Internet w poszukiwaniu bieżących informacji na istotne tematy.

Opcje wygranej: Gemma 2 i Llama 3

Zakończyć

Mimo że model Gemma 2 27B firmy Google nie radzi sobie najlepiej z testami rozumowania, jest w stanie poradzić sobie z wieloma innymi zadaniami. Świetnie nadaje się do kreatywnego pisania, obsługuje wiele języków, ma dobrą pamięć i, co najważniejsze, nie jest tak halucynogenny jak poprzednie modele.

Llama 3 jest oczywiście lepsza, ale to też znacznie większy model, wytrenowany na podstawie 70 miliardów parametrów. Deweloperzy uznają model Gemma 2 27B za przydatny w wielu zastosowaniach. A dla pewności, dostępny jest również model Gemma 2 9B.

Dodatkowo użytkownicy powinni sprawdzić Gemini 1.5 Flash, który jest znacznie mniejszym modelem, a także obsługuje wprowadzanie danych multimodalnych. Nie wspominając już o tym, że jest niesamowicie szybki i wydajny.

Sign up and earn $1000 a day ⋙

Leave a Comment

Minecraft jest już dostępny w wersji natywnej na PS5, a na PS4 za darmo

Minecraft jest już dostępny w wersji natywnej na PS5, a na PS4 za darmo

Minecraft, niezwykle popularna gra 3D polegająca na eksploracji świata zbudowanego z klocków, będąca własnością firmy Microsoft, jest teraz dostępna na niemal każdej głównej platformie sprzętowej do gier — z wyjątkiem PlayStation 5.

Czym jest funkcja CORREL w programie Excel?

Czym jest funkcja CORREL w programie Excel?

Ilość danych może być przytłaczająca, ale funkcja CORREL programu Excel pomaga wyeliminować szum. Obliczanie współczynników korelacji to tajna broń, pozwalająca wykrywać ukryte trendy i podejmować mądrzejsze decyzje.

Co się stanie, jeśli utracisz swoje konto Google?

Co się stanie, jeśli utracisz swoje konto Google?

Utrata dostępu do konta Google może mieć poważne konsekwencje wykraczające poza możliwość wysyłania i odbierania wiadomości e-mail.

Google wprowadza funkcję tworzenia filmów AI w Gemini

Google wprowadza funkcję tworzenia filmów AI w Gemini

Firma Google właśnie ogłosiła, że ​​użytkownicy mogą teraz tworzyć filmy za pomocą sztucznej inteligencji za pośrednictwem swojego chatbota Gemini i niedawno uruchomionego eksperymentalnego narzędzia Whisk.

Instrukcje dotyczące tworzenia własnej postaci AI, która będzie rozmawiać ze wszystkimi

Instrukcje dotyczące tworzenia własnej postaci AI, która będzie rozmawiać ze wszystkimi

Meta AI Studio pozwala teraz na stworzenie własnej postaci AI, która będzie mogła rozmawiać z ludźmi w stylu postaci, którą sam stworzyłeś i zaprojektowałeś.

Rosja nakłada na Google wysoką karę pieniężną, kwota kary jest wielokrotnie wyższa od PKB świata

Rosja nakłada na Google wysoką karę pieniężną, kwota kary jest wielokrotnie wyższa od PKB świata

Google i Rosja wymierzyły ogromną karę pieniężną w ramach sporu prawnego o zawieszenie prokremlowskich kont na YouTubie.

Najnowszy kod legendarnego bohatera i jak go wprowadzić

Najnowszy kod legendarnego bohatera i jak go wprowadzić

Podróż do świata Trzech Królestw w grze Legend of the Proud stanie się łatwiejsza dzięki serii atrakcyjnych kodów prezentowych. Przyjrzyjmy się temu teraz.

Pierwsza osoba, której wszczepiono ChatGPT do mózgu w celu ułatwienia obsługi urządzeń elektronicznych

Pierwsza osoba, której wszczepiono ChatGPT do mózgu w celu ułatwienia obsługi urządzeń elektronicznych

Rozwiązanie ChatGPT jest testowane przez firmę Synchron, jednego z pionierów w dziedzinie implantów mózgowych (BCI), które mają pomóc pacjentom w obsłudze urządzeń elektronicznych.

Jak generatory sztuki AI ulepszają Twoje codzienne zdjęcia

Jak generatory sztuki AI ulepszają Twoje codzienne zdjęcia

Chcesz zmienić wygląd swoich codziennych zdjęć? Narzędzia do tworzenia dzieł sztuki wykorzystujące sztuczną inteligencję mogą nadać im wyjątkowego i kreatywnego charakteru, którego nie udałoby się uzyskać przy ręcznej edycji.

5 powodów, dla których sztuczna inteligencja Aria w Operze jest przydatna

5 powodów, dla których sztuczna inteligencja Aria w Operze jest przydatna

Wiele osób nie lubi sztucznej inteligencji, ponieważ chcą sami odczytywać surowe dane i je analizować. Jeśli jednak masz do wykonania jakieś żmudne zadanie i potrzebujesz pomysłów, wypróbuj Aria AI od Opery. Oto dlaczego Aria AI w Operze jest tak przydatna!

Najnowszy kod do gry House of Flying Daggers i jak go wykorzystać

Najnowszy kod do gry House of Flying Daggers i jak go wykorzystać

Code Thap Dien Mai Phuc daje graczom Kim Nguyen Bao, Hoan Khon Halo, Gold, Huyen Tinh, Huyen Tinh Chest

Black Myth: Wukong kradnie rekord Cyberpunk 2077

Black Myth: Wukong kradnie rekord Cyberpunk 2077

Biorąc pod uwagę większość pozytywnych recenzji, nie ma się co dziwić, że Black Myth: Wukong bije rekordy na Steamie.

Dowiedz się więcej o kodzie błędu 0xc00000e i jak go naprawić

Dowiedz się więcej o kodzie błędu 0xc00000e i jak go naprawić

Koszmarny niebieski ekran śmierci (BSOD) z kodem błędu 0xc00000e, który często pojawia się podczas uruchamiania systemu Windows 10, może być mylący.

Przestrzeń do wspólnej zabawy, nazwij przestrzeń

Przestrzeń do wspólnej zabawy, nazwij przestrzeń

Wiele osób używa spacji w nazwach swoich kont Play Together lub małych podkreślników, aby utworzyć odstępy między literami wpisanymi w nazwie.

Jak pobrać Black Beacon PC

Jak pobrać Black Beacon PC

Choć gra Black Beacon jest możliwa na komputerze PC, to w chwili obecnej nie jest ona oficjalnie zoptymalizowana pod kątem tej platformy.