Google DeepMind czyni stałe postępy w dziedzinie sztucznej inteligencji dzięki regularnym, wysoko cenionym aktualizacjom Gemini, Imagen, Veo, Gemma i AlphaFold. Obecnie zespół Google zajmujący się sztuczną inteligencją nadal gości na pierwszych stronach gazet, oficjalnie ogłaszając wejście do branży robotyki wraz z wprowadzeniem na rynek dwóch nowych modeli opartych na platformie Gemini 2.0: Gemini Robotics i Gemini Robotics-ER.
Gemini Robotics: Zaawansowany model widzenia-języka-działania
Gemini Robotics to zaawansowany model wizji, języka i działania (VLA) opracowany na bazie Gemini 2.0, z dodatkiem działań fizycznych jako nowej metody wyjściowej do sterowania robotem. Google twierdzi, że nowy model jest w stanie zrozumieć sytuacje, z którymi nie zetknął się podczas szkolenia.
W porównaniu z innymi wiodącymi modelami VLA, Gemini Robotics osiąga dwukrotnie lepsze wyniki w kompleksowych testach generalizacji. Ponieważ został zbudowany na bazie modelu Gemini 2.0, jest w stanie zrozumieć wiele różnych typów języków naturalnych, co oznacza, że może dokładniej rozumieć polecenia wydawane przez człowieka.
Jeśli chodzi o zręczność, Google twierdzi, że Gemini Robotics może wykonywać złożone, wieloetapowe zadania wymagające precyzyjnej manipulacji. Na przykład, ten model może składać origami lub pakować przekąski do woreczków Ziploc.
Gemini Robotics-ER: Model wizualno-językowy skupiający się na rozumowaniu przestrzennym
Gemini Robotics-ER to zaawansowany model wizualno-lingwistyczny, skupiający się na rozumowaniu przestrzennym, umożliwiający specjalistom od robotyki integrację z istniejącymi kontrolerami niskiego poziomu. Korzystając z tego modelu, robotyk będzie mógł jednocześnie wykonywać wszystkie kroki potrzebne do sterowania robotem, w tym postrzeganie, szacowanie stanu, rozumienie przestrzenne, planowanie i generowanie kodu.
Przyszłość robotyki Gemini
Google nawiązuje współpracę z firmą Apptronik w celu budowy humanoidalnych robotów bazujących na modelach Gemini 2.0. Google współpracuje również z wieloma zaufanymi partnerami testowymi, m.in. Agile Robotics, Agility Robotics, Boston Dynamics i Enchanted Tools, aby pokierować przyszłym rozwojem Gemini Robotics-ER.
Umożliwiając robotom zrozumienie i wykonywanie złożonych zadań z większą dokładnością i elastycznością, Google DeepMind toruje drogę do przyszłości, w której roboty będą mogły bezproblemowo integrować się z wieloma aspektami naszego życia.